⏬ 模型部署

📚

Meta在🤗Huggingface上提供了所有模型的下载链接：https://huggingface.co/meta-llama

预训练模型

Llama2预训练模型包含7B、13B和70B三个版本

Atom-7B 预训练模型, 增加了30%的中文数据进行训练，训练数据量为2.7T。​

LLama3预训练模型包含8B和70B两个版本

Chat模型

Llama2-Chat模型基于预训练模型进行了监督微调，具备更强的对话能力​

Atom-7B-Chat 基于Llama2进行中文预训练的开源大模型，加强了中文对话能力。​

Llama3-8B-Instruct、Llama3-70B-Instruct基于预训练模型进行了监督微调，具备更强的对话能力。​

Llama3-Chinese-8B-Instruct 基于中文微调的对话模型，加强了中文对话能力。​

模型调用代码示例

代码块

import torch​
from transformers import AutoTokenizer, AutoModelForCausalLM​
device_map = "cuda:0" if torch.cuda.is_available() else "auto"​
model = AutoModelForCausalLM.from_pretrained('FlagAlpha/Atom-7B-Chat',device_map=device_map,torch_dtype=torch.float16,load_in_8bit=True,trust_remote_code=True,use_flash_attention_2=True)​
model =model.eval()​
tokenizer = AutoTokenizer.from_pretrained('FlagAlpha/Atom-7B-Chat',use_fast=False)​
tokenizer.pad_token = tokenizer.eos_token​
input_ids = tokenizer(['<s>Human: 介绍一下中国\n</s><s>Assistant: '], return_tensors="pt",add_special_tokens=False).input_ids​
if torch.cuda.is_available():​
  input_ids = input_ids.to('cuda')​
generate_input = {​
    "input_ids":input_ids,​
    "max_new_tokens":512,​
    "do_sample":True,​
    "top_k":50,​
    "top_p":0.95,​
    "temperature":0.3,​
    "repetition_penalty":1.3,​
    "eos_token_id":tokenizer.eos_token_id,​
    "bos_token_id":tokenizer.bos_token_id,​
    "pad_token_id":tokenizer.pad_token_id​
}​
generate_ids  = model.generate(**generate_input)​
text = tokenizer.decode(generate_ids[0])​
print(text)​

⏬ 模型部署​

⏬ 模型部署