模型 | 训练数据 | 参数量 | 数据量 | 下载链接 |
LLaMA | 英文CommonCrawl、C4、Github、Wikipedia、Gutenberg and Books3、ArXiv、Stack Exchange | 7B | 1.0T | 暂无 |
| | 13B | 1.0T | 暂无 |
| | 33B | 1.4T | 暂无 |
| | 65B | 1.4T | 暂无 |
Llama 2 | 开放的互联网数据,没有详细介绍 | 7B | 2.0T | |
| | 13B | 2.0T | |
| | 33B | 2.0T | 官方未开放 |
| | 65B | 2.0T | |
Llama 3 | | 8B、70B | 15.0T+ |
模型 | 训练数据 | 参数量 | 模型类别 | 下载链接 |
Code LLama | 在Llama 2的基础上,采用500B tokens的公开代码数据集训练。为了帮助模型保持对自然语言的理解能力,从与代码相关的自然语言数据集中获取了8%的样本数据,包含了许多关于代码的讨论、自然语言问题或答案中的代码片段 | 7B | 基础模型 用于代码生成的基础模型 Python版本 针对Python语言优化的模型 Instruct版本 通过人类指令和合成代码数据微调的模型 | |
| | 13B | | |
| | 34B | | |
| | 70B | |
模型 | 训练数据 | 参数量 | 数据量 | 下载链接 |
Atom | 中文以及多语种的百科、书籍、博客、新闻、小说、金融数据、法律数据、医疗数据、代码数据、专业论文数据、中文自然语言处理竞赛数据集等 | 1B | 2.7T | |
| | 7B | 2.7T | |
| | 13B | 2.7T |