Linly-Chinese-LLaMA-2-13B

Llama-2-13B是由Meta AI研发并开源的、基于优化的Transformer架构、在2T tokens开源数据上训练的13B参数自回归语言模型。Linly-Chinese-LLaMA-2-7B由深圳大学“伶荔”项目团队使用 LLaMA2 扩充中文词表，在混合语料上进行增量预训练。

训练细节和benchmark指标： https://github.com/CVI-SZU/Linly

本项目向社区提供 中文对话模型 Linly-ChatFlow 、中文基础模型 Chinese-LLaMA (1-2)、Chinese-Falcon 及其训练数据 。

模型基于 TencentPretrain 预训练框架全参数训练（Full-tuning）。

中文基础模型以 LLaMA 和 Falcon 为底座，使用中文和中英平行语料进行增量预训练，将其在英文上的语言能力扩展到中文上。同时，项目汇总了目前公开的多语言指令数据，对中文模型进行大规模指令跟随训练，实现了 Linly-ChatFlow 对话模型。

此外，本项目开源了从头训练的 Linly-OpenLLaMA 模型，包含 3B、7B、13B 规模，在 1TB 中英文语料上进行预训练，针对中文优化了字词结合tokenizer，此模型以 Apache 2.0 协议公开。

🚀 通过 Full-tuning （全参数训练）获得中文LLaMA、Falcon等模型，提供 TencentPretrain 与 HuggingFace 版本