Sailor：是一套为东南亚国家量身定制的语言模型

由于东南亚（SEA）地区语言多种多样，大多数现有的模型无法满足该地区需求。

Sailor基于Qwen 1.5训练开发，覆盖7种语言（包括印尼语、泰语、越南语、马来语、老挝语、英语和中文）

有4种不同大小的版本（0.5B、1.8B、4B和7B），支持不同的需求。

持续预训练：Sailor模型基于Qwen 1.5模型进一步进行了持续预训练，涵盖了200亿到400亿个标记，包括印尼语、泰语、越南语、马来语、老挝语、英语和中文七种语言，以适应东南亚多样化的语言环境。
数据策划和清理：训练语料库大量利用了公开可用的语料库，如SlimPajama、SkyPile、CC100和MADLAD-400。通过积极的数据去重和仔细的数据清理，确保了高质量的数据集。
系统实验确定权重：通过系统实验来确定不同语言的权重，确保了模型在各个语言上都能获得良好的训练效果，同时保持对英语和中文的高水平支持。

Sailor模型在多个高质量基准测试上进行了评估，包括问答、常识推理、阅读理解和考试等不同任务，展现了其在SEA语言上的强大性能。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

开通会员