StarCoder2拥有三种不同规模的模型,参数量分别为3B、7B和15B。特别地,15B参数的StarCoder2在超过4万亿个token和600多种编程语言上接受了训练,这些训练数据来自于更新且质量更高的代码数据集——Stack v2。所有的StarCoder2模型均采用分组查询注意力机制,具有16384个token的上下文窗口和4096个token的滑动窗口注意力,采用Fill-in-the-Middle训练方法。
StarCoder2拥有三种不同规模的模型,参数量分别为3B、7B和15B。特别地,15B参数的StarCoder2在超过4万亿个token和600多种编程语言上接受了训练,这些训练数据来自于更新且质量更高的代码数据集——Stack v2。所有的StarCoder2模型均采用分组查询注意力机制,具有16384个token的上下文窗口和4096个token的滑动窗口注意力,采用Fill-in-the-Middle训练方法。