技术细节 | Gemma 1 (<url_9ec737fc>) | Gemma 2 (<doc_a4772062>) |
---|---|---|
模型规模 | 2B和7B参数模型 | 2B、9B和27B参数模型 |
知识蒸馏 | 无 | 2B和9B模型使用知识蒸馏 |
架构改进 | 多查询注意力、RoPE嵌入、GeGLU激活、RMSNorm | 局部滑动窗口和全局注意力、Logit soft-capping、Post-norm和pre-norm与RMSNorm、分组查询注意力(GQA) |
训练数据 | 2B模型训练于2T文本,7B模型训练于6T文本 | 27B模型训练于13T文本,9B模型训练于8T文本,2.6B模型训练于2T文本 |
训练方法 | 无知识蒸馏,使用SFT和RLHF进行微调 | 使用知识蒸馏,SFT和RLHF微调 |
性能提升 | 在11/18个文本任务上超越类似规模的开放模型 | 在各种自动化基准测试和人类评估中,相对于可比规模的开放模型,性能有显著提升 |
应用领域 | 包括问答、常识推理、数学和科学、编程等 | 包括问答、常识推理、数学和科学、编程等,以及多模态和多语言能力 |
安全和责任 | 采用结构化方法来负责任的开发和部署模型,包括数据过滤、安全评估和工具包发布 | 采用三支柱方法来确保模型安全,包括训练时的安全缓解、健壮和透明的模型评估,以及负责任的生成式AI工具包的开发 |
结论 | 展示了Gemma在开放语言模型性能、安全性和负责任开发方面的进展,并强调了未来研究的重要性 | 强调了知识蒸馏在训练小型语言模型方面的有效性,并展示了Gemma 2在各种任务上的性能提升,同时强调了安全性和负责任性的重要性 |
性能比较 | Gemma 1 (<url_9ec737fc>) | Gemma 2 (<doc_a4772062>) |
---|---|---|
MMLU | 2B模型:42.3%,7B模型:64.3% | 2.6B模型:75.2%,9B模型:75.2%,27B模型:76.2% |
HellaSwag | 2B模型:71.4%,7B模型:81.2% | 9B模型:86.4%,27B模型:86.4% |
PIQA | 2B模型:77.3%,7B模型:81.2% | 9B模型:83.2%,27B模型:83.2% |
SIQA | 2B模型:47.0%,7B模型:51.8% | 9B模型:53.4%,27B模型:53.7% |
Boolq | 2B模型:69.4%,7B模型:83.2% | 9B模型:84.2%,27B模型:84.8% |
Winogrande | 2B模型:65.4%,7B模型:72.3% | 9B模型:80.6%,27B模型:83.7% |
CQA | 2B模型:65.3%,7B模型:71.3% | - |
OBQA | 2B模型:47.8%,7B模型:52.8% | - |
ARC-e | 2B模型:73.2%,7B模型:81.5% | 9B模型:88.0%,27B模型:88.6% |
ARC-c | 2B模型:42.1%,7B模型:53.2% | 9B模型:68.4%,27B模型:71.4% |
TriviaQA | 2B模型:53.2%,7B模型:63.4% | 9B模型:76.6%,27B模型:83.7% |
NQ | 2B模型:12.5%,7B模型:23.0% | 9B模型:29.2%,27B模型:34.5% |
HumanEval | 2B模型:22.0%,7B模型:32.3% | 9B模型:51.8%,27B模型:无数据 |
MBPP | 2B模型:29.2%,7B模型:44.4% | 9B模型:59.2%,27B模型:67.4% |
GSM8K | 2B模型:17.7%,7B模型:46.4% | 9B模型:68.6%,27B模型:无数据 |
MATH | 2B模型:11.8%,7B模型:24.3% | 9B模型:42.3%,27B模型:无数据 |
AGIEval | 2B模型:24.2%,7B模型:41.7% | 9B模型:55.1%,27B模型:无数据 |
BBH | 2B模型:35.2%,7B模型:55.1% | 9B模型:68.2%,27B模型:无数据 |
请注意,以上数据仅供参考,实际性能可能会因各种因素而有所不同。