公告/发布日期:2024/10/08

米乐m6中国官方网站 Llama 31 Swallow,提高开源LLM的日语能力,已发布

-大规模语言模型,在保持英语熟练程度的同时增强日语理解、表达和互动技能-

积分

  • 在大型语言模型 Llama 31 中提高日语水平,同时保持英语水平
  • 拥有Llama 31许可,不仅可以用于商业用途,还可以用于改进其他模型
  • 在许多需要高级日语处理的情况下推广生成式 AI 技术的使用

摘要

东京理科大学(理科东京)*信息科学技术学部冈崎直树教授、横田里奥教授等研究团队以及米乐m6官方网站(AIST)日语能力出色大语言模型(第1期)“燕子”系列最新版本“Llama 31燕子”已发布(见公共链接)。这次是80亿参数(第 2 项、8B),分别针对 700 亿个参数的规模 (70B)基本型号(第 3 学期)和指导模型(第4期)共发布了4种模型。该模型是在 Llama 31 许可下发布的,因此它不仅可以用于商业用途,还可以用于改进其他模型。

科学东京和 AIST 的研究团队成功提高了大规模语言模型(来自美国 Meta, Inc 的 Llama 31)的语言理解、生成和会话能力,该模型具有很强的英语语言理解、生成和会话能力,而没有显着降低其能力。特别是,被证实具有 80 亿个参数的模型比现有的相同规模的大规模语言模型具有更高的理解和生成日语的能力。为了在日语和英语方面实现高性能,研究团队致力于提高用于学习和自动生成指令调整数据的日语网络语料库的规模和质量。

公共链接:https://swallow-llmgithubio/llama31-swallowjahtml


*2024年10月1日,东京医科齿科大学和东京工业大学合并,成为东京理科大学(Science Tokyo)。


背景

科学东京和AIST研究团队一直致力于研究和开发,旨在创建一个强大的日语大规模语言模型,以阐明具有高语言理解、生成和交互能力的大规模语言模型的构建方法和机制。研究团队于2023年12月发布的大规模语言模型Swallow、2024年3月发布的Swallow-MS和Swallow-MX、2024年7月发布的Llama 3 Swallow均获得了众多用户的支持,正在学术研究和商业中应用。与此同时,国内外研究机构和公司在开放式大规模语言模型的开发方面也取得了进展,积累了开发高性能大规模语言模型的技术,例如进一步增加预训练数据的规模和质量、利用(自动生成的)合成数据、提高大规模语言模型训练的效率等。研究团队还描述了如何构建大规模日语网络语料库(参考文献1),继续预学习增强大规模语言模型的日语能力的方法(第 5 条)(参考文献 2)。此外,为了寻找开发大规模语言模型的良方,除了对研究团队原型的大规模语言模型进行评估实验外,我们还对其他公司和研究机构开发的大规模语言模型进行评估实验。2024年4月至9月的六个月内,实验数量达到约400个。通过分析实验结果,我们发现了大规模语言模型在教授日语时可以提高的能力的共性,并将我们的研究结果发表在论文中(参考文献3)。此次开发发布的大型语言模型Llama 31 Swallow系列是研究团队最新技术和知识相结合的成果。

为此,研究团队获得了在 AI 桥接云基础设施(ABCI(图 1))上实施的“大规模生成式 AI 研究与开发支持计划”的支持,并有机会独家使用 ABCI 的某一部分(36 个高性能计算节点,称为 A 节点)长达 140 天。此外,作为模型的训练数据,我们使用了东京工业大学(现为东京理科大学)作为新能源产业技术综合开发机构(NEDO)项目开发的大型日语网络语料库(参见研究结果1)。

图 1

图 1 AIST AI 桥接云 ABCI

研究结果

1。提高日语网络语料库的规模和质量

研究团队中普通抓取分发的整个档案中独立提取和提炼日语文本,构建了日语网络语料库(Swallow Corpus Version 2)。 (第 6 期)(94 个快照,从 2013 年到 2023 年收集的约 2547 亿页)。这一规模大约是 Swallow 语料库版本 1(参考文献 1)的四倍,该版本用于构建之前的 Swallow 模型(基于构建语料库时目标网页总数的比较)。另外,在仔细选择适合训练大规模语言模型的网页之后重复删除(第 7 项)更容易细化语料库,但在 Swallow Corpus Version 2 中,这个过程流程已被颠倒过来,以便您稍后可以尝试通过反复试验来选择网页的方法。按此顺序构建语料库需要更多的处理时间和存储容量,因此很难删除重复项,但删除所有日语页面对的重复项大约需要一个月的时间。去重后,日本网页的大小为 32 万亿字符(19 亿页)。

Swallow Corpus Version 1 使用平假名比例和字符数等启发式规则精心挑选网页。在构建 Llama 31 Swallow 模型时,我们验证了这些规则的有用性,并仅选择了适合训练大规模语言模型的规则。此外,我们认为维基百科文章对于大规模语言模型具有很高的“教育价值”,并使用机器学习构建了一个分类器,可以自动估计网页的教育价值。根据这些标准精心挑选的文本数据与数学、编码等数据混合,创建约 2000 亿个 token 组成的训练数据,用于 Llama 31 Swallow 的持续预学习。如图2所示,Llama 31 Swallow 8B的日语理解/生成任务(问答、翻译、总结、算术、通识题、代码生成等10个任务)的平均得分为04905,高于之前版本的Llama 3 Swallow。这比平均分 8B(04717)提高了约 2 分,实现了 8B 以下开放大规模语言模型中的最高性能(截至 2024 年 10 月)。

图2

图 2 主要基础模型的日语理解/生成任务的平均得分(8B 或更少)

2。使用合成数据提高对话能力

提高大规模语言模型交互能力的关键是使用由多样化且复杂的指令和有用且流畅的响应组成的训练数据来调整指令。理想情况下,希望收集大规模语言模型提出的问题的数据,并通过手动分配的适当答案构建数据,但这需要大量的时间和精力。为了快速且廉价地构建训练数据,研究团队采用了模仿现有具有高交互能力的大规模语言模型的响应的方法。具体来说,我们将包含人类与大规模语言模型交互历史的LMSYS-Chat-1M数据集的指令语句翻译成日语,并使用具有开放模型中顶级交互能力的Llama 31 405B Instruct自动生成响应语句。此外,遵循Llama 31构建的方法论,我们采用了生成多个响应句子,然后让Llama 31 70B Instruct自动对偏好进行评分并选择最佳响应句子的想法。此外,通过检测和删除包含重复指令、机械指令和不必要的重复的响应,提高了数据质量。

除了我们自己使用上述方法构建的合成数据外,我们还使用现有数据对 Llama 31 Swallow 进行引导调整。结果,与 Llama 3 Swallow 8B Instruct 相比,Llama 31 Swallow 8B Instruct 在衡量对话能力的 Japanese MT-Bench 上的平均得分提高了约 56 分(从 04766 到 05327),在 8B 或以下的大规模语言模型中实现了顶级的对话性能(图 3)。此外,Llama 3 Swallow Instruct 还存在一个问题,即它倾向于返回英语或混合英语的响应,但通过将模仿目标更改为 Llama 31 405B 并仔细检查自动生成的数据中包含日语的比例,现在它会返回许多日语响应。

图3

图3主要指令调优模型的性能(8B及以下,按日语理解和生成任务的得分顺序)

3。在继续之前的学习中保持英语水平

当大规模语言模型的日语语言能力通过不断的预训练得到加强时,观察到大规模语言模型原有的能力(主要是理解和生成英语的能力)趋于下降。例如,从 Llama 2 7B 到 Swallow 7B 继续预学习时,英语理解/表达任务的平均得分下降了 61 分,从 Llama 2 70B 到 Swallow 70B 则下降了 27 分。为了向大规模语言模型教授日语,有必要假设模型的英语能力会下降,但对于算术推理、常识和代码生成等任务,英语中获得的能力很容易转移到日语中,因此最好保持原有的能力(参考文献2)。

在开发 Llama 31 Swallow 时,我们选择了训练数据来提高普通教育任务和代码生成任务的性能。因此,我们决定采用 DataComp-baseline 等数据集,该数据集在普通教育任务中显示出有效性,而 The Stack v2 则在代码生成任务中显示出有效性。此外,当我们在初步实验中寻找最佳数据集组合时,我们发现,当我们继续从 Llama 31 8B 到 Llama 31 Swallow 8B 进行预训练时,英语语言理解和生产任务的平均得分仅下降了 06 分,但另一方面,从 Llama 31 70B 到 Llama 31 Swallow 70B,我们获得了 14 分的提升。图4显示了Swallow 7B和Llama 31 Swallow 8B连续预学习前后英语语言理解和生产任务分数的雷达图。在Swallow 7B中,每个任务的分数下降很明显,而在Llama 31 Swallow 8B中,分数的下降受到抑制。关于此类数据集的选择和组合的知识是探索构建日语和英语都强大的大规模语言模型的重要结果。

图4

图4 持续预学习前后英语语言理解和生产任务分数的变化
(左边是第一代Swallow,右边是Llama 31 Swallow)

4。提高分布式并行学习的处理速度

大规模语言模型训练采用使用多个 GPU 的分布式并行学习。通过增加GPU的使用数量,模型学习的整体处理速度会提高,但GPU之间的通信成为瓶颈,因此每个GPU的处理速度(计算效率)往往会下降。因此,我们引入了一种通过仔细交织计算和通信来抑制计算效率下降的方法。除此之外,我们重新考虑了分布式并行学习设置,并探索了学习 Llama 31 Swallow 的最佳设置。图 5 显示了 Llama 31 Swallow 连续预训练中每个 GPU 的处理速度(TFLOP/秒,第 8 项),即显示了计算效率。如图 5 所示,微批次我们确认,当设置 size = 2(第 9 项)时,即使在 128 个 GPU(16 个节点)上训练大规模语言模型,也可以实现相当于或高于在 8 个 GPU(1 个节点)上训练时的计算效率(1849 TFLOP/s)。

此外,当 GPU 数量增加时,训练可能会意外停止,从而导致大规模语言模型的学习效率下降。通过调整Llama 31 Swallow持续预学习的通信设置,我们能够显着减少学习中途无意停止的情况,并成功提高计算资源的效率。

图 5

图 5 ABCI A100 (40 GB) 上增加 GPU 数量时的计算效率

未来发展

已发布的大规模语言模型将使学术界和工业界受益。除了在自然语言处理和人工智能领域产生新的研究成果外,还将推动朝着实现可靠的人工智能方向进行研究和开发。在工业领域,您不仅可以通过API在内部运行大规模语言模型而不依赖于外部公司,还可以调优专门针对特定任务的模型。我们相信,针对日语和英语的强大且开放的大规模语言模型的出现,将进一步推动日本大规模语言模型的研究、开发和利用,并将推动产品开发和技术创新。

 

附加说明

AIST政策预算项目“物理领域的生成AI基本模型的研究和开发”,新能源产业技术综合开发机构(NEDO)项目“下一代人工智能和机器人的核心综合技术开发”项目(JPNP18002)“基于专家视角的设计风险评估工作中支持决策的人工智能应用技术的开发”,文部科学省技术补贴项目“建立研发中心,确保生成的人工智能模型的透明度和可靠性”等支持。


术语解释

(1) 大规模语言模型
这是一种大规模的语言模型训练,可以量化文本出现的可能性,并可以预测给定上下文(问题)后将出现的文本(响应)。[返回来源]
(2) 参数
是决定大规模语言模型等神经网络行为的数值数量,是神经网络规模的指标。[返回来源]
(3) 基础模型
仅使用预训练和连续预训练构建的语言模型。该模型已经获得了有关语言和世界的常识知识,但缺乏遵循给定指令的能力。[返回来源]
(4) 指令调整模型
一种模型,通过使用连接指令和响应的学习数据微调基本模型,开发出遵循给定指令的能力。[返回来源]
(5)持续预习
一种对已训练的大规模语言模型执行额外预训练的方法。它在利用不同语言和领域的语言模型时使用。[返回来源]
(6) 普通抓取
一个非营利组织,负责抓取和收集网站并免费提供档案。[返回来源]
(7) 重复删除
从网页集合中检测并删除具有重复内容的网页的进程。这是为大规模语言模型构建语料库时消耗最多执行时间和计算资源的过程。由于重复数据删除所需的计算量随着要处理的页面数量的增加而增加,因此通常的情况是先仔细选择网页(缩小范围),然后再执行重复数据删除,以节省执行时间和计算资源。然而,如果在该处理流程中改变选择网页的方法,则需要再次执行重复去除。因此,通过首先删除重复项,Swallow Corpus 版本 2 使得通过实验检查(试错)方法来选择精心挑选的网页成为可能。[返回来源]
(8) TFLOP/秒
计算机处理速度的指标。每秒可以执行的浮点运算数,以万亿表示。[返回来源]
(9) 微批次
在大规模语言模型的分布式并行学习中,将模型参数分层并放置在GPU上称为管道并行。在管道并行中,小批量被进一步划分,并以称为微批量的单位进行处理和通信,以提高 GPU 利用率。[返回参考源]
 

参考文献

[1]       Naoaki Okazaki、Kakeru Hattori、Hirai Shota、Hiroki Iida、Masanari Ohi、Kazuki Fujii、Taishi Nakamura、Mengsay Loem、Rio Yokota 和 Sakae Mizuki。为大型语言模型构建大型日语网络语料库。在第一届语言建模会议 (COLM) 会议记录,2024 年 10 月。
[2]  Kazuki Fujii、Taishi Nakamura、Mengsay Loem、Hiroki Iida、Masanari Ohi、Kakeru Hattori、Hirai Shota、Sakae Mizuki、Rio Yokota 和 Naoaki Okazaki。跨语言法学硕士适应的持续预培训:增强日语能力。在第一届语言建模会议 (COLM) 论文集,2024 年 10 月。
[3]  斋藤幸四郎、水木荣、大井诚也、中村康司、盐谷大平、前田功起、马由美、服部翔、藤井一树、冈本拓海、石田茂树、高村大也、横田里约、冈崎直觉。让法学硕士学习日语文本的意义。日本信息处理学会第261届自然语言处理研究小组研究报告(2024-NL-261),12,第1-15页,2024年9月。(优秀研究奖)


联系我们

查询表