东京工业大学(以下简称东京工业大学)信息科学技术学院和日本国立产业技术综合研究所(以下简称AIST)冈崎直树教授和横田里奥教授的研究团队是具有出色日语能力的生成式AI的基础大规模语言模型“燕子”已发布(公共链接)。该模型是目前日语中最大的大规模语言模型,并且由于开放且可商用,因此在商业中可以放心使用。
东京工业大学和 AIST 的研究团队通过扩展大型语言模型(Meta, Inc 的 Llama 2)的日语能力构建了“Swallow”,该模型具有较高的英语理解和对话能力。为了强化日语语言能力,同时保持大规模语言模型扩展前的高语言处理能力,研究团队在语言模型中添加了日语字符和单词。词汇后,继续使用新开发的日语数据构建模型继续预学习这次参数数量是70亿个参数(7B)、130 亿个参数 (13B) 和 700 亿个参数 (70B)。
公共链接:
https://tokyotech-llmgithubio/
OpenAI 的 ChatGPT 和 GPT-4、Google 的 PaLM 2 和 Gemini 等大规模语言模型的研发正在迅速进展。日语强大的大规模语言模型的开发一直在取得进展,原因有多种,包括自然语言处理和人工智能研究开发的推进、大规模语言模型机制的阐明、依赖国外带来的安全风险担忧以及可靠的人工智能的实现。然而,日语强大、开放、高性能的大规模语言模型却很少。因此,东京工业大学和AIST开始了大规模语言模型开发的联合研究。在这项联合研究中,东京工业大学主要致力于通过扩大数据词汇量来提高模型学习和推理效率,而AIST则提供AI桥接云基础设施(ABCI,图1)作为模型构建所必需的大规模计算资源,并主要负责通过持续学习来提高模型的日语能力。此外,作为模型的训练数据,我们使用了东京工业大学开发的大型日语网络语料库(参见研究结果 3),该语料库是新能源和工业技术开发组织 (NEDO) 项目的一部分。该结果的一部分由大学间研究机构公司信息与系统研究组织发表。由国立情报学研究所(以下简称“NII”)、AIST、东京工业大学、NII主办的研究小组LLM-jp(LLM研究开发团队,包括NII、东北大学、东京大学、早稻田大学等)将于2023年9月举行。这是由于共同提出并通过的“大规模基础设施模型建设支持计划”,提供了独家使用其某些部分的机会。 AIST 的 ABCI(高性能计算节点,称为 A 节点)最长可达 60 天。

图1 AIST AI桥接云ABCI
1。通过不断的预学习,显着提高Llama2的日语水平
美国 Meta AI 开发的 Llama 2 系列作为开放、高性能、大规模的语言模型正在获得世界各地的支持。 Llama 2 还支持日语,因为它是使用多种语言(包括日语)的数据进行训练的。然而,Llama 2 的预学习数据中大约 90% 是英语,日语的比例仅占总数的 010% 左右。因此,虽然Llama 2在英语方面表现出色,但它的弱点在于日语读写能力不强。
因此,研究团队基于 Llama 2 的 7B、13B 和 70B 模型,使用大规模日语网络语料库和英语语料库 9:1 混合进行持续预训练,旨在在发挥原始语言模型能力的同时提高日语水平。结果,在我们使用的日语基准数据中,7B、13B 和 70B 模型都表现出了比基础模型更高的性能。此外,连续预训练的有效性得到了证明,因为它比仅使用日语语料库预训练的相同大小的大型日语模型表现出更高的性能。
2。通过扩大词汇量提高大规模语言模型的学习和推理效率
在骆驼 2 中字节对编码令牌然而,由于 Llama 2 被训练为多语言模型,重点是英语,因此主要的日语单词和字符可能不包含在词汇表中,并且文本可能会被划分为不自然的单元。例如,7个字符的文本“我是一只猫”被分为13个人类难以理解的标记,例如“吾辈是猫”。这是因为汉字“go”、“hai”和“neko”不包含在词汇中。字节回退允许这些汉字以 UTF-8 字符代码的字节表示。
缺乏日语词汇的语言模型不仅以不自然的单位处理日语,而且还用更多标记表示文本,从而降低了学习和生成效率。训练大规模语言模型所需的计算预算与 token 数量成正比,因此在计算预算不变的情况下,可以通过用更少的 token 表示文本来将更多信息打包到训练中。另外,大规模语言模型生成文本所需的时间与token的数量成正比,因此如果要生成相同的文本,如果能够使用更少的token来表达,则可以在更短的时间内输出结果。此外,在大规模语言模型的输入和输出中,一次可以处理的标记长度是有上限的。如果可以使用更少的标记来表达输入,则可以包含更多的任务指令和解决方案(少镜头示例),这也有望提高下游任务的性能。通过向 Llama 2 的分词器添加 16,000 个日语标记,研究团队将日语文本的标记长度减少到 562%。
3。大型日语网络语料库的开发
训练大规模语言模型需要大量语言数据。其中,从网页收集并转换为文本的数据是构建大规模语言模型的关键。传统上,现有数据集(例如 CC-100、mC4 和 OSCAR)的日语部分已用于训练开放的日语大规模语言模型。然而,这些数据集存在一些问题,例如将网页的 HTML 转换为文本产生的噪音,并且不包含最新的信息和知识。此外,由于这些数据集是作为多语言数据集构建的,因此没有采取措施专门提高日语数据的质量。
因此,研究团队普通抓取分发的档案中独立提取和精炼了日语文本。 (2020年至2023年收集的21个快照,约634亿页),并构建了由约3121亿字符(约173亿页)组成的日语网络语料库。这一规模是最大的商用日语模型训练语料库,超过了 CC-100(约 258 亿个字符)、mC4(约 2397 亿个字符)和 OSCAR 2310(约 740 亿个字符)。
虽然大规模语言模型在全球范围内变得越来越大规模,但很少有能力处理日语,但随着该模型的发布,我们可以在日常生活和工业环境中更多需要高级日语处理的场景中推广对话系统等人工智能技术的使用。此次发布的Swallow许可证继承了Llama 2的LLAMA 2社区许可证,只要遵循该许可证,就可以用于研究和商业目的。
Llama 2 许可证官方信息:https://aimetacom/llama/license/
已发布的大规模语言模型将使学术界和工业界受益。在学术领域,作为大规模日语模型的标准用于研发,在自然语言处理和人工智能领域产生新的研究成果,推动朝着实现可靠的人工智能方向进行研究和开发。在工业领域,不仅可以通过使用API在内部运行大规模语言模型而不依赖外部公司,还可以调整专门用于特定任务的模型。我们相信,强大的、对日语开放的大规模语言模型的出现,将进一步推动日本大规模语言模型的研究、开发和利用,并推动产品开发和技术创新。
ABCI:由AIST基础设施建设和运营的AI Bridging Cloud)的“大规模语言模型构建支持计划”,国家研究开发公司新能源和产业技术开发组织(NEDO)的“开发人工智能应用技术,以支持基于专家视角的设计风险评估工作决策”项目(JPNP18002)“开发作为核心的集成技术”下一代人工智能和机器人”等支持。