米乐m6官方网站[会长:中钵良二](以下简称“AIST”)纳米电子研究部[研究部主任 Takashi Nakano] 纳米 CMOS 集成小组与首席研究员 Shinichi Ouchi信息技术研究部[研究部主任 Yoshio Tanaka] 网络物理云研究小组研究小组组长 Ryosei Takano 与东京大学信息技术中心工藤实验室合作,设计了一种计算方法和电路,以缩短机器学习的训练过程时间。机器学习由模型处理输入并输出识别结果和未来预测的推理过程和学习大量数据并构建更好的模型的训练过程组成。尽管有很多加速推理处理的方法,但是没有确定的加速训练处理的方法,这需要很长的处理时间。通常,训练过程是 32位8821_8931模拟,我们确认每单位功耗的处理能力比传统方法高出大约五倍。这项技术是可重构硬件FPGA的机器学习系统中以及专用于机器学习的处理器。
这项技术的详细信息将在意大利佛罗伦萨举行的 IEEE 国际电路与系统会议(2018 年)上公布。IEEE 国际电路与系统研讨会) 将于 5 月 28 日(欧洲中部时间)公布。
 |
| 机器学习中的处理流程以及此处提出的计算方法的应用示例 |
机器学习广泛应用于交通、服务、咨询、医药、制造等各个领域提供基于大数据的服务。在机器学习中,推理的准确性取决于训练处理生成的模型的质量,因此需要使用大量数据进行训练处理。此外,由于训练处理比推理处理需要更高的数值计算精度,因此它需要更多的处理能力。因此,处理所需的时间和功耗就成为问题。
AIST 的纳米电子研究部门和信息技术研究部门自 2016 财年以来一直在新能源和产业技术开发组织 (NEDO) 项目“促进物联网的跨交叉技术开发项目”上合作。我们正在与东京大学信息技术中心工藤实验室共同研究“使用节能人工智能引擎和集成异构引擎的云的人工智能平台”。这项研究是该工作的一部分。
机器学习训练过程通常使用 32 位或 16 位数字表示。通常,增加表示数值的位数可以提高计算精度,但会增加执行处理的电路规模,从而增加处理时间和功耗。相反,如果位数减少,则电路规模变小,处理时间和功耗减少,但计算精度恶化。这次,我们分析了机器学习训练处理中出现的数值范围,设计了一种可以用有限的位数准确表示所有数据的数据格式,以及即使用少量的位数也可以准确执行训练处理中使用的乘法和加法的计算方法。
在图 1 中,IEEE 标准的32位数据格式以及本次设计的9位数据格式。 32位数据格式有1位符号,指数部分8 位,尾数虽然由 23 位组成,但当前的 9 位数据格式由 1 位符号、5 位指数部分和 3 位尾数部分组成。在32位格式的情况下,乘法电路大约占据运算电路的80%。在9位数据格式中,尾数已从23位减少到3位,因此乘法电路约为32位格式的1/30。此外,通过将指数部分的位数从8位增加到5位,并且将运算电路的输入从32位减少到9位,将数据从存储器等移动到运算电路所需的能量可以减少约1/4。
另一方面,加法器电路极大地影响了使用生成模型进行推理的准确性,它通过将尾数设置为 23 位来保持学习准确性。这导致数值计算的精度下降。信息缺失'',这也提高了机器学习训练处理的准确性。在加法器电路中,将尾数增加到23位对电路的整体尺寸影响不大。
 |
| 图1 新开发的计算方法中使用的数据格式 |
 |
| 图2 实现新开发的计算方法的运算电路 |
图2显示了执行本次设计的计算方法的电路。机器学习训练过程通常使用“乘积和运算”,将两个数字 a 和 b 相乘,并将它们添加到内部存储的数字 c。该电路首先接受两个 9 位格式的输入并将它们相乘。接下来,将乘法结果的尾数部分转换为23位,通过移位处理来对齐数字,然后使用23位进行加法。加法结果被转换回9位格式并输出。我们通过仿真估算了该计算方法和电路的推理精度和功耗。与使用 32 位格式的情况相比,使用 9 位格式生成的模型的推理精度下降被抑制到约 2%。另一方面,通过使用9位格式,估计电路规模可以减少到约1/5,并且所需的功耗可以减少到约1/5。将电路尺寸和功耗减少到约1/5,意味着如果使用相同规模的硬件,速度可提高约5倍。
使用搭载本次设计的电路的处理器,在使用机器学习优化服务时预计能够显着缩短训练过程(见示意图)。例如,考虑执行推理处理以根据在线购物历史建议最佳产品的情况。如果消费行为趋势发生变化,您希望优化模型来跟随这种变化,可以通过基于大数据的训练处理来改进模型。如果通过训练过程改进模型所需的时间显着减少,服务提供商将能够获得新的业务机会,用户的便利性也将得到改善。
这项研究的结果表明,将表示数值的位数增加到 9 位可以加快该过程,但众所周知,对于一些使用机器学习进行推理的问题,8 位格式可以以足够的精度使用。未来,我们将在更多问题上验证所提出方法的有效性,原型硬件,验证可行性,并推进实际应用。