IBM 研究人员在最近发表的一篇论文(《用于自动语音识别的分布式深度学习策略》)中公布了一项新的研究成果——一种用于语音识别训练的分布式处理体系结构,可在流行的开放源码基准测试上实现 15 倍的训练加速,且不会损失准确性。论文说,将其部署在一个包含多个显卡的系统上,可以将总训练时间从几周缩减到 11 小时。

可靠、强大和通用的语音识别是机器学习中一个持续的挑战。传统上,训练自然语言理解模型需要包含数千小时的语音和数百万(甚至数十亿)个文本单词的语料库,还需要足够强大的硬件在合理的时间内处理它们。IBM 研发的分布式处理体系结构可大大减轻计算负担,并使计算效率得到很大的提升。

“在半天内完成一份训练工作是可取的,因为这能让研究人员快速迭代开发新的算法。”论文写道,“这也让开发人员有了快速的周转时间来调整现有的模型以适应他们的应用程序,特别是当需要大量的语音来达到可用性所需的高精确度时,定制用例更是如此。”

【数字叙事 黎雾】