微软刚刚公布了一系列为其认知服务平台预先构建的机器学习模型,其中包括用于构建个性化功能的 API、用于自动数据输入的表单识别器、手写识别 API 和侧重于转录对话的增强语音识别服务。这一消息是微软为其下周召开的旗舰版开发者大会发布的新闻的一部分。

个性化功能可能是这些新服务中最重要的东西。毕竟,很少有应用程序和网站能够为用户提供个性化的功能,因为它经常涉及到基于各种竖井中的数据构建模型。微软希望通过个性化功能来实现强化学习。强化学习是一种机器学习技术,不需要机器学习中通常使用的那种带标签的训练数据,它会根据用户的行为不断地寻找实现给定目标的最佳方法。

手写识别 API,即官方所称的墨水识别器,可以自动识别笔迹、常见形状和文档。这是微软在开发 Windows 10 墨水功能时长期关注的东西,现在只是将其打包为一项认知服务。事实上,Microsoft Office 365 和 Windows 已经在使用这种服务。有了这个新的 API,开发人员将可以将这些功能带到他们自己的应用程序中。

对话转录是微软现有的语音到文本功能的一部分。它可以标记不同的说话者,实时录制对话,甚至可以处理串音。它已经与 Microsoft Teams 和其他会议软件集成。

表单识别器是一个新的 API,可以更容易地从业务表单和文档中提取文本和数据。这听起来可能不是一个非常令人兴奋的特性,但是它能解决一些很常见的问题,而且该服务只需要 5 个示例就可以理解如何提取数据,用户不再需要执行构建这些系统时经常涉及的任何费力的手工标记。

表单识别器也将出现在认知服务容器中,它允许开发人员将模型带到 Azure 之外,以及一些边缘设备中。对于现有的语音到文本和文本到语音服务以及现有的异常检测器来说也是如此。

此外,微软还表示,其名为“实体识别 API”(Entity Recognition API)的神经文本到语音、计算机视觉读取和文本分析等功能现已普遍可用。

同时一些现有的服务也得到功能更新,比如神经文本到语音服务现在支持五种语音,而计算机视觉 API 现在可以理解 10000 多个概念、场景和对象。

【数字叙事 黎雾】