卡耐基梅隆大学(CMU)的一项新技术将为机器人增加对声音和振动的意识,以创造真正的环境感知计算。研究人员创建了一个被称为 Ubicoustics 的系统,可让智能语音助理通过传感器知道它在哪里以及周围发生的事情,从而与人进行深入的互动和交流。

“厨房台面上的一个智能语音助理不知道它是不是在厨房里,更不用说知道一个人在厨房里做什么了。” CMU 人机交互研究所(HCII)的研究员克里斯·哈里森(Chris Harrison)说,“但如果这些设备能够理解周围发生的事情,它们可能会更有帮助。”

Ubicoustics 系统第一个实现使用内置语音来创建“基于声音的活动识别”。是如何做到的呢?博士生吉拉德·拉普特(Gierad Laput)介绍说:“主要的思路是利用通常在娱乐行业使用的专业声音效果库,它们是干净的,有清晰的标签,分割良好,并且是多样化的。此外,我们还可以将它们转换成数百种不同的变体,从而为训练深度学习模型创造出大量的数据。”

识别声音并将其对应正确的环境具有一定挑战性,部分原因是常常多种声音混杂在一起,且可能相互干扰。在研究人员的测试中,Ubicoustics 的准确率达到了 80%——与人类的准确性有得一比,但还不足以支持用户应用。拉普特表示,更好的麦克风、更高的采样率和更优化的模型架构,可进一步提高准确性。

在另一篇论文中,HCII 博士生张扬(Yang Zhang)和拉普特、哈里森一起描述了他们所称的“Vibrosight”系统,它可以利用激光测振仪检测房间中特定位置的振动。这类似于克格勃曾经使用的光装置——通过探测窗户等反射表面的振动来监听对话。

Vibrosigh 系统使用低功率激光和反射器来判断一个物体是在在开启还是关闭,或者椅子、桌子是否在移动。传感器可以同时监视多个物体,这将可用单个激光监视一个房间的多个物体,甚至多个房间里的物体。

【数字叙事 黎雾】