这一过程不仅减少了别人说嘿Siri触发您的iPhone的可能性

2020-05-21 17:09:14 来源: INeng财经

直到今天,一篇非常有趣的技术文章还是在 10月1日发表在Apple的《机器学习期刊》博客上。在其中,苹果详细说明了不受限制的“嘿Siri”功能如何利用硬件,软件和iCloud的功能让客户免提使用助手。该系统将基于云的语音识别,自然语言解释和其他服务与硬件辅助的设备上处理相结合。iOS设备始终运行“非常小的语音识别器”,仅听“ Hey Siri”短语。

iPhone或Apple Watch中的麦克风每秒记录16,000个瞬时波形样本流。这就是为什么这样做不会给您的iPhone电池增加太多负担或垄断RAM和CPU等其他系统资源的原因:

为了避免整日运行主处理器只是为了听触发短语,iPhone的始终在线协处理器(AOP,它是嵌入在Apple M系列运动协处理器中的低功耗辅助处理器)可以访问您的麦克风信号iPhone 6s及更高版本。

我们使用AOP有限的有限处理能力中的一小部分来运行带有小型神经网络的检测器。当分数超过阈值时,运动协处理器将唤醒主处理器,该主处理器将使用较大的神经网络来分析信号。

由于电池较小,Apple Watch仅在其运动协处理器检测到手腕抬起手势时才运行“ Hey Siri”检测器,从而打开了屏幕,这就是为什么屏幕关闭时无法在Apple Watch上使用“ Hey Siri” 。

WatchOS会为“ Hey Siri”分配大约有限计算预算的5%。

那么,他们如何实时识别真正的“嘿Siri”热门短语?

一旦被设备捕获,波形就会分解为一系列帧,每个帧描述大约0.01秒的声谱。一次约有20帧(0.2秒的音频)被传递到深度神经网络。

在那里,声音被转换为一组语音声音类别的概率分布:“嘿Siri”短语中使用的那些声音类别,以及静音和其他语音,总共约20种声音类别。然后,计算出您说出的短语为“ Hey Siri”的置信度得分。

如果分数足够高,Siri就会醒来。

在iPhone上,他们使用一个神经网络进行初始检测(在功率消耗运动芯片上运行),并使用另一个神经网络作为辅助检查程序(在主处理器上运行)。为了减少错误触发,Apple还将在“ Hey Siri”注册过程中将任何新的“ Hey Siri”语音与保存在设备中的五个短语进行比较。

研究论文解释说:“这一过程不仅减少了别人说'嘿Siri'触发您的iPhone的可能性,而且降低了其他听起来相似的短语触发Siri的速度。”

该设备还将波形上传到Siri服务器。

如果在云中运行的主要语音识别器听到的声音不是“ Hey Siri”(例如“ Hey认真地”,“ Hey叙利亚”或类似的东西),则服务器会向电话发送取消信号以将其放回睡觉。

“在某些系统上,我们在设备上运行主语音识别器的简化版本,以便更早提供额外的检查,” Apple指出。我认为,“某些系统”是指连接电源的设备,例如Mac,Apple TV甚至iPad。

上图:穿过“ Hey Siri”检测器的声学模式,最底部显示了来自麦克风的波形的频谱图。将顶部显示的最终分数与阈值进行比较,以决定是否激活Siri。

该阈值本身就是动态值,因为Apple希望让用户在困难的条件下激活Siri-如果它错过了真正的“ Hey Siri”事件,则系统将进入更敏感的状态几秒钟。在此期间重复该短语将触发Siri。

以下是他们训练“ Hey Siri”探测器的声学模型的方式:

早在有Hey Siri功能之前,一小部分用户会在请求开始时说“ Hey Siri”,方法是先按下按钮。我们在美国英语探测器模型的初始训练中使用了此类“嘿Siri”语音。

我们还包括用于训练主要语音识别器的一般语音示例。在这两种情况下,我们都在训练短语上使用了自动转录。Siri团队成员检查了转录的子集的准确性。

在美式英语中,声学模型甚至考虑了“ Siri”中不同的第一个元音,一个在“严重”中,另一个在“ Syria”中。

训练一个模型大约需要一天的时间,并且通常在任何一次训练中都有几个模型。他们通常会训练三个版本:用于运动芯片第一次通过的小型模型,用于第二次通过的大尺寸模型以及用于Apple Watch的中型模型。

最后一个花絮:该系统也经过训练,可以识别本地化的“ Hey Siri”短语。

例如,说法语的用户说“ Dis Siri”。在韩国,他们说“ Siri야”,听起来像“ Siri Ya”。讲俄语的用户使用“приветSiri”短语(诸如“ Privet Siri”之类的声音)和泰语“” Siri”(诸如“ Wadi Siri”之类的声音)。

苹果公司说:“我们特别在各种条件下(例如在厨房(近处和远处),汽车,卧室和餐厅中)以各种母语的人进行录音,”

他们甚至使用多种语言的播客和Siri输入来表示背景声音(尤其是语音)和“用户可能对另一个人说的短语”。

“下一次您说'嘿Siri'时,您可能会想到使对该词组做出响应的所有事情,但我们希望它'行之有效',”苹果很好地总结了这一点。

高度技术性的文章提供了对我们视为理所当然的“ Hey Siri”技术的迷人见解,因此,如果您有兴趣了解更多信息,请务必对其进行阅读或保存,以备日后使用。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。