打开车窗说亮话成语(打开车窗说亮话版头)

徐辉

大家都没有转错“故事会”。这种看似小说的小概率故事，能发表在车之友的技术专栏，是有原因的。按照概率，即使属于百万分之一概率的边际事件，以地球上几十亿人作为分母，总会有人百分之百被困。此前有媒体用情景喜剧视频解读，坏人唤醒车外的智能车，打开车窗作案。随后，很多被测试的主流机型瞬间不翼而飞。这意味着“边缘事件”发生的概率不小，很可能成为行业的安全隐患。和业界各大语音识别提供商赛伦思、银河智联的工程师聊过之后，先说结论。是不是车外的声音打开了窗户？真实；对配备该功能的车辆有威胁吗？有；有什么解决问题的办法吗？是啊！至于真假？是也不是，是科普的内容。

如今作为大多数新车的标配功能，在谈语音识别控制汽车各项功能之前，我们先来了解一下物理术语“声音”。这种东西是可以通过介质传播的(空气体或者固体或者液体)。在物理学中，它是物体振动产生的机械波。能被人(频率在20Hz ~ 20Hz ~ 20000Hz之间)或动物听觉器官感知。物体最初振动声音的来源。人类利用声音的方式多种多样，比如传递信息，反射定位，甚至传递能量。从社会学的角度来看，“有声语言”是人类千万种表达方式中最重要的，也是社会交往的基础。随着科技的发展，声音已经从人与人之间的交流发展到人与机器之间的交流。语音识别和控制技术就是由此发展起来的。

“heySiri”应该是很多人对语音识别的第一印象。当智能设备成为个人离不开的随身物品，实用软件逐渐成为依赖对象。语音识别技术虽然发展很快，但实际历史并不长，甚至不到百年。最早的语言识别技术起源于1952年贝尔实验室的6英尺自动数字识别机“Audrey”，可以识别数字0 ~ 9的发音，准确率达到90%以上。20世纪60年代计算机的应用促进了语音识别技术的发展；20世纪70年代，语音识别领域取得突破，线性预测编码技术成功应用于语音识别。与此同时，统计方法开始被用于解决语音识别的关键问题，为后面的“大词汇量无特定人的语音识别技术”奠定了重要基础。20世纪80年代，连续语音识别成为研究热点之一。1988年，李开复在美国卡耐基梅隆大学用VQ/HMM方法实现了997字非特定人连续语音识别系统SPHINX。人工神经网络也成功地应用于语音识别。

如果人与人之间的交流不清楚，你可能会问:“搞什么鬼？再说一遍”。但是人和机器交流出现类似情况就不好玩了。除非极其无聊，否则估计大部分人都希望语音识别能在自己出不了招的时候给出快速准确的反应和执行，而不是聊天或者误操作。语音识别的关键难点在于准确率。仅仅对于打电话、编辑和发送消息、查询和导航等基本功能，很难满足消费者的需求。真正让现在的车载语音业务落地的是，当车辆控制权限逐渐放宽后，通过语音识别控制更多娱乐系统、舒适系统等需要自己操作的功能更加方便。降低驾驶过程中分心操作的风险。

车载语音识别安全吗？这个问题之前没怎么关注。毕竟控制的功能基本属于娱乐设备的客舱控制或者舒适性调节。即使分散了可控制的功能。车灯、雨刷等。也被纳入可控行列，不妨碍车辆行驶过程中的整体安全。没想到控制车窗的开闭，一个驾驶中无害的功能，在停车期间变成了安全隐患。让原本可以短暂作为避难所的小屋，瞬间敞开大门。

有人认为恶狗的开篇案例略拉。其实经过分析，和网上小人喊开车窗一模一样。除非是在真空状态下，或者车辆隔音做得再好，只要音量足够大，通过空空气、固体窗户等媒介传入车内的语音指令，仍然可以被系统接收并执行。也就是说，这个安全隐患确实存在。安全用车无小事，这是所有车企的共识。再小的安全问题，无论如何都要解决。

对于车辆语音识别的安全性，目前国内外都没有专门的法律法规和具体的指导意见，甚至行业标准也只是处于起草和验证阶段，但是几乎所有的语音识别技术提供商都已经意识到了这个问题的存在。那么现有的技术能解决这个隐患吗？我们选择与国际智能语音巨头赛伦思和国内人工智能新贵星河智联的语音识别专家进行交流。下面简单介绍一下这两家公司。目前，为全球65家合作伙伴提供超过70种语言技术的Cyrus是从苹果Siri的语音技术提供商Nuance的汽车业务团队中拆分出来的。全球已有超过4亿辆汽车部署了Cyrus的语音技术。银河智联是广汽集团、广汽资本和讯飞云创的合资公司，背后是国内语音巨头科大讯飞。在车外出现声控开窗的情况，双方一致认为这种安全隐患确实存在。至于如何用技术解决这个问题，大家给出的解决方案既有雷同的条目，也有自己创新的解决方案。

复用车内摄像头检测范围内的唇形变化，判断语音指令是否由驾驶员发出就是其中之一。事实上，星河智联的多模式语音交互已经成熟，唇音融合语音技术将语音检测的准确率从68%提升到95%，有效减少误触发。其优点是对固定车主的主驾驶非常友好，但一定程度上限制了后排和副驾乘客的多音区控用户体验。

也可以通过增加拾音麦克风结合声源定位技术来检测。这种方法的明显缺点是受噪声干扰。虽然整体上调了VAD阈值，但是车边唤醒率指标略差。在车窗关闭的情况下，车外的环境噪音并不是单一的声源，所以要看算法对车内外的分辨能力。此时，赛勒斯提议在车外增加麦克风。该功能在欧洲已经被用于检测救护车、消防车等发出的特殊声音。，并提示让路。与车载系统结合后，能有效识别指令来源。

其实笔者觉得挡在很多车企面前的不是技术问题，而是成本问题。在交流中不难发现，几乎所有语音识别供应商为车企提供的解决方案，都提交了类似问题的深度解决方案。无论是增加传感器还是进一步优化软件，都涉及到整车成本的增加。现在问题出现了，再返厂加硬件，再刷相应的软件，显然是不现实的。如何快速补救是当务之急。

改变系统唤醒字的方法是最快的解决方案，但在工程师看来不是最好的。毕竟如果是熟人作案，还是有被猜到的几率的。更好的办法是通过OTA升级车机系统。我们可以通过改变判断当前车速和主动锁车门两种状态，增加一次二次确认来解决问题。最简单的就是当车速小于一定程度，比如5km/h时，语音唤醒功能只能通过按键触发，默认唤醒字无效。更严谨一点的是增加了弹出确认，要求主驱动点击语音命令打开窗口。更严谨一点，需要在此基础上增加门锁状态判断。如果是车主主动锁门，我们的系统会添加接收语音指令时需要点击的第二次确认，否则不限制。这些解决方案看似牺牲了部分用户体验，但相对于增加安全性，应该是解决目前迫切问题的最佳建议。

技术的发展依赖于发现需要解决的问题。未来保护语音识别安全的技术如何发展，其实有很多解决方案。其中一个应该属于声纹识别技术。所谓声纹，就是电声仪器显示的携带言语信息的声波频谱。与指纹识别、人脸识别技术类似，声纹识别也是生物识别技术的一种。这项技术利用了算法和神经网络模型，因此机器可以从音频信号中识别不同人的声音。虽然声纹不像人脸、指纹的个体差异那么直观，但是因为每个人的声道、口腔、鼻腔也有个体差异，它反映的是声音的差异，所以每个人都有自己独特的声纹。你担心腹语者精彩的模仿能力会成为这项技术的软肋吗？其实不用担心，再模仿的声音充其量也就是欺骗人的耳朵，但是对于机器拾音的识别是无能为力的。事实上，Cyrus最高级别的声纹识别技术已经部署在银行认证应用上。虽然成本挺高，但是用户感冒鼻塞导致变声的技术实力还是值这个票价的。至于市面上很多智能音箱产品推出的声纹技术，几乎不涉及安全操作，成本和精度可控。这也解释了为什么门禁等与安全相关的消费电子产品很少使用声纹技术，目前对设备、分析系统、认证软件的要求还是比较高的。

星河智联提供的另一条技术路线也同样不错，将语音识别技术与目前火热的UWB技术相结合。超宽带(UWB)技术具有10厘米的精确定位特性。如果将语音识别功能的认证模式赋予UWB技术，系统会知道声音发生器在车辆中的位置，并决定是否进一步实现。另一个好处是，目前车载数字钥匙广泛采用UWB技术，语音识别认证需求的加入方便了UWB相关传感器的有效复用，且不会过度增加成本。更何况目前也有一些专注于UWB技术的科技企业，比如青岩迅科。联手可能会有惊喜。

本文纯属解读和科普。至于这个锅该由谁来背，不在讨论范围。反正在我看来，肯定不会是一个语音识别技术提供商的锅。从很多破防的车型基本都属于各种主流推的中端产品来看，这和新车研发速度越来越快，销售压力大有关系。厂商是时候放慢“弯道超车”的速度，想尽办法改善问题了。另外，我们需要感谢最先以视频形式发现问题的媒体。不过也要奉劝那些没完没了，哗众取宠，危言耸听的自媒体，你有点反感。建议好好看书，多和工程师交流，以数据和技术为根本，帮助中国汽车圈朝着越来越完善的方向前进。