“你不温柔，我不主动”，人机关系究竟要怎么改变呢？

2018-04-18 08:38

但实践下来发现，这种模式问题还是不少：

比如语言控制不如屏幕控制那么精准，很多时候会误判指令和错误唤醒，比较语言充满了不确定性；

再比如，语音交互的物联网设备还是缺乏主动服务的能力，只是换了操作方式而已，用户体验没有本质提升。

仅仅是“能听”，并且还经常听错的物联网设备，就像是两个人谈恋爱，其中一方从来不看你，不会知冷知热、嘘寒问暖，还经常搞错对方的意思，那另一方当然表示我懒得理你……

目前来看，把按钮换成了语音命令平台，隐藏的不确定性太多，而实际价值太少，很难成为物联网爆发的真正依托。

这种“你不温柔我不主动”的人机关系究竟怎么改变呢？

答案也许是让机器能够听和说之外，还要能看，能感觉，甚至能将五感联系到一起进行思考。

感知到交互：机器的五感俱全

所谓“模态modality”，是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道，比如人类有视觉模态、听觉模态等等。

后来这个概念引申到人文科学领域，成为哲学和文学上的一种话语批评方式；而来到机器人和计算机科学领域，就成了机器与物理世界联系的通道。

假如我们把“模态”通俗地理解为感官，那么智能音箱就是只具备听觉模态的物联网设备，而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起，多模态物联网也就诞生了。

事实上，在AI研究当中多模态转换是非常普遍的课题。比如一个很出名的AI研究方向是让智能体根据看到的某张图片来生成文字（也有看到文字生成图片和视频的），这就是让AI模型完成在视觉和语义之间的模态转换。

运用到物联网设备当中，今天主要的AI感知模态有三种：

1.语音交互，包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域；

2. 机器视觉，包括自然物体识别、人脸识别、肢体动作识别等；

3. 传感器智能，包括AI对热量、红外捕捉信号、空间信号的阅读与理解。

把这三种东西融合在一起，物联网设备就可以在单纯的能听会说之外，同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知研究当中，还包括机器嗅觉，机器触觉和情绪理解等内容。

我们在等待的下一代物联网设备，很可能诀窍就是把这些模态给揉在一起，完成从多模态感知到多模态交互的体验。用一句我们十分熟悉的话说，就是要让机器身上的五感“生态化反”……

今天让人乐观的多模态交互型IoT

又能听，又能看，又有传感器的设备，听上去似乎有点过分乐观了。但好在综合了较多采访与观察之后，我们发现今年确实是值得为多模态物联网设备乐观一下的时候。

可以看到，很多双模态交互，甚至多模态混合交互的解决方案都在从实验室里走出来，甚至已经可以在我们生活中看到。这些解决方案更重要价值是作为案例，可以让更多企业、开发者和垂直行业看到多模态物联网的可复制价值。

举例来说，离我们最近的多模态AI交互技术投射在物联网设备上，大概就是用机器视觉技术进行嘴唇识别，来分离语音交互指令。我们可以看到很多实验室和科技公司，都在尝试用机器视觉来读取说话人的唇语和动作，从而判断每个声音指令的来源。

这种技术已经在国内被运用到地铁售票解决方案中，通过机器视觉来识别买票人，从而在地铁站的嘈杂环境中完成语音售票。

另一个我们能看到的例子是空调。在一些新的智能空调解决方案中，空调会在语音交互的基础上通过机器视觉来判断用户的位置，提供智能送冷，并且会结合传感器判断屋内温度和湿度，提供更精准的环境方案。

同样是在家电上，今年电视背后的AI平台战打得风生水起，把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离，电视可以主动调节屏幕光线强度，输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。

声明： 本文系OFweek根据授权转载自其它媒体或授权刊载，目的在于信息传递，并不代表本站赞同其观点和对其真实性负责，如有新闻稿件和图片作品的内容、版权以及其它问题的，请联系我们。

共0条评论，0人参与

登录登录即可访问所有OFweek服务

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻