我们谈谈多模态交互之智能语音、机器视觉、移动底盘之间的结合。
现在讲多模态技术最难的地方就是各个企业之间,基本上都在自己熟系的领域去深耕,对相互之间的技术结合基本上都不是很熟系,这就困扰多模态技术之间的结合。
从这次研讨会上反馈的信息来看,机器人企业期待上游的企业,如科大讯飞能够提供再进一步的技术方案,或者有能够直接提供多模态交互技术的产品,而上游的技术企业,则认为这是终端机器人产品集成商应做的事情。
这就导致我们想要的多模态技术交互都是有缺陷的。
在技术上来说,智能语音、机器视觉、移动底盘在使用的过程中都还存在问题,这让很多机器人企业非常的折腾。
从移动底盘上来说,深圳市步科电气有限公司(简称:步科)营销总监温琦说:“移动底盘产品是成熟的,可以应用到各种机器人身上,但是目前确没有成熟的SLAM技术方案。”
还比如机器视觉,很多厂家都说,机器人植入深度视觉后,在行走的过程中,可以躲避障碍物,但是应用到场景里,还是存在很多的问题,比如机器人前面多几个人行走,就会导致机器人行走速度会变得很慢,或者直接不灵了。
最后是智能语音,对很多机器人企业而言,目前是最头疼的问题,因为很多语音企业都说识别准确率高达90%以上,但是从机器人企业的反馈来看,应用到场景里体验是不好的。
其实这里有一个问题,智能语音包括语音与语义,如果语音识别准确率达到90%,语义识别准确率也达到90%,其实这两者是相乘的,一结合可能就只有81%的识别准确率。
而且目前我们所涉及的语义还只是文本,对于视频、图片、运动数据等更多元的素材采集,基本上非常困难。
深圳市狗尾草智能科技有限公司(简称:狗尾草)首席科学家张博说:“从多模态交互的角度去看,在目前的智能语音技术上,再去扩展视频、图片、运动数据等素材采集,我们只能通过语义处理语义,视频处理视频等方式去处理,如果要结合起来是非常困难的。”
先不说把图片、视频、文本等结合,就算以文本的角度去讲也很难,小I机器人售前顾问甘楚辉说:“小I的数据库里,各个领域的知识库是分开,如果要结合在一起,占用的资源会变得非常大,对整体的性能影响也会很大,就算要结合也只能是分开穿线。”
所以在多模态交互的探索上,我们基本上还处在刚开始的阶段。
目前我们先不深入的去探究,站在我们现有的产品集成上,我们可以做到怎样的多模态交互。
比如深圳市锐曼智能技术有限公司名下的小曼机器人,当我们呼叫小曼机器人时,它是可以定位我们的声源,甚至还可以走到我们的面前。
科大讯飞股份有限公司(简称:科大讯飞)商务总监廖凯说:“这三者结合的多模态交互,在生活中可以做到,我在与机器人一边走路,一边讲话的时候,它是可以进行人脸的捕捉,移动的追踪,所以它会在移动时面朝着你,这会让你感觉非常好。”
就从这三个技术的成熟度来讲,在这次1号机器人网研讨会上,很多嘉宾认为,以目前的技术水平,能够实现产品盈利的也只能是玩具级的产品,如果是商用级的产品,我们还需要花很长的时间做研发投入。
过去我们追捧机器人+资本的模式,通过资本的进入去进行产品技术的研发,但是这条路从去年以来已经变得越来越窄。
如果还只是拿上游企业的产品,比如:智能语音、移动底盘、机器视觉,再进行定制化场景应用的机器人,估计已经很难再拿到资本。
因为很多投资人已经知道内部的事情,而且也知道内部细节的难度在哪里?尤其是融合的阶段,什么技术处于可商业化,什么技术还达不到商业化的阶段,所以对机器人创业者而来,我们自己也需要理性化,做一些深思熟虑的判断。
从营销策略的角度去分析,特别是对于玩具级别的机器人产品,我们不要过分让用户对产品有太高的期望,廖凯说:“我之前有一个客户是做香味盒,在这个香味盒上植入了语音交互功能,坦白说,他们二次开发的语音交互体验做的并不好,但对用户而言,就算体验不好,但是它还是可以提供香味需求。”
往往我们能够抓住跟智能无关的点,就会有用户粘性,其实用户会给你一个容忍度,给你升级迭代的机会,但是我们不能给用户太高的期望。
在商业级的服务机器人里也有成功的例子,温琦说:“美国企业做出来的很多机器人是在商场里做分拣,它不是服务于人,或与人做交互,而是为商场管理货物提高效率。
声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容,以保证您的权益!联系电话:010-58612588 或 Email:editor@blueai.net.cn。
- 暂无反馈