在电影《钢铁侠》里面,主角一挥手,凭空推拉拖拽操控虚拟物体,这样酷炫的交互方式现已成真。
近日,国内知名的交互科技公司 Rokid 迎来 AR 交互平台大升级。基于全新一代双目 MR 眼镜 Rokid Vision 2,该公司一次性释放了手势识别、SLAM 和英文指令等交互能力。
早在今年一月 Rokid Open Day 发布会上,这家公司首次提出了“人、虚拟世界和真实世界融合交互”的理念。从这次的 AR 交互平台大升级中,我们可以看出 Rokid 对于未来交互理念的实践。
据了解,Rokid 手势交互方案采用自研算法,搭载一个普通的 RGB 摄像头,即可捕获手的位置、姿态、手势等,并处理成 AR 眼镜可以理解的信息。
Rokid 视觉算法团队指出,这套手势交互方案可以支持多达 10 多种手势,稳定输出手部关键点,并可以比较准确地识别快速移动和手势旋转等操作。
他们还针对算法模型设计、策略优化和跨平台加速等方面做了诸多改进,对不同硬件架构做了适配和加速,可以运行在 GPU、CPU 和 NPU 等设备上。
这意味着,普通消费者只需佩戴一副 AR 眼镜,就能隔空裸手实现点击、确认、抓握等极具未来感的手势交互操作。
除了手势交互,AR 走向普及的另一个关键技术则是 SLAM。
SLAM 技术全称 Simultaneous Localization and Mapping,中文为“同时定位与地图构建”,它可以在未知环境中确定自身方位并同时构建环境三维地图,有着非常广泛的应用场景。
随着计算机视觉的迅速发展,SLAM 已经成为 AR、VR、机器人、自动驾驶等领域的关键技术。Rokid SLAM 技术方案在精度、稳定性、实时性以及成本方面做了平衡与取舍。
Rokid 视觉算法团队告诉记者,他们的方案依赖单颗 RGB 摄像头稳定输出精确的 6DOF 姿态,适应不同光照环境、快速移动等场景,并且针对高通、海思、Amlogic 等主流 AR 平台做了适配,希望充分释放芯片的潜能,带来稳定的跟踪。
如在工业场景中,为了实现 AR 标注功能,需要将虚拟信息贴合在现实物体上,以达到虚实结合的效果,提升远程协助和指导的直观性和高效性。
语音交互在人工智能时代已经有了先发优势,正在被大规模的落地应用。从智能音箱到手机上的语音助手,都已经走进了消费者的生活。
而 Rokid 正是以语音交互起家的。自创立起,以人机交互为目标的 Rokid 从语音交互产品入手,做了完整的唤醒、交互与语义理解解决方案,首创了双音节唤醒词,最终把语音交互做精致、做完整,让产品成为真正用户购买后时时想要触发的交互入口。
在这次大升级中,Rokid AR 交互平台支持了流畅、准确的英文语音指令识别能力。Rokid 语音算法团队表示,Rokid 交互平台的语音交互技术性能高、消耗小,可以针对不同国家用户的需求量身定制。
技术的升级源于真实的客户落地。我们了解到,Rokid AR 产品从去年开始,陆续出海,截至目前为止已经落地至全球近 50 个国家和地区,不仅被新加坡、迪拜、智利、德国等地客户采用,还受到了如南华早报、每日邮报、法新社、BBC 等海外媒体的关注与报道。
技术的升级本质是为了赋能。在能源、电力、建筑、化工等工业场景下,用户可能面临尘土飞扬、戴口罩或面具等遮挡的环境。此时,交互方式显得尤为重要,比如在面对复杂的信息密码输入时,用户更习惯自然的手势交互,而在维修工作中,语音交互能够真正解决双手。
从以上我们可以看出,Rokid 交互平台大升级始终围绕着降低 AR 交互成本这一目标。在前不久科技媒体深圳湾举办的“漫谈智能眼镜”分享会上,Rokid 硬件产品技术负责人杜晖就表示,AR 正在从一项“技术语言”走向前往 C 端的路上。
今年 AR 行业大消息频出,有传苹果 2022 年将推头戴式 AR 产品,2025 年推眼镜式 AR 产品,而 Facebook 有可能在今年推出加入面部识别技术的智能眼镜,三星的 AR 眼镜概念视频泄露,类似轻型的太阳镜。可以看出,消费级 AR 已经被大公司提上议程,下一个十年的大趋势,我们有望迎来新的 AR/MR 交互时代。
而 Rokid 则让我们看到了 AR 早期探索者努力拉近 C 端产品与用户距离的不懈努力。从语音交互、手势交互到视觉 SLAM,Rokid 摆脱了昂贵繁琐的硬件依赖,用最成熟和通用的硬件设备完成了全方面的 AR 人机交互体验。