苹果Vision Pro手势+眼球融合交互的奥秘
毫无线索地讲,在AR/VR头戴设备领域中,Vision Pro凭借眼球追踪与手势交互技术的完美结合,实现了交互体验的重大突破,特别是在用户体验方面取得了显著进步
那么, 为何Vision Pro上这一功能会受到如此关注呢? 为了探查其原因, 我们观察主流VR设备是如何实现这一功能的.

主流VR和Vision Pro的差异
分析
手势方面方面方面

而Vision Pro则不配手柄,则主要采用结合眼球追踪技术与手势识别功能的方式进行操作。此外还支持辅助操作模式(如手势射线模式)。
- 普遍使用的VR技术的手势追踪系统要求操作者将双手置于摄像头的视野范围内。为了确保准确的追踪效果, 手需轻微抬起或向前伸展以适应动作捕捉的需求。持续进行此类操作容易导致疲劳, 并通常会带来使用体验上的下降

Vision Pro配备了6个集成SLAM与手势识别的摄像头。其中包含两组向下配置的摄像头专门用于捕捉手掌放置于腿部的角度;此外,在这两组镜头的基础上还增加了斜向布置的双功能镜头。为进一步提升在光线不足环境下的手势识别精度与可靠性,在Vision Pro中采用了两枚红外LED光源作为辅助传感器。

这种垂直视角的摄像头专为捕捉无需双手抬起的手势设计,在人体工程学原则指导我们通常将双手垂至膝盖或桌面位置时表现最佳效果。作为市场上首款遵循此方案的产品,在该领域处于领先地位

Vision Pro 直接手势
由于苹果在其开发文档中也提到, 如果采用直接的手势操作(即双手直接触碰虚拟物体, 如虚拟键盘等), 必须确保双手位于FoV视野范围内, 虽然该设备的摄像头覆盖范围足够广, 但为了确保准确捕获, 手臂必须处于FoV可见范围内。此外, 连续进行多次或频繁的手势操作可能会导致疲劳感, 建议尽量避免长时间连续操作
3.在眼球追踪领域方面,在当前主流的VR设备中更侧重于具体的应用场景实现。例如,在虚拟现实游戏中实现了凝视交互模式以及眼动追踪技术的具体应用,并且还可以通过注视点渲染技术来优化渲染效率。这些技术的应用使得整体的游戏体验得到了显著提升。

凝视的高光变化

Vision Pro凝视+手势捏合
Vision Pro采用了基于visionOS系统的底层逻辑,在其操作界面中主要采用丰富的二维窗口交互模式。其中文字被选中以及菜单被选择的过程都可以通过结合"眼球"与"手势"的方式实现。然而,在PS VR2的部分游戏中也提供了"眼球凝视"类型的菜单选项。这些设计在用户体验上表现尚可接受。
- 产品核心要素包括定位策略与定价模式等维度。VR一体机主要面向中端价位市场推出,在设计时综合考虑了头显设备与操作设备之间的协同工作原理:通过集成先进的SLAM摄像头技术,在满足定位精度的同时实现手柄追踪与手势追踪功能,并重点考虑了SLAM摄像头的安装位置以兼顾定位功能与操作体验的平衡
这也意味着,在Quest等VR设备上使用向下倾斜的摄像头以同步捕捉手势的同时,在这种配置下(例如),当双手放置于腿部或较低位置时,则完全超出捕获范围。
Vision Pro直指目标、价格不敏感,并非有意忽略售价——而是旨在通过高性能硬件带来高端的体验感受。
当然,在这一段中并未提及Vision Pro专为摄像头和传感器设计的R1芯片这一细节。实际上正是由于这一芯片的存在,并且通过其极低延迟处理视觉数据的技术路径的应用与创新设计才能得以实现更为精准的交互方案。可以说Vision Pro所构建的交互逻辑不仅涵盖了软件层、硬件层以及芯片层面,并结合算法优化形成了一个系统性解决方案,在整体架构上呈现出一种错综复杂而难以调和的技术整合差异
二、眼球+手势和纯手势对比
根据上文可知,Vision Pro产品与之前版本的VR交互方式表现出显著的差异。进一步询问的是这些交互方式带来了哪些方面的区别呢?
来自

这篇论文的第一作者Uta Wagner来自丹麦奥胡斯大学的计算机科学系。我们在这里将其中两类测试分别代表'仅基于手势射线'和'基于凝视射线+手势捏合'的测试项目进行对比。
2-1,选择目标测试
该研究根据菲茨定律展开设计,在FOV范围内设置不同深度的目标来进行"选择目标测试"(如上图),最终获得的结果是:
- 吞吐量方面,在凝视加捏合模式下达到2.1 bits/s的传输效率(高于手势加捏合模式的1.4 bits/s)。
- 实验结果表明,在不同条件下错误率无显著差异。
- 在资源消耗方面(物理),凝视加捏合模式仅需2个单位(低于手势加捏合模式所需的4个单位)。
2-2,AR菜单激活和选择测试
在进行AR菜单激活和选择测试中,得出的结果是:
- 效率方面:凝视射线与捏合技术在完成任务所需时间上具有显著优势;
- 在效率对比中,“凝视射线与捏合技术”的平均完成时间为2.5秒,“手势射线”的平均完成时间为4.6秒。
- 在失误率对比中,“手势射线”的失误率为1%,而采用“凝视射线与捏合技术”的失误率为3%。
- 从测试人员的偏好角度来看,在接受测试的技术中,“凝视射线与捏合技术”获得了较高的评价。

论文中所有测试方案
基于本论文的研究,得出的结论还有:
- 1,在所有的测试方案中采用凝视策略的方案均显示出更高的效率和更快的运行速度,在性能上始终优于手势扫描方案;
- 2,在论文中提出了一种将凝视扫描与手势扫描相结合的新方案,在性能上与现有方案相当,并且受到了测试者的较高青睐;该方案仅略逊于凝视扫描与捏合操作相结合的优化方案;
- 3,在平面图像交互任务中观察到的因素对交互效果具有负面影响。
综上所述,在采用凝视射线与捏合技术(受苹果Vision Pro启发)的情况下(其中消除了凝视射线的影响),并将其与高光等元素相结合以提供视觉提示的情况下),该方法在速度和效率方面均表现优异,并广受欢迎。这也表明将凝视技术与手势操作相结合的交互方式将在未来的AR/VR应用中具有更大的发展潜力。值得注意的是体感反馈这一领域的发展前景同样可期,在目前硬件设备仍然占据绝对优势的时代背景下(尤其是无手持设备的时代背景下),智能手环或智能戒指有望成为体感反馈的重要辅助工具
参考文献:两项信息分别源自 Apple 的开发者文档和 ACM 的相关文章
