详解苹果Vision Pro的“眼动交互”
目录
一.眼动识图
二.眼动数据应用
三.眼动数据隐私安全
四.眼动滑动输入法
五.眼动人机识别
六.眼动追踪与健康医疗、精神
苹果产品的诸多特色往往会演变成行业标准并逐渐融入各类AR设备中。在国内 AR 技术领域占据一定布局优势的大厂们通常会选择将眼动追踪技术作为重点研发方向。由此可见这一领域的硬件逐渐成为标配已成不争的事实

图源:苹果 Vision Pro 眼动追踪
交互技术的重大变革常常伴随着重大的创业机遇。例如,在键盘和鼠标的创新基础上催生出了个人电脑(PC),这又衍生出了大量基于鼠标键盘的图形化软件;另一方面,在全面屏多点触控技术的基础上诞生了iPhone及其应用(APP)。此外,如今各大互联网巨头在分析用户数据、制定精准营销策略以及推送广告的过程中,都要求用户采取明确的交互行为。
设想一下如果未来AR眼镜硬件性能得到提升的话,在未来的基于眼动交互的应用中会有哪些APP和创业机会出现呢?
一.眼动识图

图源:电影《大黄蜂》
在眼动追踪技术领域中,很多人较为熟悉注视点渲染,即通过眼睛观察特定区域来减少计算资源的消耗。然而很多人并不了解的是关于注视点图像识别的具体机制,即通过眼睛观察特定区域来进行相应的识别。
以前置摄像头为基础设计的苹果Vision Pro实现了AR透视效果。通过注视点图像识别技术将眼睛的位置信息准确地映射到现实世界的三维空间中。从技术角度来看,这使得计算机能够理解并模拟人类的第一人称视角下的感知与认知过程。若能让计算机理解并模拟人类的第一人称视角下的感知与认知过程,则AR眼镜不仅能够提供增强现实体验还能实现高度个性化的服务方案设想。
现在探讨的领域有哪些?其中就包括笔者早年曾研究 的AR 眼镜在购物功能上的应用。

上图展示了本人早年开发的一款基于 [Magic Leap] One 平台的眼动识图购物应用示意图。该系统中以白圈标记用户的关注点,在此场景中用户正凝视一架无人机。该系统实现了对无人机图像信息的 AI 检索功能,并结合虹膜生物识别技术完成了用户的下单购买流程。整个过程模拟了用户通过AR眼镜进行眼动追踪的购物过程。
该技术通过注视点图像识别实现了"眼动购物"。更直观地说,就是"看什么买什么"。例如,在商业区步行时注意到一辆驶来的新型汽车引起了浓厚兴趣的一位成年男性。配备有增强现实功能的智能眼镜会利用眼动追踪系统获取实时的人眼运动数据,并分析用户的关注焦点区域。随后,在线捕捉用户的关注区域内的车辆影像信息并将这些数据发送至云端处理中心进行分析。最终系统能够准确识别出与目标车辆完全一致或具有相似特征的产品
当然地讲,并非仅限于汽车商品;还可以延伸至各种数据库记录类型的产品。
从某种程度来说,
通过眼动追踪技术与智能设备结合实现,
这预示着未来一种全新的购物体验。
也许未来不久,《双十一》(双十一年)不再仅仅是购物行为(剁手),而可能还需深思熟虑地审视这一现象(挖眼)。
总体而言,在注视点图像识别技术的帮助下可通过最为直接且流畅的方式将用户端设备与AR眼镜以及物理世界的关联建立起来。基于这一思路还可拓展出诸多应用场景及相应的工具型APP。例如可结合现有图像识别应用,并利用眼动数据进行引导式优化与重新实现,在某个场景中分析用户行为时可关注其注视点位置并据此进行相应的文字解读与实时反馈,在特定条件下则可观察用户的注视点位置后可相应地弹出评论或弹幕等互动信息。
例如,在超市选购蔬菜时,当顾客注意到某一种蔬菜后。是否能为其提供今晚的菜谱做法、热量提示以及健康的搭配建议?再比如今年风靡全球的ChatGPT等AI技术已经能够理解图像中的场景,并与之产生怎样的交互效果?我们可以展望眼动追踪技术将如何成为未来互联网发展的潜在理想入口之一。
二.眼动数据应用
回顾过去20年间的互联网发展历程, 期间, 互联网产品的盈利模式主要可分为三类: 以广告收入为主, 收取中介费用以及近年兴起的按产品价值付费模式. 其中, 广告收入曾是早期个人电脑类互联网产品的盈利来源主要来自于广告收入. 直至今日, 广告收入仍然是其最主要的盈利来源之一. 随着移动互联网时代的到来, 在智能手机的帮助下能够更精准地触达个人用户群体; 相应地, 在APP平台上收集用户数据并进行画像分析后就能够实现精准化的广告推送.
以 Facebook 为例,旗下矩阵产品有 Facebook 主应用、Instagram、WhatsApp、 Messenger 以及其他多款工具和服务。
这些应用都可以收集多种类型的用户数据,以下是几个关键的类别:
• 用户基本信息:个人信息概述包括个人姓名、年龄信息、性别标识、职业类型以及学历背景等核心要素。
• 社交网络数据:详细记录了用户的社交圈好友列表及其相关的关注对象或网页内容,并提供了完整的分享与评论记录信息。
• 用户行为数据:通过全面分析用户的使用记录回顾及操作记录等多维度指标来刻画其应用行为特征。
• 用户偏好与兴趣:基于用户的搜索记录回顾及查看的内容推断出其主要兴趣领域与关注点。
• 设备信息:包含了所使用的设备型号、操作系统版本号以及使用的浏览器版本号等详细配置参数。
我将前面提到的所有用户的原始数据划分为传统数据类别。这是因为这些原始数据必须经过用户的主观思考过程,并以交互行为的形式被输入到计算机系统中才能获得。例如如前所述的'用户行为数据'以及'用户偏好和兴趣'等指标。相比之下眼动数据分析则具有显著的优势它不仅能够获取用户的表面意识层面的行为信息还能够深入挖掘隐秘的心理活动信息。
比如当我们对一款心怡的新车型进行视觉欣赏时,在那短暂的一刻里我们会观察到多个与人体生理活动相关的指标发生显著变化包括瞳孔直径的变化眨眼频率的提升以及眨眼幅度的缩短与此同时持续注视的行为也会有所体现值得注意的是这些行为并非人类可以完全自主调控而是受到客观生理机制的影响由此可见通过眼动数据采集技术可以揭示用户在不经意间所展现出的兴趣和情感状态
当自然地将眼动数据分析与挖掘的前提条件从用户的隐私保护技术和授权中建立起来时
三.眼动数据隐私安全
在先前的讨论中指出眼动数据具有重大的商业价值的同时也带来了更高的隐私安全风险。例如仅凭注视点位置这一种眼动数据就可以通过统计分析得知你对某一类事物的特定视觉偏好包括沉稳性感创意自由以及新中式等风格的商品往往人们对产品风格的偏好也与用户的性格和自我认知有相关性。
这一变革不仅适用于 outdoor 广告传媒行业,在其他领域也可能引发类似的创新浪潮。由于传统 outdoor 广告行业的广告效果难以量化评估, 与手机APP上的广告相比,则具有直接的数据可统计性。然而, 随着AR眼镜技术的不断进步以及眼动追踪技术的应用, 户外传媒领域即将面临根本性的革新。举个例子来说, 在AR眼镜下展示的一块户外广告牌不仅能够向观众提供更为丰富的内容选择, 同时可使户外广告投放商获取精准的受众曝光数据。
在先进智能制造行业中也可能发挥积极作用,在产品制造或者备货阶段中,为每件商品可能准备多套不同颜色和款式以满足不同客户群体的具体需求是一个常见的做法。然而,在仓库中如何合理规划库存数量一直是一个商家面临的难题。因此也引发了商家的"双十二"问题。但是一旦结合AR眼镜的眼动追踪技术,则可以以较低成本对大量用户的商品视觉偏好进行统计分析,并指导生产备货工作。需要注意的是,在这种情况下,商家若愿意投入资金,请受调查者进行相关商品的视觉偏好调查即可完成数据收集工作;而受调查者的授权数据则可用于分析研究并获得收益
然而,在产品发布会上并未提及该技术的相关讨论。Vision Pro 的眼动追踪技术引发了诸多关注点之一。

图源:苹果
Mike Rockwell 表示,Vision Pro 的官方介绍中提到,该解决方案采用将眼动数据独立提取并在后台单独处理的方法,而苹果表示仅在用户执行双指捏合操作时才会触发结果的发送,从而有效地解决了应用程序与网站在收集用户隐私方面的潜在问题。
我的个人观点:尽管目前苹果尚未向开发者开放眼动数据,在未来 Eye Movement 数据将逐步开放给开发者的同时会对使用Eye Movement数据的开发者提出较高的要求与限制;当然也有可能用于内部用途;然而由于Eye Movement数据具有巨大的商业价值即使存在一定的风险与困难但在利益驱使下相信这一问题最终将会得到妥善解决并通过技术和制度监管完善对Eye Movement数据的管控
我可以带来的创业机遇主要集中在眼动数据分析领域的隐私保护技术。例如利用区块链技术赋予用户对自身隐私数据完全掌控的能力而不是仅归一家公司所有让用户体验将眼动数据分析授权给特定应用第三方企业展示其利用这些眼动数据所得结果时必须保证不可篡改性这样不仅确保了个人隐私还能实现商业价值从而可与合作伙伴分享利益
I认为如果用户能够全面掌控自己的数据并深入了解其用途,则其对眼动数据分析中的隐私保护意识将会得到极大缓解。因此,在这一领域的研究与实践仍存在较大的商业开发空间。而掌握眼动数据者将获得未来互联网发展的机遇;同样地,在隐私保护方面取得突破则能显著提升对眼动数据分析价值的认识。
四.眼动滑动输入法

图源:苹果
Vision Pro 中输入文字的方式:其中一种采用悬浮于空中的虚拟键盘布局,在这种设计下,用户可以通过手指触控在空中完成文字输入操作。
当时大家对搜狗输入法非常熟悉。将这种成熟的输入技术设计为流量切入点,并主要采用搜索技术驱动流量,并辅以广告营销和游戏机制来辅助盈利。那么基于眼动交互是否存在某种输入法产品?
当前苹果Vision Pro采用的手势识别与传统QWERTY键盘排布共同用于文字输入功能;然而事实上,在未来触控识别的键盘输入模式难以覆盖全部生活场景的需求
在这样的环境中难以预期所有人都能够通过手势识别来进行交互,在某些特定情况下,纯眼动交互可能作为补充手段被采用。然而,在无法方便地使用物理键盘或处于公共区域时,则适合通过纯眼动交互来快速完成键盘文字输入。将眼睛用于逐字符输入字母则会遇到技术上的挑战
在输入过程中需要辨别眼睛的有意与无意的行为。其中有意的行为如眼睛的交互动作;而无意的行为则如同视觉搜索过程。值得注意的是持续注视的操作会影响对目标键输入的成功率。

图源:陈涛
QWERTY全键盘布局在眼动输入场景中表现不佳,因为当执行一个较长的距离的眼跳行程时,会跨越大量键位,而在执行过程中容易扫过多非目标字符键区导致误触,从而可能导致误入错误字符,最终降低了整体的眼动滑行操作体验

图源:Eye Tracking Keyboard
3. 采用 QWERTY 键盘布局的全键盘设计采用了长方形结构。这种设计可能导致长方形键盘超出用户的视线范围,在这种情况下为了实现眼动输入功能用户可能需要调整头部视角。例如 SideQuest 提供了一款名为《Eye Tracking Keyboard》的眼动追踪打字演示程序发现通过简单的眼动输入并不总是非常精准并且在调节视野时需不断转动头部。我认为优化交互体验的关键在于尽量减少用户付出体力和运动。

眼动滑行输入法,图源:陈涛
本人认为现有键盘布局难以满足眼动键盘输入的需求。目前 QWERTY 键盘布局占据主导地位的原因在于人们的长期使用习惯已经根深蒂固。然而实际上 QWERTY 键盘的设计初衷并非旨在提升输入效率其根本原因是早期机械式打字机的设计理念着重于减少在快速输入过程中容易出现的各种机械故障。
然而完全靠视觉操作文本构成了一种全新的交互模式;针对普通用户群体则需注重操作效率;因此有可能开发出一种基于视动操作的新一代输入方法;同时该技术路径仍面临诸多技术和实现层面的问题亟待解决;这表明该方向的发展前景广阔
五.眼动人机识别
例如Vision Pro眼镜呈现的内容是全息立体的,交互采用"眼动+手势",那么现如今基于内容呈现形式和交互方式这两项构建的互联网基础都发生改变后,用传统的方法放在AR/VR 眼镜上是不适用的,就比如"人机识别",
现如今的很多互联网产品通过短信验证码、正确输入难以理解的字母数字、拖拼图等等,用这种方式来识别用户是爬虫机器人还是真人用户,以此作为安全机制防止被薅羊毛.但在 AR/VR 场景下可以有哪些人机识别机制呢?

图源:苹果
例如,在引导用户的过程中,请您遵循指导,在空间内搜索合适的3D图标;同时,在观察这些图标的过程中持续注视一定时间。这一过程是基于人类认知三维空间特性以及眼动反馈机制的交互式识别系统。

图源:陈涛
进一步提升作为眼动增强版的拖动滑块拼图,在如图所示的位置。系统会在空间内随机产生一个不规则运动的光球, 用户必须持续关注这个不断运动的光球, 直至它到达终点。
利用人眼追视行为的特点以及人眼无法凭空实现平滑移动这一特性,在空间中当光球深度(距离)发生变化时
六.眼动追踪与健康医疗、精神

来源:苹果
目前市场上主流的智能手表其核心功能则主要集中在健康监测领域
但是未来配备有AR眼镜及眼动追踪技术的系统同样具备健康监测和精神评估功能。当前,在医学领域中的眼动追踪技术已成为诊断脑震荡、自闭症及小儿注意力不足等精神疾病的关键工具。展望未来,在AR眼镜普及之前是否会催生更多专门用于改善注意缺陷及自闭症的相关医疗应用平台?这对于那些关心儿童健康成长的母亲以及一些特殊家庭而言无疑是巨大的福音。
借助 AR 眼镜的眼动追踪技术不仅可以实现对脑部、心脏、眼癌、高血压等多种心脑血管疾病的检查工作,并且能够通过该技术获取患者眼底的详细图像信息。其中眼底的特征包括视网膜、 optic disc、黄斑区、 retinal pigment epithelium 等区域的状态以及相关病变情况等信息。通过结合人工智能算法处理获得的眼底图像数据,则能够识别出部分疾病的存在并提供相应的诊断依据。这些技术突破为智慧医疗的发展带来了广阔的想象空间,在提升医疗诊断效率和准确性方面具有广阔的应用前景
此外,在业内人士 aware of Magic Leap's struggles in the consumer market后, newly appointed CEO Peggy Johnson has shifted focus to business sectors, particularly emphasizing healthcare as a key area.
作者查阅了 Magic Leap 在医疗领域运用眼动追踪技术相关 [专利](https://patents MAGICLeap.com/10365488) 文献,在其 [专利] 描述中指出:
AR 眼镜搭配上眼动追踪技术后可具备成为 “视力自动验光仪”、“眼底镜”、“裂隙灯”等眼科医学的检测设备的能力。
经过对其眼球运动及光学成像技术的研究后发现其硬件架构类似于缩小版的眼球验光仪。

图源:Magic leap 专利 US10359631
设想一下未来若AR眼镜具备验光功能,则会对眼下眼镜店产生重大影响。由于我们的眼睛存在近视问题,在过去必须前往实体店经过验光设备测定眼视力后再定制合适的 eyewear;但若是能在家中即可测定眼部屈光状况,则可避免前往实体店耗时耗力的过程。若在家中即可测定眼部屈光状况,则可避免前往实体店耗时耗力的过程;而只需在家中安装相应的设备就能获取测得的数据并将其传输至后端工厂处理;随后由工厂完成加工并将成品送回客户家中完成安装调试工作
