智能眼镜上的人工智能“声纳”可跟踪凝视和面部表情

康奈尔大学的研究人员开发了两种技术，通过类似声纳的传感来跟踪人的视线和面部表情。

该技术足够小，可以安装在商用智能眼镜或虚拟现实（VR）或增强现实（AR）耳机上，但与使用摄像头的类似工具相比，功耗要低得多。

两者都使用安装在眼镜架上的扬声器和麦克风，将听不见的声波从脸上反射回来，并拾取由面部和眼睛运动引起的反射信号。其中一种设备GazeTrak是第一个依赖于声音信号的眼动追踪系统。第二个是EyeEcho，是第一个基于眼镜的系统，可以连续准确地检测面部表情，并通过化身实时重现它们。

Jason Koski/康奈尔大学

李珂是GazeTrak智能眼镜跟踪技术的首席研究员。

这些设备在智能玻璃电池上可以使用几个小时，在VR耳机上可以使用一天以上。

“它体积小，价格便宜，功率超低，所以你可以每天戴在智能眼镜上——它不会耗尽你的电池，”康奈尔大学安·鲍尔斯计算与信息科学学院信息科学助理教授张成说。Zhang是未来交互智能计算机接口（SciFi）实验室的负责人，该实验室创造了这些新设备。

“在VR环境中，你希望重现详细的面部表情和凝视运动，以便与其他用户进行更好的互动，”信息科学领域的博士生李珂说，他领导了GazeTrak和EyeEcho的开发。

李说，使用声音信号而不是视频也减少了隐私问题。“在这个研究领域，甚至在商业产品上，有许多基于摄像头的系统来跟踪面部表情或凝视运动，如Vision Pro或Oculus，”他说。“但并不是每个人都希望可穿戴设备上的摄像头能够一直捕捉你和你的周围环境。

Li 将在 9 月 30 日至 10 月 4 日举行的移动计算和网络年度国际会议（MobiCom’24）上发表题为“GazeTrak： Exploring Acoustic-based Eye Tracking on a Glass Frame”的演讲。

“随着VR/AR头显变得越来越小，最终类似于今天的智能眼镜，与使用视频的系统相关的隐私问题将变得越来越重要，”共同作者FrançoisGuimbretière说，他是康奈尔大学鲍尔斯独联体大学和多学院设计技术系的信息科学教授。智能AR眼镜。

对于GazeTrak，研究人员在一副眼镜的每个眼框内侧放置了一个扬声器和四个麦克风，以反射和拾取来自眼球和眼睛周围区域的声波。生成的声音信号被输入到定制的深度学习管道中，该管道使用人工智能不断推断人的注视方向。

GazeTrak还不如依赖摄像头的领先眼动追踪技术工作，但新设备证明了音频信号也是有效的。研究人员认为，如果进一步优化，他们可以达到相同的精度，并减少所需的扬声器和麦克风数量。

对于 EyeEcho，一个扬声器和一个麦克风位于眼镜铰链旁边，指向下方以捕捉面部表情变化时的皮肤运动。反射信号也使用人工智能进行解释。

借助这项技术，用户可以通过头像进行免提视频通话，即使在嘈杂的咖啡馆或街上也是如此。虽然一些智能眼镜能够识别人脸或区分一些特定的表情，但目前，还没有像 EyeEcho 那样连续跟踪表情。

Li 将在 5 月 11 日至 16 日举行的计算机协会（ACM） CHI 计算系统中人为因素会议（CHI’24）上展示这项工作，“EyeEcho：眼镜上的连续和低功耗面部表情跟踪”。

这两项进步的应用范围超出了增强一个人的VR体验。GazeTrak 可以与屏幕阅读器一起使用，为视力低下的人在浏览网站时读出部分文本。

GazeTrak 和 EyeEcho 还可能有助于诊断或监测神经退行性疾病，如阿尔茨海默氏症和帕金森氏症。在这些情况下，患者通常有异常的眼球运动和较少的表情，这种类型的技术可以在患者舒适的家中跟踪疾病的进展。

康奈尔大学的多位研究人员也为这项工作做出了贡献，包括张瑞东、Mose Sakashita和Saif Mahmud，他们都是信息科学领域的博士生;James Chen ’24， Shawn Chen ’24 和 Kenny Liang ’24;以及爱丁堡大学硕士生尹思成。

这项研究得到了美国国家科学基金会和IGNITE创新加速计划的支持。

帕特里夏·沃尔德伦（Patricia Waldron）是康奈尔大学安·鲍尔斯（Cornell Ann S. Bowers）计算与信息科学学院的作家。

新闻旨在传播有益信息，英文版原文来自https://news.cornell.edu/stories/2024/04/ai-powered-sonar-smartglasses-tracks-gaze-and-facial-expressions