英伟达宣布为开发者推出一款名为英伟达 Maxine的新视频会议平台,声称可以解决视频通话中最常见的一些问题。
 

 
Maxine将使用英伟达的GPU在云端处理通话,并在人工智能的帮助下以多种方式提升通话质量。利用人工智能,Maxine可以重新调整呼叫者的脸部和目光,让他们始终直视摄像头,通过只传输 "关键的面部点",将视频的带宽要求 "降低到H.264流媒体视频压缩标准要求的十分之一",并提升视频的分辨率。Maxine提供的其他功能还包括人脸重光、实时翻译和转录,以及动画头像。
 
英伟达的脸部调整功能将确保你始终注视着摄像机。
当然,并非所有这些功能都是新的。视频压缩和实时转录已经很常见了,微软和苹果已经在Surface Pro X和FaceTime中引入了目光对准功能,以确保人们在视频通话时保持目光接触(尽管英伟达的面部对准功能看起来像是一个更极端的版本)。
 
但英伟达无疑希望其在云计算领域的影响力以及令人印象深刻的AI研发工作能够帮助其超越竞争对手。不过,真正的考验将是看是否有成熟的视频会议公司真正采用英伟达的技术。Maxine不是一个消费者平台,而是一个供第三方公司改进自己软件的工具包。不过到目前为止,英伟达只宣布了一项合作--与通信公司Avaya合作,后者将使用Maxine的部分功能。如下图所示,所有主要的云厂商都将Maxine作为英伟达 GPU云服务的一部分提供。
 
 
在与记者的电话会议上,英伟达负责媒体和娱乐的总经理Richard Kerris将Maxine描述为一个 "真正令人兴奋和非常及时的公告",并强调其AI驱动的视频压缩是一个特别有用的功能。
 
"我们都经历过这样的时刻,在我们现在每天进行的会议中,带宽一直是一个限制,"Kerris说。"如果我们将AI应用到这个问题上,我们就可以重构两端的差异场景,只传输需要传输的内容,从而大幅降低带宽。"
 
 
英伟达表示,其压缩功能使用了一种被称为生成性对抗网络或GANs的AI方法,在云端部分重建呼叫者的面孔。这也是许多深度伪造中使用的技术。"人工智能软件不是将整个屏幕的像素进行流式传输,而是分析通话中每个人的关键面部点,然后在另一边的视频中智能地重新生成面部,"该公司在一篇博客文章中说。"这使得在互联网上来回流动的数据少得多的视频流成为可能。"
 
与这些早期公告一样,我们需要看到更多这种技术的行动,并等待英伟达做出的任何合作交易,然后我们才知道这将对日常视频通话产生多大影响。但英伟达的公告显示,未来的视频会议将比以往任何时候都更加人工化,人工智能将用于矫正你的目光,甚至重建你的脸部,这一切都以节省带宽为名。