教会人工智能系统像人类一样完全理解视频中发生的事情是机器学习世界中最困难的挑战之一--也是最大的潜在突破。今天,Facebook宣布了一项新举措,它希望能在这项有意义的工作中获得优势:在Facebook用户的公共视频上训练其AI。
 
获取训练数据是人工智能领域最大的竞争优势之一,通过收集数百万、上千万用户的这一资源,Facebook、谷歌和亚马逊等科技巨头已经能够在各个领域取得领先优势。而Facebook已经在从Instagram收集的数十亿张图片上训练了机器视觉模型,但此前并没有宣布类似雄心勃勃的视频理解项目。
 
"我们更广泛的努力的一部分,旨在打造像人类一样学习的机器"
"通过从横跨几乎每个国家和数百种语言的全球公开视频流中学习,我们的人工智能系统将不仅提高准确性,而且还将适应我们快速移动的世界,并识别不同文化和地区的细微差别和视觉线索,"该公司在博客中说。这个名为 "从视频中学习 "的项目也是Facebook "朝着打造像人类一样学习的机器的更广泛努力的一部分"。
 
Facebook表示,由此产生的机器学习模型将用于创建新的内容推荐系统和节制工具,但未来可以做得更多。能够理解视频内容的人工智能可以让Facebook前所未有地洞察用户的生活,让他们分析自己的爱好和兴趣,对品牌和衣服的偏好,以及其他无数的个人细节。当然,Facebook已经可以通过目前的广告定向业务获得此类信息,但如果能够通过人工智能解析视频,将为其商店增加一个令人难以置信的丰富(和侵入性)数据来源。
 
 
Facebook对于未来对用户视频进行训练的AI模型的计划含糊其辞。该公司告诉The Verge,这样的模型可以被投入到许多用途中,从视频的字幕到创建高级搜索功能,但没有回答是否会被用于收集广告定位信息的问题。同样,当被问及用户是否必须同意自己的视频被用于训练Facebook的人工智能,或者是否可以选择退出时,该公司仅回应称,其数据政策称用户上传的内容可以用于 "产品研发"。对于询问究竟会收集多少视频用于训练其AI系统,以及如何监督该公司研究人员对这些数据的访问的问题,Facebook也没有做出回应。
 
不过,在宣布该项目的博客文章中,该社交网络确实指出了一个未来的猜测性用途:利用AI检索智能眼镜拍摄的 "数字记忆"。
 
Facebook计划在今年某个时候发布一副消费者智能眼镜。关于该设备的细节还很模糊,但这些或未来的眼镜很可能会包括集成的摄像头,以捕捉佩戴者的视角。如果人工智能系统能够被训练成理解视频的内容,那么它将允许用户搜索过去的记录,就像许多照片应用允许人们搜索特定的地点、物体或人一样。顺便说一句,这些信息往往被根据用户数据训练的AI系统索引)。
 

 
随着用智能眼镜录制视频 "成为常态",Facebook表示,"人们应该能够从他们庞大的数字记忆库中回忆起特定的时刻,就像他们捕捉这些时刻一样容易。" 它举例说,一个用户以 "给我看看每次我们给奶奶唱生日快乐的时候 "进行搜索,然后就会得到相关片段。正如该公司所指出的那样,这样的搜索需要人工智能系统在各类数据之间建立联系,教会它们 "将'生日快乐'这句话与蛋糕、蜡烛、人们唱各种生日歌等相匹配"。就像人类一样,人工智能需要理解由不同类型的感官输入组成的丰富概念。
 
展望未来,智能眼镜和机器学习的结合将实现所谓的 "世界碎片化"--通过将智能眼镜的佩戴者变成巡回的闭路电视摄像机,捕捉世界的精细数据。正如《卫报》去年的一篇报道中对这种做法的描述。"每当有人浏览超市时,他们的智能眼镜就会记录下实时的价格数据、库存量和浏览习惯;每当他们打开报纸时,他们的眼镜就会知道他们读了哪些故事,看了哪些广告,目光停留在哪些名人的海滩照片上。"

这是一个极端的结果,也不是Facebook表示目前正在探索的研究途径。但它确实说明了将先进的人工智能视频分析与智能眼镜搭配的潜在意义--社交网络显然很想这么做。
 
FACEBOOK已经部署了AI视频模型来推荐卷轴中的片段。
相比之下,Facebook目前披露的其新的人工智能视频分析工具的唯一用途是比较平凡的。在今天宣布 "从视频中学习 "的同时,Facebook表示已经在其TikTok克隆的Reels中部署了一个基于视频作品的新内容推荐系统。"流行的视频通常由相同的音乐配上相同的舞蹈动作组成,但由不同的人创作和表演。"Facebook说。通过分析视频的内容,Facebook的AI可以向用户推荐类似的片段。
 
 
不过这种内容推荐算法并非没有潜在的问题。麻省理工学院《技术评论》最近的一份报告强调了这家社交网络对增长和用户参与度的重视,使其AI团队无法充分解决算法如何传播错误信息和鼓励政治极化的问题。正如《科技评论》文章所说:"使参与度最大化的[机器学习]模型也有利于争议、错误信息和极端主义。" 这就在Facebook的人工智能伦理研究人员的职责和该公司最大化增长的信条之间产生了冲突。
 
Facebook不是唯一一家追求先进AI视频分析的大型科技公司,也不是唯一一家利用用户数据进行分析的公司。例如,谷歌维护着一个可公开访问的研究数据集,其中包含800万个经过策划和部分标签的YouTube视频,以 "帮助加快大规模视频理解的研究"。这家搜索巨头的广告业务同样可以从理解视频内容的人工智能中受益,即使最终结果只是在YouTube上提供更多相关的广告。
 
不过,Facebook认为自己比竞争对手有一个特别的优势。它不仅拥有充足的训练数据,而且正在将越来越多的资源推向一种被称为自我监督学习的AI方法。
 
自我监督学习是 "智能的暗物质"。
通常,当人工智能模型在数据上进行训练时,这些输入必须由人类进行标注:例如,标记图片中的物体或转录录音。如果你曾经解决过识别消防栓或行人横穿马路的验证码,那么你很可能已经标记了帮助训练AI的数据。但自我监督学习则可以取消标签,加快训练过程,有研究人员认为,随着人工智能系统教会自己加入这些点,会产生更深入、更有意义的分析。Facebook对自我监督学习非常乐观,称其为 "智能的暗物质"。
 
该公司表示,其未来在人工智能视频分析方面的工作将集中在半监督和自我监督学习方法上,这种技术 "已经改善了我们的计算机视觉和语音识别系统"。由于Facebook的28亿用户拥有如此丰富的视频内容,跳过AI训练中的标签部分无疑是合理的。而如果这家社交网络能够教会其机器学习模型无缝理解视频,谁知道它们会学到什么呢?