在AI选美比赛中,找不到油腻之人
我最近迷上了 B站某 up 主的“网络热门帅哥鉴定”系列视频。每一期都有几个 AI 帅哥穿插在一众“人类候选人”中,在几十万观众的见证下,脱颖而出者伴随的专属弹幕竟然是“爱上 AI 是我的宿命”——观众心目中,最顺眼的大多是 AI……
人民呼唤 AI丨Bilibili Up 正经的老邢 截图
这些视频里的 AI 男性,通常搭配简洁朴素的着装,走动中不经意地抬头、站立、微笑,表情恰到好处,毫不夸张;反观同场“竞技”的人类选手们,有的是自作聪明的刻意摆拍,有的则自然流露出很多不合时宜的动作和表情,比如夸张的歪嘴然后邪魅一笑。
最初,在“人机争艳”的视频里,许多观众还会用一些“旧办法”来分辨 AI,什么手指脚趾、皮肤关节等等;但 AI 进步得比人快,“画手指”之类的“一眼假”秘籍早就不再适用,一种新的经验被总结出来——它无需用技术词汇分析,只需要用到中文语境里的三个字就可以总结:不油腻。
“油腻”这个词其实有点抽象,难以量化。当我们在讨论油腻人类的表现,能听到这样一些评论:“不合时宜、毫无边界的调侃是真的致命”,“油腻的人自己心里先想秀,不是出于真实的表达”——前一个针对谈吐,后一个针对外在表现,大家苦“油腻”久矣。
大概就这个意思吧丨Giphy
我也请 ChatGPT 来试着定义“油腻”。它的答案是:刻意不自然的打扮,行为举止上过于自恋,自我为中心,性格傲慢自大等,都是“油腻”。
看得出,ChatGPT 从大量数据中学习到了“油腻”指的是一种从内而外令人反感的综合表现,集“低质量人类”描述于一体。看到这里,你是否已经开始将身边的人对号入座了?
AI自己的选美比赛
过去一年多的时间,市面上已经出现很多令人惊艳的 AI 生成视频类产品,比如通过文字提示词生成的 Sora,以及最近火爆的 Luma 和国内快手的可灵,都能实现静态图片生成视频……但普通使用者对于此类产品的更多印象,仍停留在别扭的表情和扭曲的动作,甚至是扑面而来的各种“恐怖谷”,或许因为模型缺陷,或许来自数据量或算力的制肘。
在MIT Technology Review今年四月的一篇文章中,作者在一家人工智能视频公司体验了对方的最新技术。在对她的面部动作、微表情、耸肩、挥手及声音进行大规模数据点采集后,她获得了自己的一个“复刻”版本——只有肩膀及以上的身体部分,但面部会根据语音的情绪和声调变换微表情,甚至声音会模仿她的方言发音。
生成的来自于采集的丨MIT Tech Review截图
6月24日,该作者更新了自己的“复刻人”视频,她有了肩膀以下的动作,因为该公司运用了更大尺寸的模型。其中,手部使用了循环技术进行动画制作,会根据脚本内容来进行手部动作。我们仔细观察了下她的手,几乎没有出现以往 AI 生成中出现的六根手指或两手交叠会“穿模”的事故。
相比人们对面部成熟的点位记录,人体运动图像从数据到模型都还在进化中。相比面部动作,人类的手部动作乃至全身运动会涉及更加复杂的骨骼、肌肉韧带和关节的相互作用。所以我们如今看到不管是 dream machine 还是 Sora 发布的人像视频,人物运动幅度和姿势都较为简单(也许这反而成了看起来“不油腻”的原因之一)。
选美Mr. AI才更有趣丨Fanvue截图
而精细的手部、身体细节已成为对 AI 技术,乃至“AI 选美比赛”的评判标准之一。你没有看错,AI也有自己的选美比赛了。今年4月,社交网站 Fanvue 与世界 AI 创作者奖(WAICA)合作举办了一场选美比赛,参赛者都是 AI 训练师生成的 AI 美女。在官网列出的评比标准里,就有对手、眼睛和背景等视觉细节的考察。刨除该比赛涉及的男凝及物化女性的质疑(这些在人类选美比赛中也饱受诟病),“AI人”的世界里,美的标准究竟是什么?
候选佳丽丨Fanvue截图
为什么“AI哥哥”不油腻?
以现在市面上的众多 AI 生成图像或视频模型来讲,它们生成的作品确实都很美或者帅气。在上面提到的 AI 选美比赛中,几乎所有 AI 选手都身材苗条,面部光泽细腻,头发和妆容也堪称完美。
AI 所认为的美与模型训练者息息相关,也就是背后的人类。我们对人脸的研究已经非常成熟。以中国的旷视 AI 举例,在它的 API 文件里,我们看到了这款产品对人脸进行了脸部、眼睛、眉毛、嘴唇、鼻子轮廓五个对象结构,106 个关键点的拆分,并运用“三庭五眼”这样的中国传统美学标准对字段进行了设定,比如“三庭”对应的字段是 three_parts,五眼对应的是 five_eyes。除了运用符合中国美学的面部审美标准,该产品还使用西方的“黄金三角”(golden_triangle)理论进行面部识别。其他AI模型也都有各自的面孔评判标准,在如此多美学标准的设定下,AI 不仅能识别美丽或帅气的脸,还能通过学习来生成更多这样的脸庞。
关于面部特征的定位丨商汤API说明截图
而在生成学习的过程中,则会用到“平均脸”理论,平均脸是将多个面孔叠加而生成的面孔,在叠加过程中,个体面孔中的不规则性和独特特征被平均化了,生成的脸孔更对称和和谐,这对大多数人都很有吸引力。该理论可以帮助模型更好地理解和识别面部特征的共性和变化,各个 AI 模型在训练中会从大量风格多样的人类图片和视频里进行学习,并且将不同人的面部和身体特征进行混合,这就使得最终生成的作品风格不会偏向于某种特质。
而在图像数据预处理中,为了避免可能的法律风险,开发者也大多会把图像中带有显著辨识度的个人特质或隐私信息内容去除。这些过程都会使得AI生成的人脸会更趋向一个标准的和平均的脸孔,更符合主流审美,但却可能缺乏辨识度。
因此,在看多了 AI 生成的人类图像或视频后,我们的确能把它们和真人区隔开。“不油腻”其实就是大模型训练而成的主流审美,投我们所好的学习,结果当然是既定的。
AI 的审美来自于人,且更加刻板丨Washington Post页面截图
如果硬要 AI 生成“油腻的人类”视频呢?也不是没有办法。虽然几家大的 AI 模型公司有着海量数据和庞大的算力支持,但小规模的有针对性的模型训练依旧可以满足不同需求。
不排除未来会有人开发一款“AI 油腻人类形象生成器”。在模型设计过程中就摒弃传统审美,在训练数据时也要用大量被多数用户判定为“油腻”的人类形象的视频或图片来教育 AI。
要是真有人作出这样一款产品,那一定挺有趣,但怎么商业化啊……
爱具体的人,爱独一无二的你
用AI生成让人赏心悦目的帅哥美女视频只是其中很小的应用,还有一些人与AI产生了更深的情感连接。在技术的加持下,他们可以定制外貌、声音、性格都投自己所好的 AI 伙伴。在这些技术尝鲜者看来,AI 不会劈腿、出轨,不会塌房,更不会衰老死亡,是理想的情感投射对象。
以后,在人们的性取向列表中,还要加上“AI恋”这一项么?
在 Reddit 一个关于“AI 美容计算器”的问题下,面对 AI 给自己容貌打分的行为,人们普遍会流露出恐慌与不适,其中一位老人的回答让我印象深刻。
“但他们也失去了遗传学上的独特性”丨Reddit
他告诉提问者:我们的遗传因素和所过的生活会体现在我们脸上,虽然那些面部更趋向于平均脸的人因为符合主流审美而在社交媒体获得成功,但他们也因此失去了遗传学上的独特性。在一次去墨西哥南部的旅行中,他在当地人脸上看到了兼具西班牙和印第安土著特质的面部特质,这让他觉得非常不可思议。“这些(脸孔)都无法接近机器人计算的统计平均值,但更有说服力。”他希望提问者发现自己身上的独特可爱之处,毕竟,“你是你唯一的你,是我们唯一拥有的宝贵地球上唯一的你。”
实际上,相比 AI 的输入-输出,人类的不可捉摸,丰富多元更是一座充满魅力的富矿。AI 从人类的文字、图片、视频学习,我们也可以从 AI 生成的结果推出一些未有的经验,最直接的就是,你现在已经了解了什么样的人类不油腻,不是吗?
作者:阿尔法酱
编辑:卧虫
封面图来源:Fanvue
果壳AI组 出品
如有需要请联系[email protected]