当前位置: >听 6 秒钟语音,这个 AI 就能知道你长什么样子

听 6 秒钟语音,这个 AI 就能知道你长什么样子

发布于2019-06-12 04:52:29,听 6 秒钟语音,这个 AI 就能知道你长什么样子,Kotoo科技新闻网(http://www.kotoo.com)
 

听 6 秒钟语音,这个 AI 就能知道你长什么样子

声音可以暴露很多讯息,麻省理工学院(MIT)最近一项研究发现,经过训练的 AI 不仅能从声音辨别出性别、年龄和种族,甚至能猜出这人大概长什么样子。这些“秘密”都藏不住了。

研究人员用一个由数百万 YouTube 影片剪辑组成的数据集,自我训练一名为 Speech2Face 的神经网络模型。从最终结果来看,6 秒语音还原人脸的效果还算不错。

▲ 一共 6 组结果示范,左边是影片人像,右边是 AI 根据声音还原的效果。(Source:MIT,以下同)

Speech2Face 模型的运作大概分为两部分,一是语音编码器,负责分析输入语音,预测相关的脸部特征;另一个则是脸部解码器,整合输入的脸部特征产生图像。

MIT 研究团队指出,他们目的不是为了准确还原说话者的模样,Speech2Face 模型主要是为了研究声音跟相貌之间的关联性。

从训练结果看,Speech2Face 较能辨识性别,对白种人和亚洲人也较能分辨,另外对 30~40 岁和 70 岁的年龄段声音命中率稍微高一些。

▲ Speech2Face 似乎倾向将 30 岁以下的说话者年龄猜大,将 40~70 岁的说话者年龄猜小。

除了比较基础的性别、年龄和种族,Speech2Face 甚至能猜中一些脸部特征,比如说鼻子结构、嘴唇厚度和形状、咬合情况,以及大概的脸部骨架。基本上输入的语音时间越长,AI 准确度会越高。

当然 AI 的“听觉”也会出错。研究人员发现,它会将未经历变声期的小男孩辨识为女性,判断错误一些说话者的口音,也会搞混年纪……这一点完全可以理解,毕竟声音还是会骗人的,夜夜伴你入睡的萌妹奶音主播,实际上说不定是个汉子。

▲ Speech2Face 的一些错误范例。

研究人员指出,Speech2Face 的局限性,部分原因来自数据集的说话者本身种族多样性不够丰富,这也导致它辨认黑人声音的能力比较弱。

至于他们对这个 AI 模型的应用,有个很可爱的想像:只需要说几句话,未来 Animoji 和 Gboard 等功能或许就能根据声音生成你的卡通头像。

(Source:Speech2face)

不管你信或不信,藏在我们声音的秘密都正被开发研究,投入各式各样的场景应用。

卡内基美隆大学计算机副教授 Rita Singh 也主导过一项类似研究,能从声音猜测说话者的年龄、身高、体重、环境噪音和说话时的空间类型等资讯。她认为声音藏着丰富而独特的资讯,“就像你的 DNA 或指纹”。

这项技术后来升级成跟 Speech2Face 相似的语音分析系统,还原人脸的准确度达到 60%~70%,目前正被美国海岸警卫队用于缩小调查范围找到恶作剧报警者。据称,他们每年会接到约 150 通恶作剧电话,这被视为浪费警力,甚至会遭到刑事诉讼。

目前汇丰、渣打、摩根大通等银行都在用“声纹”当作身份辨识方式(voice ID)之一,可检测你的账户是否被盗。

大都会人寿保险公司的客服中心,会用一套 AI 系统帮忙识别客户的情绪和感受,平均准确率达到 82%;一些保险公司甚至会借此判断来电者有没有骗保意图──如果说话时出现微小停顿,很可能就是在提供虚假资讯。

除此之外,经过训练的 AI 还被一些公司用于招募新人,从应试者的说话模式分析性格特征,判断是否适合招募的职缺。

丰田汽车曾经在 2017 年 CES 大会展出 Concept-i 概念车型,车内配备红外线镜头、感测器、车载语音辨识和对话系统,它们将协助判断司机是不是处于疲劳驾驶状态并提醒。

跟 MIT 的卡通头像相比,Singh 教授的想法似乎要更长远且宏大。她希望,有朝一日语音辨识技术可用于远程确诊帕金森氏症等疾病。

目前有研究发现,冠状动脉疾病患者声音会留有不同的频率标志。未来,“听声看病”说不定也会跟“听声辨脸”一样成真。

(本文由 爱范儿 授权转载;首图来源:pixabay)

声明:

·凡注明为其他媒体来源的信息,均为转载自其他媒体,转载并不代表本网赞同其观点,也不代表本网对其真实性负责。如系原创文章,转载请注明出处。

·您若对该稿件内容有任何疑问或质疑,请即联系,本网将迅速给您回应并做处理。

邮箱:mail@kotoo.com

+1 已赞
已有8人赞过
评论13

发表评论请 登录
  • 最新
  • 最热
评论举报

请选择举报理由

17 13

已收藏
去我的收藏夹 >

已取消收藏
去我的收藏夹 >