找回密码
 立即注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

微信名称:美国米群网

微 信 号:MeetQun

微信QQ:群: 320065698

查看: 272|回复: 3
收起左侧

[科教] 谷歌开发AI“读唇”软件 准确率比人类高3倍

[复制链接]

678

主题

119

精华

2129

积分

米群网大牛

Rank: 6Rank: 6

积分
2129
发表于 11-26-2016 12:37 PM | 显示全部楼层 |阅读模式

亲!马上注册或者登录会查看更多内容!

您需要 登录 才可以下载或查看,没有帐号?立即注册

x


谷歌人工智能部门DeepMind正与牛津大学研究人员合作,希望开发出全球最先进的“读唇”软件,可能比人类的“读唇”能力还要出色。

为实现这一目标,研究人员选取了数千个小时的BBC电视短片,上传到一个神经网络上,对其“读唇”软件进行训练,即根据主播嘴部运动来识别其播报内容。

点击图片看原样大小图片

点击图片看原样大小图片

结果,这款“读唇”软件的唇读准确率高达46.8%。相比之下,基于同样的测试内容,人类唇读的准确率只有12.4%。

这项研究基于牛津大学之前的一款人工智能“读唇”系统“LipNet”。LipNet能将视频中人物的嘴部运动与其台词进行匹配,准确率高达93.4%。当然,该准确率主要基于一些相对简单的句子。

DeepMind这款“读唇”软件名为“看、听、分析与拼写”(Watch,Listen,Attend,andSpell),与LipNet不同的是,DeepMind的软件致力于更难的长句。

为此,谷歌神经网络观看了来自BBC的约5000个小时的流行电视节目,包括《晚间新闻》和《提问时间》和《今日世界》等,共包含了11万个不同的句子,1.75万个不同的单词。相比之下,测试LipNet的句子只包含了51个不同的单词。 谷歌对此表示:“这项研究的目的是识别人们谈话时的短语和句子,有声音或没有声音都能识别。与之前的相关研究不同,它们仅限于有限数量的单词或短语,而我们的研究针对无限制的自然语言长句。”

DeepMind团队认为,他们新开发的这款软件除了能帮助听力损伤人群,还支持其他一系列应用,包括注释电影、利用唇部动作与Siri和Alexa等数字助理通信等。

0

主题

0

精华

2

积分

新米人

Rank: 1

积分
2
发表于 11-26-2016 03:48 PM | 显示全部楼层
楼主透明帖子好赞~~~
回复 支持 反对

使用道具 举报

0

主题

0

精华

1

积分

新米人

Rank: 1

积分
1
发表于 11-26-2016 03:48 PM 来自美国米群网手机版 | 显示全部楼层
感谢透明分享~~~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表