当前位置:网站首页 >> 生活

读唇语识别涂鸦梦中学习打败人类棋手后GoogleAI开挂般全面进化媒视界

时间:2019-03-30 12:19:12 来源:互联网 阅读:1次

2011年,谷歌成立AI部门;2014年,谷歌收购人工智能公司DeepMind;2016年,DeepMind开发的程序AlphaGo以4:1击败韩国围棋李世石。自此而后,谷歌AI如同开挂一般,瞄准各个领域,全面发力。

那些千奇百怪的GoogleAI系统

解读唇语密码

你听说了吗?谷歌DeepMind与英国牛津大学合作,开发神经网络LipNet,全面攻破读唇术。

该团队使用BBC各类电视节目(Newsnight、BBCBreakfast、Question Time等)中约5000 小时的调查视频资料、11.8万句话对LipNet进行训练,并使用节目库里的其他素材对其进行性能测试。

BBC节目数据库。从左至右分别为:频道、节目名称、小时数、句数

而终数据证明,AI不仅学会了,更是让唇读专家们自愧不如。

↓↓↓

在2016年3月至9月的节目库中随机选取的 200 个说话场景唇读对比测试中,人类专家的完全准确率为12.4%,而AI的完全准确率为46.8%!

一起来感受一下读唇语的难度!你能猜出这是在讲啥吗?

BBC节目数据库中无字幕原片

由谷歌DeepMindAI系统通过唇读同步的字幕

此外,值得一提的是,在BBC节目中的视频流与音频流往往不是完全同步的,因此,视频里出现的唇形没办法和音频完美贴合,机器似乎就无法将特定唇形和其发音对号入座。但专家们已经想出了方案来解决这个bug。

让AI先学会那些完全同步的音视频流,掌握发音与唇形间的关联,然后自行推断BBC节目中5000 小时的音视频流中哪些画面是不同步的,再进行自动修正。如果完全使用人工来进行同步校准,工作量简直大到不可想象。

DeepMind采用的“看、听、尝试、拼写”架构。首先解码出一个特征yi及两个向量,再通过向量去定位对应的输入音频视频流序列

来自牛津大学研究团队的Yannis Assael对此技术的评价是:“我们相信AI唇读技术是一种非常实用的辅助性技术,比如更智能的助听器、不便出声的公共场合,以及在嘈杂环境下的语音识别等。”

小小地窃喜一下,掌握了这门技术之后,就算是上课的时候也能畅通无阻地给小伙伴发语音啦~

识别涂鸦&精确配文

谷歌创建的人工智能实验室近发布了一项新的画图识别服务,名为“Quick,Draw!”,在短短20秒内即可准确识别出潦草的涂鸦,甚至包括中文在内的多国语言。

“Quick,Draw!”与传统识图软件不同的是,当你开始画的时候,AI就会开始识别,会自动发出语音来描述你所绘画的物体。当绘画接近完成时,它的声音会变得更加肯定,并正确识别出物体,而这已经非常接近人类猜图时的过程。

可能有人就要发问了,就算是简单的花草树木,每个人尚且有自己的画法,怎么能保证AI能正确识别出物体的不同呈现形式呢?据此,人工智能实验室表示,谷歌的AI图像识别系统不仅是传统的数据库添加识别,而是能够在快速绘画过程中进行上下文联想和判断。另外,神经网络机制会让它在错误中学习,减少错误率。

除了能够识别潦草的涂鸦,近日,谷歌还发布了版的机器学习系统,通过识别图像中的内容,可以配上对应文字,效果达到了历史。并且,谷歌在 TensorFlow 上已经开源了这项成果。

媒趣君更是了解到,该机器学习系统根据现有的消息甚至可以让描述图像的准确率高达93.9%!

谷歌的开发人员表示,人工智能不仅需要了解图片中是什么,更要了解图像中这些对象有什么相互关系。这不只是一个数据的倒推,该算法必须能够自然地理解图像中的对象和它们的用途。谷歌研究的博客发文说:“令人兴奋的是,在展示全新情境时,我们的模型的确可以产生准确的配文,这显示出系统对图像中目标和背景的理解更深了。”

Get了这一新技术,以后咱发朋友圈的时候再也不用为一张图而纠结推文了,AI就能为咱们自动生成了哦~

除了媒趣君以上提到的这几个全新玩法,Google AI甚至还可以用于灭蚊、探测濒危动物、创作言情小说......听说还正准备着去挑战《星际争霸》呢!

在见识了Google AI的众多超能力之后,媒趣君再来给大家重磅推荐一个!Google教AI“做梦”!不过,这可跟《盗梦空间》的情节不一样哦,这个营造梦境是用来让谷歌AI提升学习能力哒!

谷歌教会AI“做梦”

谷歌DeepMind于11月17日在网上发表了一篇名为《使用无监督辅助任务的强化学习》的论文称,谷歌AI以往在游戏中获得的高分以及在围棋上击败了人类的结果,都需要长时间的持续训练。而如今他们已经在机器学习系统的速度和性能上实现了跨越,其原因正是在于这套名为Unreal的新系统整合了一种技术,可以通过模拟动物做梦来加快学习。

“我们的训练速度大幅提升,需要的训练经验也大幅减少,所以数据效率大大提高。”DeepMind研究员麦克斯·加德伯格(Max Jaderberg)和沃罗戴米尔·米涅(Volodymyr Mnih)写道。他们表示,由于缩短了训练时间,Ureal可以让DeepMind研究人员更快地尝试新的想法。

据悉,Unreal目前完成3D迷宫游戏《Labyrinth》的速度,比现有的人工智能软件还快10倍,甚至可以达到人类玩家87%的速度。在游戏中,玩家需要迅速走出一个蜿蜒曲折的迷宫,沿途每收集到一个苹果都能得分。而训练Unreal的方式,则是让其在梦里收集苹果。

研究人员选择这款游戏是因为它能够通过得分强化正确的行为,“就像动物会更加频繁地梦到正面(或负面)奖励事件一样,我们的智能体会优先重温那些包含奖励事件的场景。”DeepMind解释道,“智能体被训练从近期战况中预测即将出现的奖励。为了更好地应对奖励极少的场景,我们向智能体等比例地输入了有奖励和无奖励的历史数据。通过更多地学习有奖励的历史数据,智能体能更快发现预示着奖励的视觉特征。”

DeepMind团队说,他们目前的“主要任务”就是让人工智能“学会在不用人教的情况下解决复杂问题”。

看了这么多Google AI的新玩法,你喜欢哪一个呢?媒趣君寄几中意的是在“梦中学习”,真希望这项技术能够迅速投产,这样睡着觉就能写出雄文的夙愿就要实现了!

三氯异氰尿酸厂家
中国印刷公司
扬场机

相关文章

一周热门

热点排行

热门精选

Copyright (c) 2011 八零CMS 版权所有 Inc.All Rights Reserved. 备案号:京ICP0000001号

RSS订阅网站地图