手机相册已经能看懂你拍的是猫还是狗,怎么做到的?

上传人:子 文档编号:47191003 上传时间:2018-06-30 格式:PDF 页数:5 大小:333.49KB
返回 下载 相关 举报
手机相册已经能看懂你拍的是猫还是狗,怎么做到的?_第1页
第1页 / 共5页
手机相册已经能看懂你拍的是猫还是狗,怎么做到的?_第2页
第2页 / 共5页
手机相册已经能看懂你拍的是猫还是狗,怎么做到的?_第3页
第3页 / 共5页
手机相册已经能看懂你拍的是猫还是狗,怎么做到的?_第4页
第4页 / 共5页
手机相册已经能看懂你拍的是猫还是狗,怎么做到的?_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《手机相册已经能看懂你拍的是猫还是狗,怎么做到的?》由会员分享,可在线阅读,更多相关《手机相册已经能看懂你拍的是猫还是狗,怎么做到的?(5页珍藏版)》请在金锄头文库上搜索。

1、手机相册已经能看懂你拍的是猫还是狗,怎么做到的?手机相册已经能看懂你拍的是猫还是狗,怎么做到的?本文本文由由 Medium 和和 Signe Brewster 授授权好奇心日报(权好奇心日报()发布。)发布。 Signe Brewster 是是 Medium Backchannel 频频道常驻作者。道常驻作者。Google 相簿的产品负责人 Dave Lieb 和我都在穿越时光。他在屏幕上用两个指头往中 间一捏,再在成组的照片里往下一划,在一秒钟的时间里,他就从 21 世纪回到了 1990 年代、1980 年代。他点了一下搜索图标,打了个“ducklings”(小鸭)进去。于是满屏幕就都是孩子

2、玩儿 的那种小鸭。在他划动着屏幕回到从前的过程中,新拍的数码照片逐渐就变成了从胶 卷打印出来的照片扫描而成的、欠饱和的照片。“我小的时候住在德州这个水塘边上。我们家还会去拿鸭蛋来孵小鸭,”Lieb 跟我 说,“如果我回到最一开始在那儿的时候,我和我的小鸭就会在这儿。”没错,就在那 儿。上周,Google 给人们的生活带来了一个强大的新大脑:一个可以搜索的相簿应用 它把 Google 在图片搜索方面的能力加入到了我们自己的私人相册里。它背后的 秘密就是一种新型神经网络(neural network)也就是可以把大量信息进行分类、 并学会识别图案和高水平概念的算法。这个神经网络平衡了演算能力和效率

3、,从而可 以用来识别人、地点、物品和搜索词所对应的图像,并对其进行分类。“在我们身处的恶劣环境里,我们需要一个像这样的应用,”搜索软件工程师 Tom Duerig 说。2015 年,人们照了太多张照片,我们生活在一个时空跳跃的时代,再看一 遍我们去年发在社交媒体上的照片的快照,就能让我们感到高兴。是时候弄个更智能的东西出来了。随着计算机视觉研究的缓慢发展,它已经酝酿了很 多年。Google 相簿可能看起来像是一个应用,但它实际上是 Google 持续探究把人工 智能应用到搜索上的最新努力。每年,斯坦福大学和 Google 的计算机视觉巨头都会聚在一起,参加 ImageNet 举办的 大型视觉识

4、别挑战赛这个比赛旨在发现从巨量图片中检测出物体的最佳方法。这 个比赛是了解这一领域状况的绝佳机会,在 2014 年的比赛中,物体检测和分类的准 确程度就比前一年提高了一倍。2014 年,由 Google 的研究人员主导的团队 GoogLeNet 在好几个分类中都位居第一, 去年 9 月,他们还发表了一篇论文,描述了一个独特的新的神经网络架构,这个架构 名叫“Inception”(开始),名字来源于其多层结构的设计。Google 相簿是第一个应用了 Inception 的大型真实世界项目。当你把一张照片上传到 Google 相簿的时候,Google 会注意到照片生成的日期和位置,并把它送到神经网

5、络 里,估计照片内容的大致信息。Google 相簿的神经网络是分层设置的,输入的照片从最底层进入,再从最顶层输出。 打造一个更加智能的网络有一个办法,那就是增加更多的层数。Inception 有 22 层。如果输入的照片里是一只猫(这个典故来自 2012 年机器学习界最大的新闻,当时 Google 的神经网络从 1000 万张 YouTube 视频的静止画面中学会了识别猫),那么第 一层就会识别出像线条或颜色这样的简单特征。然后神经网络会把这些特征传递给下 一层,这一层就可能会识别出眼睛或者耳朵来。每一层都会让特征变得更复杂,最后 神经网络就会检测出足够的指标,并把它们联系起来,最终做出判断:

6、“这是一只 猫。”有了 22 层的神经网络,我们就可以分得清(比如说)“摔跤”和“拥抱”的区别 这两个抽象的概念在视觉上的差异很细微,层数少的神经网络可能就分不清楚。 有时候,Google 相簿也会通过查看照片的日期和地点来“作弊”,比如这张照片可能是 在国际猫节那天拍的(如果你想知道的话,国际猫节是每年的 10 月 29 日)。借助自己世界上最大、同时也最强大的神经网络,Google 可以进行 22 层分析,通过 它们过滤出每一种颜色、形状、材质,最终从一张图片中以近似 100% 的确定性分辨 出其中的物体。但它可以非常接近 100% 的确定性,只是每变得聪明一点,它都要占 据许多存储空间、

7、用掉很多计算能力考虑到 Google 相簿可以对数十亿张图片进 行分类,这也算是一个很有吸引力的挑战。Google 的研究人员在为神经网络起名字的时候,参考了突然火遍全网络的“we need to go deeper”这句流行语(源自电影Inception(盗梦空间),译注)。神经网络会通过减少在逐层过滤过程中照片中所承载的信息,把这些照片转化成了22 层中的信息的总和,而且耗费的资源也在可以承受的范围内。如果它在第一层采 集到 10 个不同深度的灰色,它可能会把这些信息组合成为一份信息。通常情况下, 越到后面的层,系统就会处理越来越多的数据,但有了 Inception,这个数据量从头到 尾不

8、会有太大变化。Google 的研究人员在论文中说,在这场打造一个最智能的神经网络的竞赛中, Inception 的目的是要确保“它们不会最终成为纯粹为了满足学术好奇心的成果,而是 可以被应用于实际,甚至这个网络能以合理的成本用在大型数据集上”。所以还有什 么能比一个相簿应用更实际吗?当全部照片都连接到神经网络上以后,它们就会一直在那里,等着你拿搜索来呼唤它 们。你输入“cat”,就会显示猫;输入“Halloween”,就会显示南瓜、戏服,或者也可能 会显示出碰巧在 10 月 31 号那天拍的照片。当人想到这种实现方式的时候,其实是完成了从机器视角向人的视角的飞跃。虽然神 经网络可以通过查看 1

9、0 张猫的照片总结出其中的规律,但它自己并不会从“cat”这个 词联想到猫这种动物。也就是说,把“cat”这个三字词和某一系列像素联系在一起,其 实是它在经过训练以后掌握的技能。而这也正是 Google 搜索在最一开始的时候做的事情。在过去 14 年里,Google 一直在 通过搜罗网上有文字在附近的图片,把图片和文字联系在一起。如果“cat”这个词非常 频繁地和一张图片联系在一起,那么这张图里极有可能就是一只猫。利用这个奇大无比的、有短语和照片相对应的数据库,Google 训练相簿应用的神经网 络把“cat”这个词和符合猫的强指标联系在了一起。这个神经网络因此了解到,这个被 称为“cats”

10、的东西有尖尖的耳朵,它的脸上还有明显的线条和斑点。如果有用户打 了“cat”这个词,那么应用就能知道该显示哪些图片。这种训练是一个持续不断的过程。相簿应用的基础版是免费使用的,因此任何下载了 这个应用的人,都成为了帮助改善应用功能的虚拟(无偿)团队成员。用户被邀请在 应用里手动标记错误的搜索结果,但即使是被动地决定不去点搜索结果中的某一个图 片,都可以告诉应用“这些结果很可能不是很准确”。“它并不完美,5 年前的语音识别也没那么完美,”Google 负责 Streams、相簿和分享业 务的副总裁 Bradley Horowitz 说。“解决这最后百分之几的不准确率的关键,在于真正 让这个应用铺

11、到足够广,从而得到让系统不断变得越来越好的数据。”相簿应用的起点很高。它可以分辨出金毛和金色拉布拉多之间的差别,在更加抽象的 名词面前,它的表现往往非常好:搜索 “food”(食物),它会显示出从奶酪汉堡包到 鸡尾酒的所有图片。它还能提取出和节日相关的图片。但它的缺点也会让它犯错。我尝试着搜索了一张乐高雕塑的照片,我是在最近一次虚 拟现实的大会上看到的这个雕塑。“Legos”和“virtual reality”都搜不出来结果,但更为 抽象的“toy”(玩具)搜出来了。神经网络在识别一些事物方面比识别另外一些事物的 表现更好。如果一个物体没有太多纹理或者浓重的线条,神经网络就会很容易被难 住。除

12、了黄色以外,实际上并没有太多东西能显示出乐高小人是用塑料块做成的。“人(识别物体)是从它的形状、轮廓以及光线在表面形成的阴影曲线来的,”Duerig 说,“计算机不擅长做这个。”目前还不擅长。假以时日,Google 会基于越来越多的用户的行为来训练相簿的神经网络,扩大人们可 以搜索的词语的数量和种类。它会持续调整神经网络的结构,让它在不使用更多运算 能力的前提下变得更加智能。未来的相簿应用还会有更多的功能,不过它们会在什么时候(甚至会不会)向用户推 出,目前还不清楚。今年 Google 发表的一篇论文说的就是如何应用人工智能来自动 为图片生成一段说明文字。它现在可以输出简单的“主谓宾”式句子了

13、,这已经非常棒 了,但 Duerig 说,Google 的团队还在对这项技术进行完善。上周,我们在查找照片方面前进了一步。下一步就是把它们用起来,这种应用可能是 给要分享给 Facebook 的图片自动加上说明文字,也可能是让 Gmail 知道当我们输 入“childhood ducklings”(童年橡皮鸭)的时候,该自动把哪些照片自动加到附件里 去。可能这项技术还会从照片处理延伸到 Google 知识图谱(Google Knowledge Graph)中 去,它现在已经能基于我们的搜索、应用和电邮提供一部分智能功能了。Google Now 可以通过分析从 Travelocity 和 H 发

14、来的邮件内容,在正确的时间提示我们的 旅行预订信息。那么如果它能从 Google 相簿应用里的照片里知道我们有哪个型号的 汽车,并指引我们到正确的修车店或者应用里去,那会是怎样的一种情形?“我现在已经习惯用 Google Now 服务来管理我的旅行日程了,因为它总是会在我想知道旅行信息之前,就告诉了我想知道的事情,”Horowitz 说,“同样地,如果我认为我 们可以基于这一数据向用户反馈很有价值的信息的话,我们肯定也会考虑去做到 它。”翻译 is译社 葛仲君喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。好奇心日报好奇心日报 , 每个时代都有最好的媒体。每个时代都有最好的媒体。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号