Researchers Announce Advance in Image-Recognition Software

译自: “Researchers Announce Advance in Image-Recognition Software” from The New York Times

两组科学家,各自独立工作,都研发出了能够识别、描述图像和视频内容的人工智能软件,它的精确度比以往任何时候都高,有时甚至可以模仿人类的理解水平。

直到现在,所谓的计算机视觉在很大程度上仍被局限于识别单个物体对象。谷歌和美国斯坦福大学在周一宣布的新软件,能教自己来识别理解整个场景内容:例如一群在玩飞盘的年轻人,一群在草原上穿行的大象。

软件用英语写出标题描述图片。研究者发现,相比于人类的观察描述,计算机给出的描述惊人的精确。

由人和谷歌实验程序给出的图片标题:

Human: “A group of men playing Frisbee in the park.”
Computer model: 
“A group of young people playing a game of Frisbee.”

Human: “A young hockey player playing in the ice rink.”
Computer model:
 “Twohockey players are fighting over the puck.”

Human: “A green monsterkite soaring in a sunny sky.”
Computer model:
 “A man flying through the air while riding asnowboard.”

 

Human: “A person riding a dirt bike is covered in mud.”
Computer model:
 “Aperson riding a motorcycle on a dirt road.”

Human: “Three different typesof pizza on top of a stove.”
Computer model: 
“A pizza sitting on top of a pan on top of a stove.”

Human: “Elephantsof mixed ages standing in a muddy landscape.”
Model:
 “A herd of elephants walking across a dry grass field.”

这一进步使更好的去归档和搜索互联网上那些很难描述或存档的数以亿计的图片和数小时的视频成为可能。现在,像谷歌一样的搜索引擎很大程度上依赖于书面语言配合一张图片或一段视频来确定它所包含的内容。

“我认为图像和视频中的像素数据是互联网的暗物质,我们现在开始去照亮它。”斯坦福人工智能实验室的领头人李飞飞说,她带领着研究生Andrej Karpathy做此项目。

Dr. Li and Mr. Karpathy以a Stanford University technical report的形式发表了他们的研究。谷歌团队也在由 Cornell University主办的开源网站arXiv.org发表了他们的论文。

长远看来,这项新研究也许能产生帮助盲人和机器人导航自然环境的技术。但它也会引起监控泛滥的恐慌。

过去的15年,视频摄像机在各种公共和私人场所无孔不入。在将来,软件操作相机不仅能够通过人脸识别来识别特定的人,而且可以识别某些类型的行为,甚至能够自动报警。

两年前谷歌研究专家创建了一个图像识别软件并利用来自YouTube视频的千万图像来展示它。在无人指引下,软件训练自己来识别猫,展示了YouTube上猫的视频的数量。

现在汽车行业的人工智能项目已经能够通过放置在挡风玻璃上方的相机识别行人和骑自行的人,而且如果驾驶员没有采取措施避免碰撞,它可以自动把车停下来。

但是,华盛顿大学计算机科学家Ali Farhadi,这位致力于软件生成数字图像语句描述这一课题的学者说:“仅仅识别单个物体对象并不太实用,我们专注于对象,但却忽略了动作。”他补充道,这些项目不清楚图像中进行着什么事情。

谷歌和斯坦福团队以人们熟知的神经网络来打造软件项目解决了这个问题,灵感来自于对人类大脑如何工作的理解。神经网络可以训练它们自己去发现数据中的相似性和模式,甚至连它们的人类创造者都不知道模式是否存在。

在活的有机体中,大脑的神经元在概念和模式识别上远远优于基于计算机的网络。但是采用一些相同的架构,计算机正在追赶,以递增的精度学习识别语言和图像。这些进步对消费者是显而易见的。例,人们使用苹果的Siri私人助理或谷歌的图片搜索。

两组研究人员采用相似的方法,把两种神经网络模式组合在一起:一种专注于识别图像,另一种专注于人类语言。在这两种情况下,研究人员利用那些已被人类标注的相对较小的数字图像序列来训练软件。

在软件程序学习了如何从图像或描述中识别出模式之后,研究人员把它们转向之前没看过的图像。程序能够以以往两倍的精度来识别物体和动作,但仍远不及人类的认知水平。

Oriol Vinyals,谷歌的一个计算机专家,曾与Alexander Toshev, Samy Bengio and Dumitru Erhan等Google Brain项目的成员合写过论文。他说:“我惊讶于即便用非常少的训练数据我们也可以做到如此之好。这个领域才刚刚开始,我们会看到更大的进展。”

计算机视觉的专家表示尽管有所改进,但是这些软件系统只在数字化的模仿人类视觉和更难以捉摸的理解图像这些目标上取得了有限进步。

“我不认为这是我们想要的某种意义上的‘理解’,我认为就连这里生成语言的能力都是非常有限的。”I.B.M.’s T.J. Watson Research Center的高级经理John R. Smith说。

但是谷歌和斯坦福团队表示,随着他们改进自己的软件并用更多的注解图片序列来训练程序,他们希望看到更显著的进展。一个由北卡来罗纳大学教堂山分校的计算机科学家Tamara L. Berg领队的团队正以人力注解的一百万张图像训练神经网络。

她说:“我们努力去讲解图像背后的故事。一个自然场景时非常复杂的,你会希望攫取图像中最重要的对象。”

相关:

 

发表评论