分类目录归档:资讯

酷技术:freeD三维场景回放

昨天说了3D全景,今天再搜了下,发现了freeD这个东东。

说起来不新鲜,中文网络上这条信息也已经是一年前的了。这就是一个3D重建的典型应用,在体育场上利用多台(比如官网给出的16-28)高清相机在多个位置多个角度采集同一场景的图像,重建出3D模型。从Demo看重建质量真的不错,但不知实际运行效果如何。

视频1.  freeD三维场景回放技术

3D重建这段时间也是山雨欲来的感觉,之前放出了超炫城市3维重建Demo(视频2)的acute3D公司目前已经把爪伸到中国了,他们通过航拍视频重建出了长城的3D模型

视频2.  acute3D的巴黎三维场景重建Demo

这家公司致力于大规模的三维重建,这是个激动人心的事儿。比如目前百度地图已经有360°*90°的高清全景街景,仅用这些数据就可以重建出相当一部分城市三维面貌来,若再有航拍数据,一个真正的数字化虚拟城市也是可以期待的。如果能用微型无人机航拍采数据,可以实现廉价的大规模重建,基于此能玩出多少花样来,只是个想象力的问题。

对于想亲手玩一下的朋友,不妨试一下VisualSFM或者123D Catch,前者更学术化一些,由PBA的作者Changchang Wu开发(PBA是目前最好的开源Bundle Adjustment实现),后者是个产品。

酷技术:SamSung Project Beyond,实时3D全景

最近几个月各种实时全景拼接技术雨后春笋般冒了出来,看来一项技术到了瓜熟蒂落的时候,是挡也挡不住。今早无聊搜了下实时全景,还是把不关注技术新闻又懒于做技术推广的老夫吓了一跳。

目前市面上大多数产品跟我们类似,无非是给拼接算法一个高性能实现,或者基于FPGA,或者基于CUDA。真正让人眼睛一亮的是三星最近推出的Project Beyond,这款产品配合一个三星的虚拟现实眼镜Gear VR,可以实现真正的身临其境感——对于我们关注技术的人来说,3D,这个词儿是唯一的重点。

beyond_01

图1.  三星Project Beyond

我们知道人类之所以能感知纵深,是因为双眼上像点与场景点构成一个三角,数学上我们可以用三角测量来计算纵深,因此我们双眼感知到的信息里是包含纵深的。3D眼镜正是利用该原理,给双眼不同的图像,利用这个差异产生纵深感。

从目前的报道里,我们可以看出Project Beyond是一个赋予双目纵深感的全景装置,这一点是它超出以往技术的关键。

QQ图片20141219103205

图2.  Project Beyond的构造

如图1,Project Beyond有17个广角相机,其中1个指向天空。它采取了与普通全景相机共中心摆位不一样的摆位方式,这自然是因为要产生3D效果的要求——普通的共中心摆位无法感知到纵深信息,这可以参考我们的《全景拼接算法原理》系列文章。

 

我们也一直有把自己的实时全景技术做成微型硬件设备的想法,可惜各方面因素制约(尤其销售是我们的弱项)尚未实施。现在看起来有些可惜。

我们认为计算机视觉在接下来几年会有狂飙突进的发展——各方面条件都已成熟了,无论是理论还是硬件计算能力。而新型的人机交互手段可能是这其中最重要的一个领域,在PC迅猛发展的这二三十年里,鼠标键盘始终巍然不动,现在是时候改变了。Project Beyond这样的产品只是个开始,各种新的体验正扑面而来。

可触摸的全息影像—-让你在VR中有身临其境的体验

对我们人类来说,感受是可信赖的。虚拟现实总是飘渺无法捕捉的,然而据New Scientist消息,英国 Bristol 大学的Ben Long和他的同事们利用声波投影实现了“可触摸的全息影像”,将虚拟现实带入到我们的物理世界。

给以触觉、视觉和声音这些真实感受会使人们更易沉浸到虚拟现实中,会给人们带来全新体验。例如,拥有了感受虚拟物体形状的能力,医生便可以用手直接去检查CT扫描出来的肿块肿瘤;更甚者,我们去参观博物馆时,也可以好好把玩感受那些珍藏在玻璃柜中价值不菲的收藏。

Ben Long等人改进了他们之前的超声波2D投影技术。当声波触碰到手时,声波的振动会在皮肤上产生压迫感,因而他们利用一组微型扬声器发射高频声波以产生触摸虚拟物体的感觉。

另外,他们增加一个Leap Motion传感器来追踪手的精确位置。知道了手相对于虚拟物体的位置,系统便可以指导超声波在正确的时间以正确的频率来产生触摸物体不同部分的感觉。

目前,研究者们已经在圆及金字塔等几个形状上做了测试。Long认为,虽然感受虚拟物体的细节受到限制,但不影响人们的整体感受,因为人的大脑会歪曲部分它们的感官以适应整个场景。目前他们已经接洽了几家希望把这项技术发展成商业应用的公司,相信不久的将来人人都可触碰虚无。

才发现OpenVX 1.0发布了

我们的反射弧比较长,今天才刚刚发现此消息。

在预览版在Khronos网站上挂了n个月之后,OpenVX 1.0终于在今年十月份Release了。对于CV界来说,这是一个里程碑式的事件。

摘录一段官方的说明。

”这是个开放、免版税的,用于跨平台计算机视觉应用加速的标准。OpenVX实现了计算机视觉处理中性能和能耗方面的优化,特别是嵌入式和实时应用案例中起到重要作用,例如面部、身体和动作跟踪,智能视频监控,高级驾驶协助系统(ADAS),物体和场景重建,增强现实,视觉检测,机器人学等等。除了OpenVX规范,Khronos还开发了一整套一致性测试和采用者计划,让标准执行者可以测试他们的执行,如果通过一致性测试即可使用OpenVX标识。
Khronos计划在2014年底之前完成第一个开源、完全通过一致性测试的、以CPU为基础的OpenVX 1.0执行。关于完整OpenVX 1.0规范以及关于OpenVX采用者计划的具体信息,请浏览www.khronos.org/openvx。
OpenVX定义了比例如OpenCL™那些计算框架更高水平的执行抽象和内存模型,为在更多架构上的执行创新和高效执行带来重大意义,同时确保这是和以往一致的视觉加速API,完全实现应用可移植性。OpenVX开发者表示一个视觉节点的连接图像,作为执行者,可以执行和通过各种技术进行优化,包括:CPU、GPU、DSP或某些硬件上的加速,节点合并,平铺执行,将已经处理的图像保留在本地内存。
构架方面的灵活性将让OpenVX应用可以在各种系统上优化不同水平的能耗和性能,包括很强的电池敏感度、视觉实现、可穿戴呈现“
 

资料链接:

OpenVX 1.0 Specification

OpenVX主页

一张图胜千言万语:创建图像的自然描述

译自:A picture is worth a thousand (coherent) words: building a natural description of images  –FROM:Google Research Blog

“两块披萨在炉灶烤箱顶上。”

“一群人在一个露天市场购物。”

“室内最好的座位”

人类可以轻松的从一整个复杂场景中提取重点并简单描述之。而这对计算机来说十分困难。但我们推进了一步:我们发展了一套机器学习系统,当它初次看到图像场景时便可以自动产生标题来精确描述这些图像。这种系统最终可以帮助视障人士理解图像内容、在网速较慢的环境可以用文本替代图像、也更容易使人们在Google上搜寻图片。

目前的研究多集中在物体识别、分类、标注等,并取得较大进展。但精确描述一个复杂场景需要更深入的知道在场景中发生着什么事儿,捕捉各种事物之间的联系并把它转化成自然用语。

自动产生的标题: “Two pizzas sitting on top of a stove top oven”

创建计算机生成图像自然描述的很多努力是合并最先进的计算机视觉和自然语言处理技术以形成一套完整的图像描述方法。但是如果我们不考虑把最新的计算机视觉技术和语言模型合并为联合训练系统,而是拿一张图片直接生成人类可读的文字序列描述呢?

这个想法源自语言之间机器翻译的最新进展,比如说,用一个递归神经网络转换(RNN),把一个法语句子转换成一个向量表示,第二个递归神经网络利用这个向量表示来生成一个德语句子。

现在,如果我们把上述第一个递归神经网络(RNN)和输入的文字替换为训练过的深度卷积神经网络(CNN),以此来分类图像中的事物会怎样呢?通常,卷积神经网络的最后一层被用在各对象类的最终Softmax函数中,给出每个对象在图像中的概率。但是如果我们移除最后一层,我们可以将卷积神经网络(CNN)丰富的编码代替图像喂给设计好的递归神经网络(RNN)以产生短语。我们可以直接在所有图像及它们的标题上训练整个系统,所以它最大化了这种可能性:对每一张图片系统产生的描述能够最优的匹配训练描述。

模型把视觉CNN和产生语言的RNN相结合,所以输入一张图片便能产生合适的自然语言标题描述之。

我们的系统已经在几个公开的数据集上进行了实验,包括Pascal、Flickr8k、Flickr30k、SBU等,实验表明图像描述的结果具有鲁棒性:产生的句子非常合理。它在机器翻译的评估标准BLEU中也表现良好。

Google图像描述系统生成的图说,经由人工为图说品质评分,分成描述无误、轻微错误、还算与图片有相关、与图片无关四种表现。

一张图片可能胜过千言,但有时就是这些文字才最有意义。所以我们找到把图像自动准确地转换成文字的方法非常重要。随着适合学习图像描述的数据集的丰富和成熟,所有图像对应描述会更精确。我们期待着系统继续发展,可以读取图像并生成良好的自然语言描述。若想得到更多从图像生成描述的框架的细节信息,以及模型评估,可读论文

Researchers Announce Advance in Image-Recognition Software

译自: “Researchers Announce Advance in Image-Recognition Software” from The New York Times

两组科学家,各自独立工作,都研发出了能够识别、描述图像和视频内容的人工智能软件,它的精确度比以往任何时候都高,有时甚至可以模仿人类的理解水平。

直到现在,所谓的计算机视觉在很大程度上仍被局限于识别单个物体对象。谷歌和美国斯坦福大学在周一宣布的新软件,能教自己来识别理解整个场景内容:例如一群在玩飞盘的年轻人,一群在草原上穿行的大象。

软件用英语写出标题描述图片。研究者发现,相比于人类的观察描述,计算机给出的描述惊人的精确。

由人和谷歌实验程序给出的图片标题:

Human: “A group of men playing Frisbee in the park.”
Computer model: 
“A group of young people playing a game of Frisbee.”

Human: “A young hockey player playing in the ice rink.”
Computer model:
 “Twohockey players are fighting over the puck.”

Human: “A green monsterkite soaring in a sunny sky.”
Computer model:
 “A man flying through the air while riding asnowboard.”

 

Human: “A person riding a dirt bike is covered in mud.”
Computer model:
 “Aperson riding a motorcycle on a dirt road.”

Human: “Three different typesof pizza on top of a stove.”
Computer model: 
“A pizza sitting on top of a pan on top of a stove.”

Human: “Elephantsof mixed ages standing in a muddy landscape.”
Model:
 “A herd of elephants walking across a dry grass field.”

这一进步使更好的去归档和搜索互联网上那些很难描述或存档的数以亿计的图片和数小时的视频成为可能。现在,像谷歌一样的搜索引擎很大程度上依赖于书面语言配合一张图片或一段视频来确定它所包含的内容。

“我认为图像和视频中的像素数据是互联网的暗物质,我们现在开始去照亮它。”斯坦福人工智能实验室的领头人李飞飞说,她带领着研究生Andrej Karpathy做此项目。

Dr. Li and Mr. Karpathy以a Stanford University technical report的形式发表了他们的研究。谷歌团队也在由 Cornell University主办的开源网站arXiv.org发表了他们的论文。

长远看来,这项新研究也许能产生帮助盲人和机器人导航自然环境的技术。但它也会引起监控泛滥的恐慌。

过去的15年,视频摄像机在各种公共和私人场所无孔不入。在将来,软件操作相机不仅能够通过人脸识别来识别特定的人,而且可以识别某些类型的行为,甚至能够自动报警。

两年前谷歌研究专家创建了一个图像识别软件并利用来自YouTube视频的千万图像来展示它。在无人指引下,软件训练自己来识别猫,展示了YouTube上猫的视频的数量。

现在汽车行业的人工智能项目已经能够通过放置在挡风玻璃上方的相机识别行人和骑自行的人,而且如果驾驶员没有采取措施避免碰撞,它可以自动把车停下来。

但是,华盛顿大学计算机科学家Ali Farhadi,这位致力于软件生成数字图像语句描述这一课题的学者说:“仅仅识别单个物体对象并不太实用,我们专注于对象,但却忽略了动作。”他补充道,这些项目不清楚图像中进行着什么事情。

谷歌和斯坦福团队以人们熟知的神经网络来打造软件项目解决了这个问题,灵感来自于对人类大脑如何工作的理解。神经网络可以训练它们自己去发现数据中的相似性和模式,甚至连它们的人类创造者都不知道模式是否存在。

在活的有机体中,大脑的神经元在概念和模式识别上远远优于基于计算机的网络。但是采用一些相同的架构,计算机正在追赶,以递增的精度学习识别语言和图像。这些进步对消费者是显而易见的。例,人们使用苹果的Siri私人助理或谷歌的图片搜索。

两组研究人员采用相似的方法,把两种神经网络模式组合在一起:一种专注于识别图像,另一种专注于人类语言。在这两种情况下,研究人员利用那些已被人类标注的相对较小的数字图像序列来训练软件。

在软件程序学习了如何从图像或描述中识别出模式之后,研究人员把它们转向之前没看过的图像。程序能够以以往两倍的精度来识别物体和动作,但仍远不及人类的认知水平。

Oriol Vinyals,谷歌的一个计算机专家,曾与Alexander Toshev, Samy Bengio and Dumitru Erhan等Google Brain项目的成员合写过论文。他说:“我惊讶于即便用非常少的训练数据我们也可以做到如此之好。这个领域才刚刚开始,我们会看到更大的进展。”

计算机视觉的专家表示尽管有所改进,但是这些软件系统只在数字化的模仿人类视觉和更难以捉摸的理解图像这些目标上取得了有限进步。

“我不认为这是我们想要的某种意义上的‘理解’,我认为就连这里生成语言的能力都是非常有限的。”I.B.M.’s T.J. Watson Research Center的高级经理John R. Smith说。

但是谷歌和斯坦福团队表示,随着他们改进自己的软件并用更多的注解图片序列来训练程序,他们希望看到更显著的进展。一个由北卡来罗纳大学教堂山分校的计算机科学家Tamara L. Berg领队的团队正以人力注解的一百万张图像训练神经网络。

她说:“我们努力去讲解图像背后的故事。一个自然场景时非常复杂的,你会希望攫取图像中最重要的对象。”

相关: