Category Archives: 资讯

Google Jump

虚拟现实拼完设备要拼内容了,GoPro也是够忙的,先是宣布了研发中的六目全景设备,现又参与到Google的新Jump项目。Jump项目意在方便人们制作360度全景视频,上传至YouTube,而后用 虚拟现实设备观看体验。S$4Z7WF)3O(EEWXE(`B2PBG

Jump camera:对于视频的获取,Google和GoPro联手打造了Jump camera装置,16个相机围成的圆形阵列。装置大小与相机的排布针对Jump assembler做了优化。GoPro的 Jump-ready 360 camera array 使得16如1,即16路相机可共享设置达到帧同步效果。

Jump assembler:Jump camera装置的计算核心,将来自16路相机的视频通过三维重建技术生成立体VR视频。

Jump结合YouTube,不久,沉浸式体验的全景视频将随手可得,虚拟现实设备才更有用武之地。

虚拟现实消息两则

第一条消息来自GoPro. 多数为虚拟现实、增强现实制作全景内容的公司,都是采用GoPro相机,加上全景图像/视频拼接算法制作而成。而GoPro在这方面一直没大动静,今年四月份,其宣布收购Kolor,一家拥有全景图像/视频拼接技术的虚拟现实公司。就在今天又宣布了他们已着手研发六目全景设备,类似360Hero家的产品。此设备将支持Oculus, HoloLens, Google Cardboard 和 YouTube 360度视频。其进军虚拟现实、增强现实的号角算是吹响了。

img_3465spherical

 

第二条消息对我们来说更具震撼力:Oculus收购Surreal Vision,你或许没有听说过这个名字,但它炫目的团队名单绝对让你过目难忘。Richard A. Newcombe, Andrew J. Davison这些名字简直要亮瞎我眼,Newcombe是我很欣赏的一位研究者,除了KinectFusion之外,他还是DTAM的作者,SLAM和实时三维重建这一块儿的中流砥柱。

这个团队的被收购,意味着在全景拼接之后,三维重建也不清净了。

还让不让人愉快的玩耍了。

玩玩三维重建

版权声明:本文系本站作者自己翻译整理,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。

我们在实时三维重建方面的工作今年已经密集展开。或许不久后某一天,你会在本站看到带有SLAM(即时定位与地图构建)功能的四轴飞行器,或者让你在书桌上打一场现代战争的增强现实应用。在敲锣打鼓欢天喜地亮出我们自己的三维重建实现前,先拿别人的东西给大家打打牙祭。

中科大刘利刚教授的3D建模软件与处理软件简介介绍了N多实用的3D相关软件。而基于照片的快速建模软件并不多,之前玩过123D Catch,很赞。围着你要建模的物体拍摄一圈,用123D Catch加载拍摄的图像,经过其强大的处理能力,生成具有纹理的3D模型。下图是我重建的我的蒙奇奇。你要做的只是拍照、上传、等待而已,相当简单。

蒙奇奇

但是123D Catch也存在一些局限,完全的黑盒子,对重建过程没有任何操控力。

要想了解从照片如何一步步重建出三维模型,并能操控某些过程,可用的免费开源软件也不少,较常用的是VisualSFM和Meshlab:

第一步:VisualSFM

VisualSFM软件允许我们上传一系列图像,它从这些图像中找到每一个图像的特定特征,利用这些特征信息重建出3D模型的稀疏点云,而后还可进行稠密点云重建。

输入:围着要重建对象拍摄的一系列照片;

输出:一个 .out文件,存储着每个相机的位置及重建出的稀疏点云;

一个.ply文件,存储着由稀疏点云重建出的稠密点云。

第二步:Meshlab

可用Meshlab对3D网格/点云做各种操作。输入VisualSFM的生成文件,Meshlab通过一系列操作可创建出包含纹理的、干净的、高分辨率的网格,并自动计算UV映射及创建纹理图像。

输入:VisualSFM的生成文件,.out文件和list.txt文件(存储照片序列); 以及.ply文件;

输出:一个.obj文件,3D模型的网格;

一个.png文件,任意大小的纹理图;

完整的流程见下图:

liucheng

 

第一步:运行VisualSFM

1

1. 输入一系列图片

拍照注意事项:切忌不要站在原地,仅转动身体去拍:相机共中心能拼接全景,但是给不出三维重建的深度信息。要以待重建的对象为中心,围着它每转10-20度拍一张,这样转一圈,有不同高度信息更好。VisualSFM没有照片数量限制,照片越多,重建出的细节越丰富,但重建过程花费时间越长。QQ图片20150314232349  

2.  特征检测及匹配

因照片可能存在旋转、缩放或亮度变化,此过程利用SIFT算法提取、描述特征,用 RANSAC算法过滤掉误匹配。此过程亦可利用GPU加速。工作状态实时显示在侧边的log窗口。

QQ图片20150314232955QQ图片20150314233141

3. 利用SFM进行稀疏3D重建

利用 SFM 方法,通过迭代求解出相机参数和三维点坐标。即重建出3D模型的稀疏点云。若有“bad”相机(位置错误或朝向错误),结合工具栏上的“3+”按钮和手型按钮即可删除之,使结果更准确。

QQ图片20150314233508

4. 利用  CMVS/PMVS 进行稠密3D重建

CMVS/PMVS需自己下载,编译,也可直接下载exe文件。而后把pmvs2.exe/cmvs.exe/genOption.exe文件放到VisualSFM.exe的同目录下。

通过 CMVS 对照片进行聚类,以减少稠密重建数据量,而后利用PMVS从3D模型的稀疏点云开始,在局部光度一致性和全局可见性约束下,经过匹配、扩散、过滤 生成带真实颜色的稠密点云。(下图为用Meshlab查看效果图)

6

 

至此,VisualSFM的工作告一段落,结果都已存盘。若因图片匹配失败或图片较少导致某区域重建失败或重建出的某区域细节不足,可以返回添加一些这个区域的照片,重新来过(本人较懒,未作补充,谅解)。但因特征检测和匹配的结果已存盘( 每张图像对应的.sift 和 .mat文件),所以已经匹配好的图像不必再次匹配,会更快完成。

第二步:运行Meshlab

11

1. 打开bundle.rd.out 文件

a. 按钮1,打开由 VisualSFM生成的存储在xx.nvm.cmvs文件夹下的 bundle.rd.out 文件。随后会询问是否选择照片列表文件,选择同文件夹下的 “list.txt”即可。这一步会把相机及对应的照片导入进来,对后续的纹理处理至关重要。

3

b. 按钮2,打开显示层目录,检测相机载入是否正确, Render –> Show Camera,因可视化相机的尺寸比网格尺寸大得多,所以需调整相机的缩放因子,scale factor可以从0.001开始调小,直到相机位置清晰可见。

45

 2. 稠密点云代替稀疏点云

a.  按钮3,隐藏可视的稀疏点云;

b. File –> Import Mesh加载稠密点云(xx/00/models/option-0000.ply);VisualSFM生成多个.ply文件时,需合并成一个mesh。在载入的任何一个.ply上右键选“Flatter Visible Layers”。

6

3. 清除杂点

按钮4选中杂点区,按钮5删除之。大致清了桌前的一些杂点。

QQ图片20150314234454

4. 网格化

Filter –> Point Set–> Surface Reconstruction: Poisson.

利用Poisson Surface Reconstruction算法由稠密点云生成多边形网格表面。

参数可调, Octree Depth:控制着网格的细节,此值越大细节越丰富但占内存越大运行起来慢,一般设10,可慢慢调大。

7

Poisson表面重建算法会生成一个“不漏水”气泡,把所有场景对象包裹在其中。即模型是封闭的。可以移除多余的面Filters –> Selection –> Select faces with edges longer than,而后删除。

QQ图片20150314223022 QQ图片20150314223134

保存(整个project和mesh)。

5. 修复流形边缘

后续的纹理处理要求网格化的模型必须是流形(MANIFOLD)的,因此需删除非流形边(简单讲就是任何由多面共享的边)。Filters –> Selection –> Select Non-Manifold edges,而后删除之。

QQ图片20150314234928

6. 参数化(Parameterization)

Filter –> Texture –> Parameterization from registered rasters。

根据相机投影关系创建UV映射。

QQ图片20150314235004

保存 (整个project和mesh)。

7.  投影纹理

Filter –> Texture –> Project active rasters color to current mesh, filling the texture。

可设置任意分辨率(512的2的二次方倍:512 / 1024 / 2048 / 4096 / 8192…)的纹理图。

QQ图片20150314235126

6和7可以合为一步: Filter –> Texturing –> Parameterization + texturing from registered rasters.

 QQ图片20150314235200

8. 完成、导出

当你调整满意了之后,File –> Save mesh as… a .obj文件。即可便有了一个包含你选定分辨率纹理的obj文件。

QQ图片20150314225720 QQ图片20150314225733

收官啦。而后关乎应用,就是拼想象的时候了!

更多细节参见:We Did Stuff 

TransProse:将经典名著转换成音乐

版权声明:本文系本站作者自己翻译整理,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。

这两天《平凡的世界》电视剧上演,N多人甚至习大大都点赞,又一股重温经典小说风。《平凡的世界》好像是我高中课堂窝在桌洞里看完的。名著曾是苦逼学生时代的调味剂。老哥被奴役的时候还编程分析过不同世界名著的语言风格。今天看到一好玩的事儿,TransProse项目把不同的世界名著转换成对应情感的音乐,听了一下,真心不错。

TransProse 读取小说文本,通过文本分析确定八种不同的情绪(快乐,悲伤,愤怒,厌恶,期待,惊喜,信任和恐惧)和两种不同的状态(正或负)在整个小说中出现的密度。音乐同步小说,按时间顺序分为beginning, early middle, late middle, and end 四部分,每一部分都有对应的音乐表示:利用情感密度数据根据不同的规则和参数来确定音乐的速度,调,音符,八度等。详见其paper

360Heros—-全景视频制作

版权声明:本文系本站作者自己翻译整理,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。

最近发现从众筹网上火起来的新科技创业公司还真不少,炒的最火虚拟现实公司Oculus,无人机公司Ehang,全景视频制作公司360Heros基本都是从众筹起步,360Heros核心技术跟我们的多路视频实时全景拼接算法基本一样,特别关注了解下。

20141230114416_8803

拍全景照片/视频是一种不同寻常的体验,但此技术受成本、时间限制,做一套拍摄全景的的设备并非易事。360Heros想法挺巧,制作一套标准模具,用户只需把多台GoPro摄像机对准卡槽固定,即可完成一部360度全景摄像机。

通常一套摄像机能拍170度的角度,360heros支架可支撑6台GoPro摄像机,把每一个角度的视觉补充完整形成彻底无死角的360度视野。通过wifi远程控制各个相机的拍摄。支架设计的比较细,有多个三脚架、装载点,还设计有用于无人机空中拍摄的鱼线穿孔。路拍、航拍、水下拍摄都可支持。

今年Intel在CES上展出的360度全景拍摄方案,就是无人机搭载360Heros进行360度遥控拍摄,并将拍摄的画面通过Thunderbolt接口实时传送到外接的存储设备中,最多能支持18个摄像头实时传送高清画面。

这两年虚拟现实火爆,360Heros揪住时机,14年年底发布了新摄像系统,专门为虚拟现实视频设计,可拍摄360 *180度mp4格式的视频,而后使用VR头盔来观看。 通过三星Gear VR及Google Cardboard都可以体验 360Heros拍摄的视频内容。

他们还参加了今年的圣丹斯电影节,探讨虚拟现实的内容,电影制作人及与会者都迫切想用手持360度视频拍摄设备获得身临其境的内容。并让人们通过 Samsung Gear VR, Oculus Rift and Google Cardboard VR 体验他们用360heros制作的电影。

一体验了360Heros拍摄的VR视频的用户称“人们通过VR头盔便可在房间里玩滑翔或观赏迪拜的喷泉——这太不可思议。VR爱好者一直在期待这一刻的到来”。

另外,利用360Heros可轻松创造Google街景全景图像。著名摄影师Chris du Plessis使用360Heros拍摄了很多惊人的Google街景全景

Chis-360H6-1160x773

另外,360Heros还发布了一个应用:360 Video Library App,包罗数百个互动360视频,适用于 iOS 和 Android平台。该应用的内容通过 360Heros Video Hosting Center托管,制作者可以上传、分享、出售全景视频。

王婆卖个瓜,我们有成熟的全景视频实时拼接技术,即360Heros全景拼接的核心技术。想了解全景图片/视频如何制作请移步图像拼接原理1图像拼接原理2,对我们的技术感兴趣请移步多路视频实时全景拼接算法

无人机发展新趋势:自主导航

版权声明:本文系本站作者自己翻译整理,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。

在技术领域,通常大佬一给力,相关应用就受益,发展迅猛,甚至能改变行业格局,无人机就是受益者之一。

Intel给力,推出其RealSense技术及RealSense 3D摄像头,德国Ascending科技公司看准时机,搭载RealSense 3D摄像头研发出了一套无人机自动驾驶系统。基于此系统的产品Firefly已在CES上展示,被称作无人机乒乓球。它不需要有人专门抱着遥控器去遥控,而是自己看路自己飞,遇到障碍自动避开。

NVIDIA给力,去年推出全球首款嵌入式超级计算机 Jetson TK1 开发组件,搭载拥有192个GPU核心的Tegra K1芯片,又在今年的CES上推出Tegra X1 芯片:1TFLOPS,P < 15W, ARM Cortex A57 * 4 + ARM Cortex A53 * 4 + Maxwell 256 CUDA Cores。话说Tegra X1的运算效能将比Tegra K1提升3倍。真忍不住给老黄点个赞,把我们的多路视频实时全景拼接移植到嵌入式平台就要靠Jetson TK1 开发组件。目前,法国Parrot公司已经利用Jetson TK1平台打造出了新一代的小型无人机,借助Tegra K1强大的视觉计算能力,不仅可以自动避障,还能实时重建周边环境3D模型,帅爆了。看到这个消息,老哥又扼腕一次。幸好现在各方面条件差不多成熟了,我们的3D重建也要纳入进程了。哈。。

Parrotdemovertical-307x500

计算机视觉现在发展的给力,借助此技术的新公司叫板Skydio,由三个来自MIT的人创立(其中两人曾加入过Google X的Project Wing),他们表示用两个最普通的摄像头,就能实现无人机的自主导航及自动避障,而不依赖于激光,声呐或3D相机。他们的目标是用50刀实现5000刀的梦想。他们把两个普通的微型摄像头采集的视频流注入到一个小的Intel媒体中心。利用计算机视觉算法检测障碍物并及时自动避障。他们通过Wi-Fi使手机与无人通讯,用手机代替遥控器,手机对准无人机,开启启动,手臂挥到哪儿无人机就跟到哪儿,比其他的”follow me” ”无人机接口更简单。另外也可在手机上预设好飞行路线,让其自主飞行。

目前的无人机多采用GPS导航,同时需要很多训练过的经验丰富的无人机操作人员花费大量精力来操作,无人机自主导航将会是无人机发展的一大趋势。

Intel RealSense(实感技术)概览

版权声明:本文系本站作者自己翻译整理,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。

前段时间CES的报道满天飞,网上逛了几圈,感觉料最猛的还数Intel:老树开新花,推出14nm的第五代酷睿处理器;在智能可穿戴设备及物联网上雄起;RealSense实感技术开启未来人机交互模式。之前总听老哥讲,鼠标键盘这些传统交互模式统治了二三十年,目前跟踪识别爆火且技术趋于成熟,新的交互革命快要打响了。看RealSense这阵势,估计不出三五年新的交互便会普及开来。

英特尔早在2012年左右就着重研发实感技术,当时叫Perceptual Computing,即感知计算,并开放英特尔® 感知计算软件开发套件 2013 版(Intel® Perceptual Computing Software Development Kit, SDK 2013),设重奖举办因特尔感知计算挑战赛,吸引众多开发者参与。随着技术完善与成熟,2014年初更名为RealSense,即实感技术,而后发布了新的Intel® RealSense™ SDK 2014 ,同时举行2014英特尔®RealSense™应用挑战赛

基于此技术的应用在IDF2014及今年CES上大放异彩。

Intel® RealSense™ SDK的架构:SDK core,I/O module和Capability modules组成整个SDK堆栈的基础。SDK core管理I/O module和Capability modules同时组织并管理管线的执行。I/O module捕获设备的输入数据而后发送数据到输出设备或Capability modules。Capability modules也叫algorithm modules,主要包括各种模式检测和识别算法(面部跟踪和检测、手部跟踪、手势识别、语音识别及合成等)。

01

各功能:手部和手指跟踪、面部分析、语音识别、背景移除、目标跟踪、增强现实、3D扫描。

1. 手

SDK将手抽象出骨架,并从背景中剥离出来。允许在照相机的0.2–1.2米范围内跟踪手上的22个点的位置和方向,如图。左右手是区分的,因而可以双手进行交互。

02

手势识别:包括静态手势识别和动态手势识别。SDK中内嵌了一系列手势如下图。你可以用内嵌的这些手势组合出新的手势,也可以根据手骨架上那22个点位置创建出新的手势。

 

0304

05

动态手势识别:静态手势可以单独使用,当然也可以组合使用形成一定的动作。组合时要求开始的手势和结束的手势都已在手势识别系统中注册。

06

SDK给出了一系列动作如下:

07

 

2.脸

脸部检测:SDK提供精确的3D脸部检测和跟踪,且可以同时跟踪4张人脸。每张人脸用长方形来标记,你可以获得长方形的XYZ坐标。与2D跟踪相比,3D头部跟踪在头部运动方面更给力。

QQ图片20150118224438

脸部识别:SDK提供识别特定人脸的能力。特定ID对应注册的特定人脸,并将此人脸的信息存储到人脸库的内存中。如果同张人脸被注册多次,那这张人脸被正确识别的机会将会增大。当没被识别的人脸出现时,识别模块将与数据库中的可能数据进行比对,如果找到匹配则返回此人脸对应的ID。

用户不用担心自己的头像被存储,因为存储的只是算法从图像中提取的特征的集合。

头的运动:SDK提供头部运动的3D方向:俯仰、左右转动、左右偏转,如图。

08

所以可以轻松获得用户头部指向哪里。也可以以此做粗略的眼神跟踪,下一版将会推出更精细的眼神跟踪。

标记点跟踪:SDK提供脸部78个标记点的跟踪以提高脸部识别和分析的精确度。在图像和坐标系中给出这78个标记点的位置。脸部标记点跟踪支持头像创建、脸部动画、拟态及简单的表情识别。可以直接用这些点或这些点的相对位置来作分析。不管你有没有刘海、戴不戴眼镜,这种标记点跟踪都支持。但用户头部在屏幕30度内效果最好。

09

面部表情识别:SDK也包括更高级的面部表情识别。这使得你创建卡通头像更简单。每一种表情有1到100的强度等级使得你做的动画更平滑自然。SDK中表情:

001

情感识别:SDK中的情感识别算法用的是2D RGB数据。情感模块是独立的模块,并非脸部模块的一部分。为保障情感识别正常工作,图像中的人脸至少要有48×48个像素。此算法并不局限于RGB数据,灰度数据同样可行。利用SDK,你可以检测并估计以下六种原始情感的强度。

002

头像控制:SDK通过结合面部表情及78个标记点提供简单的头像控制功能。SDK提供动画角色的示例代码,使你的应用可以适应任何脸型并把用户头像动画化。

应用场景:

003

 

3. 语音

主要包括语音命令和控制、听写、从文字转译成语音等功能。只支持英语,语音识别对成年人效果最好。

语音识别:分为命令模式和听写模式。命令模式需提前设定命令列表,特定命令绑定特定动作。听写模式内置了一个通用的词典,包括50k个常用单词。如果你觉得不够用,也可以自己添加词典中没有的单词。听写模式限时30秒。命令和听写模式不可同时开启。

004

语音分析:SDK也可以根据文本动态的生成语音,由女声读出。

005

4. 背景移除

可以实时的移除背景并替换成新的背景。

006

应用场景:

007

5. 目标跟踪

Metaio*3D目标跟踪模块提供基于光学的跟踪技术,可以跟踪视频序列或场景中的目标物。Metaio工具箱可以训练、创建并编辑3D模型,这些模型可以传给各种目标检测及跟踪算法。

跟踪技术支持平面的2D目标跟踪、基于特征的3D跟踪、CAD模型的基于边界的3D跟踪及即时3D跟踪。

009

6. 增强现实

用音频、视频、图像或其他信息来添加、增强或补充英特尔实感技术游戏的内容。

QQ图片20150118210357

7. 三维扫描和打印

可以扫描、编辑、打印和分享三维物体,并与 3D Systems展开合作。

000

目前因特尔已经与腾讯合作创立游戏创新实验室,推进实感技术,并打造了《轩辕传奇》。与京东合作建立“京东因特尔联合创新实验室”,推出虚拟试衣、3D物品展示等,使实感技术落地电商平台。同时因特尔自己也在不断推出自己的实感技术产品。这不前两天在北京推出其全新的第五代酷睿处理器家族,搭载此处理器的多款产品还配备了英特尔实感技术,看来这项技术很快就会遍地开花。

只要你的处理器是第四代及四代以后英特尔® 酷睿™处理器,操作系统满足Microsoft* Windows 8.1(仅限64 bit),再外购一个英特尔® RealSense™ 3D 摄像头就可以下载SDK玩起来。估计不久联想、戴尔、华硕、宏基、惠普等等搭载第五代酷睿处理器并内嵌因特尔3D摄像头的超极本、二合一及一体机设备就会上市,那时玩起来会更爽。

资料来源:RealSenseSDKdesignGuidelinesGold

 

Dronecode Project:无人机的开源平台

dc_slide_introdrone_video_slide

两个月前,Linux Foundation 联合 12 家技术公司推出了Dronecode Project,意在整合分散的无人机项目资源,从而创造一个共同共享的无人机开源平台,为无人机开发者们提供操作系统、导航工具、飞行控制等方面的大量开源代码。

Dronecode的创始成员:3D Robotics, Baidu, Box, DroneDeploy, Intel, jDrones, Laser Navigation, Qualcomm, SkyWard, Squadrone System, Walkera 和 Yuneec。

目前有超过1200名开发者参与Dronecode工作,某些项目每天有超过150个code commit。项目实例包括 APM/ArduPilot, Mission Planner, MAVLink 和 DroidPlanner。具有无人机前沿技术的很多组织包括Skycatch, DroneDeploy, HobbyKing, Horizon Ag, PrecisionHawk, Agribotix, and Walkera等都已采用了这个平台。

无人机这两年不可谓不热闹,大佬们似乎会在任何新兴领域里都插一脚:Amazon无人机Prime Air已迭代至第九代,网购随买随到的时代指日可待;Facebook和Google争相收购无人机制造公司:Facebook收购Ascenta;Google收购itan Aerospace,且在14年8月曝光了其研发了两年的无人机Project Wing;似乎GoPro也准备进军无人机市场。国内无人机老大DJI 大疆一边融资一边在美国发布航拍神器Inspire 1“悟”,性价比极高,秒杀N多航拍无人机;极飞科技融资2000万美元并与顺丰合作推动无人机送货;14年刚刚成立的Ehang推出了Ghost,在各众筹网站火了一把,话说其估值在6 个月内翻了 24 倍,创业者崭露头角的机会来了。

Dronecode 对无人机开发者来说是一大福音。无人机是我家老哥童年的梦想啊,等有精力了肯定要玩起来。把我们现在的多路视频实时全景拼接移植到Jetson TK1上做成嵌入式产品,并结合无人机拍摄出超炫全景视频。3D重建也是我们一直热衷准备做的,用无人机航拍城市,重建出城市的3D模型。虽有公司在做这些且已出产品,每次看着自己想做的事情被别人抢先做了,都恨自己分身无术啊,只能慢慢来。

GraphLab Create使深度学习更easy

版权声明:本文系本站作者自己翻译整理,欢迎转载,但转载请以超链接形式注明文章来源(planckscale.info)、作者信息和本声明,否则将追究法律责任。

消息来源: GraphLab Create关于深度学习的一篇博文

机器学习的一个核心目标是对输入数据进行分类。例如一个训练好的分类器,输入一张图片便可预测这张图中是狗还猫。

dl_simpleclassifier

用来分类的方法有很多,支持向量机、逻辑回归、深度学习等。最近深度学习如日中天,虽然很强大,但其训练起来却是昂贵的,费时费力。你需要确定网络多少层,需要确定每层多少个节点,需要初始化模型的参数等等。简单来说,深度学习模型就像一个带有很多旋钮和表盘的机器,这些旋钮和表盘你没调好它就罢工。

2

最新发布的GraphLab Create 1.1 及1.2使深度学习变得超级简单。它不需要你自己在选择模型和调参上成为专家,就可以玩转神经网络。基于输入数据,neuralnet_classifier.create()函数选择一个网络架构并设置合理的参数值。在MNIST上测试:

3

在测试集上评估这个模型:

4

结果达到了98%的精度。寥寥几行代码,深度学习就这么简单。

这样还不够,GraphLab Create还要求要使深度学习变得更简单。尽管GraphLab Create能选择较好的网络架构和参数,但这种自动化处理往往是不够的。优化设置往往是极端具体的问题,没有好的直觉、没有足够丰富的经验、没有很多PhD学生的话这个问题很难解决。

其实并非所有问题都得从头开始去训练一个深度模型,再者说,你要解决的问题也并不特殊,它与一些已经解决的问题多少有关联。拿分类猫狗的例子,最有名的数据集ImageNet,DNN表现最优异,其训练的模型可将输入从一千种类别中分辨出其属于哪一类。分辨狮子和狐狸类别的那些特征难道对分辨猫狗没用?

当然有用。通过简单移除DNN的输出层,将传播到输出层的信号作为特征喂给任何一种分类器便可解决我们区分猫狗的任务。步骤如下:

第一步:在一个超大的通用的数据集上训练一个DNN分类器。最好的例子是ImageNet,1000种类别120万张图片。GraphLab拥有在ImageNet上训练好的模型,因此当你应用的时候可以跳过这一步,只需下载这个模型:

gl.load_model(‘http://s3.amazonaws.com/GraphLab-Datasets/deeplearning/imagenet_model_iter45’)

第二步:DNN每一层的输出可以看作每张图像的一个有意义的向量表示。对你任务中的图像,提取输出层前面那层的特征向量。

第三步:以这些特征作为输入,训练一个针对你自己任务的新的分类器。

乍一看可能觉得这样比训练一个DNN更复杂。其实不然,第一步可在很多不同的问题上复用,而且GraphLab给你提供了这个模型,所以并不需要你自己去训练。第二步用GraphLab的API就可搞定。第三步随便一个比深度学习模型简单的分类器都可行。这样一套流程下来,无需调参、训练更快、效果更好,即使有时训练数据不够也不影响。另外,即便你的第三步分类任务与第一步训练的任务相对无关,此方法效果依然很好。

5

举个例子,还是分类猫和狗:

第一步,下载在ImageNet上训练好的模型。

6

而后下载狗和猫的图像。因原始ImageNet模型在256x256x3的图像上训练,所以这里调整了一下图像大小。

7

第二步,提取特征

8

第三步,训练一个简单的分类器

9

为看效果,做个评估:

结果达到约96%的精度,为作对比,仅用.create()方法,结果如下:

精度仅60%。很明显,提取特征结合简单的分类器的方法超级强悍。

为了确保此方法具有通用性,在CIFAR-10上验证。CIFAR有6万张32×32的图像,总共分为10类,5万张训练图像,一万张测试图像。少量例图如下:

12

重复上述步骤:

13

做评估:

14

精度接近95%。事实上,这个结果比已公布的任何结果都好,且看齐Kaggle竞赛中获胜的结果。人类的识别精度才94%。

Graph Create在深度学习这块的表现实在令人兴奋。会持续关注之。

 

2014,虚拟现实大爆炸

Venturebeat 的报道,《神庙逃亡》结合三星虚拟现实头戴显示器 Gear VR 推出《神庙逃亡 VR》了。游戏中,玩家通过头戴Gear VR查看游戏画面,通过倾斜身体或跳动躲避障碍。14 (1)14 (2)

虽然三星的Gear VR仅售200美元,但遗憾的是,这货需要Galaxy Note 4手机为其提供显示与处理能力,所以Gear VR不兼容其它Android手机或设备,必须配合Galaxy Note 4才能用。

这是前两天发布的事儿,回头看最近几个月让人震撼的虚拟现实应用铺天盖地,简单说几个我觉有杀伤力的。

Wired报道的Collider,让你拥有穿梭于大型强子对撞机之内的体验。科学家在欧洲粒子物理研究中心的大型强子对撞机里发现了“希格斯玻色子”(又称“上帝粒子”),为了解宇宙开拓了视野。头戴式虚拟现实设备 Oculus Rift 和动作感应设备 Leap Motion 联手打造了 Collider,通过它用户可以以第一视角体验粒子对撞。

用户戴上 Oculus Rift会感觉自己“置身”于对撞机的同步加速器环中,这里正是科学家们观察粒子对撞的地方。在虚拟模型中,人类的手由五条带有骨节标志的线表示,轻微移动即可重置眼前的虚拟世界,仿佛进入巨型万花筒。

collider-03collider-05

不戴虚拟实境设备也可以体验Collider。用户在Leap Motion上方挥挥手,投影仪即投射出相应结果。

collider-08collider-07

 

另外,设计者Lee为Collider加入了模拟玩家手动操作的元素。在用户体验设计方面,3D还是一块未拓荒的土地。其团队在这方面做着前无古人的探索。

另一个是吓死人不偿命的世界首部虚拟现实鬼片《11:57》,观影者头戴Oculus Rift,便可体验360度全方位的惊悚震撼效果。

122303jjl6la82hl8ozayn122303ari2xynvnven4t2u

为了拍摄出360度身临其境的体验效果,Leichsenring和Gillström制造出一项专门的器材,搭载了6部GoPro HERO3+相机用于拍摄。用到了类似我们的技术:多路视频实时拼接融合成360度全景

独自一人呆在黑暗密闭的地下室里,手脚被捆绑在椅子上,360度无死角的惊悚场景全都冲向你来,对于我这种五六年不敢看恐怖片的胆小鬼是要吓哭了。

最近航天上也开始玩虚拟现实。虚拟现实可以让宇航员去沙滩度个假,科学家们正在与Oculus Rift虚拟现实设备合作,希望为长期在太空工作的人们提供“回归地球之旅”,徜徉于沙滩,静坐于山涧,或是和家人享受闲暇时光。这项技术不仅提供视觉仿真,还加入了嗅觉和听觉。

15 (1) 15 (2)

从10月15日起,该技术的测试版本已开始运用于夏威夷的一项火星人居环境模拟项目中。该六人小组将在此呆上八个月,DALI也计划测试南极洲的虚拟实境演示情况。

今年真是虚拟现实的爆炸年,各种应用应接不暇。各大佬也开始活动。

Facebook花20亿美收购Oculus开启了虚拟现实的应用之旅;随后Google在I/O大会上推出了Cardboard,利用过剩的手机配置来实现虚拟现实,促进了其在移动设备上的应用;据说苹果公司在招聘有虚拟现实类相关产品开发经验的工程师,这暗示其在这这方面可能也会有大动作。微软为Xbox one打造了一套虚拟现实智能头戴设备,估计明年6月的E3大展上会发布这一产品。

大佬们的纷纷加入,往往会催化一个产业的成熟。交互革命也许已经拉开序幕,让我们拭目以待吧。