今天下午看了 #蚁视发布会感想甚多,出来刷屏,诸位没兴趣可以先mute。现场图片以及基本过程可以看极客公园的报道:geekpark.net/topics/211890
前半部分属于青涩的工程师转行做销售,这几天会有连篇累牍的各种报道去比较蚁视和Oculus Rift,不予赘述。蚁视的亮点是用了非球面镜所以图像畸变小,试戴了一下色散也不大,这片镜头不算便宜。后半段才是亮点和『情怀』,大概不会有几个记者会明白光场的意义所在。
蚁视发布会上覃政讲个什么洗澡看见小水珠的故事那估计是逗文青玩的。他是北航学卫星的。卫星一边走一边拍再把图像合成,所以接触Integral imaging那是天经地义的。从他讲的故事里看是开始就像做光场显示器,结果投资人不懂,于是干脆先做了个简单的,拿到钱,再干自己想做的。这事儿还真挺有情怀的。PhD千千万,喜欢课题的少一半。自己开公司拿风投卖产品为了把课题做出来的,更少。后半场发布会完全就是为了炫论文呐。
之前@OraclMachine吐槽说蚂蚁视力差,拿这个起名字不吉利。我当时就猜是不是因为复眼。居然还真是。复眼相当于是微透镜阵列进行的光场成像,这种成像方式可以直接获得光线的方向而不仅仅是强度。所以采集到的实际上是真正的立体像。Lytro.com 主页上有直观demo
不过他好端端的Light Field或者Integral imaging的名字不用,非得叫什么CEO成像,哪几个单词的所写我都记不住,我觉得不正常说话的人才能去各种市场部。
第一个拿出来炫的是用笔记本屏幕做的光场显示。用摄像机直拍,手动调焦可以明显看出焦距变化时图像各部分清晰度改变,真的分层,画面分辨率也还可以接受。我离得远,没看出来是在屏幕表面上加了微透镜膜还是在镜头前面加了微透镜阵列。
他之前展示了一组透镜阵列,还挺大的。镜面间距都是按几mm来计的。如果有现场视频的话应该再看看这个光场的加工是在哪一级。

不过这是我第一次真正看到光场显示。简介一下:其实就是光场成像的逆过程。通常是普通显示器前面放一层微透镜阵列。一个微透镜覆盖若干个像素,比如5*5,那么每一个像素单独点亮的时候,就相当于从微透镜里发出一个有方向的光。于是显示器成像是有强度和方向,人眼看到是立体像。
关于光场显示器,看看NVidia的眼镜,挺帅的。这个大概是蚁视想做的终末形态。
(视频是youtube的,看不到的自己去面壁)
再跳回去说一下为什么非得做光场的显示器。通常认为立体感是双眼知觉,两个眼看才有意义。(甚至立体觉可能是在形觉之前的),于是3D电视电影一般就只是给双眼不同的画面,于是就『立体』了。但这是伪立体,因为单眼也是可以分辨远近的,最简单的手指放在眼前是虚的,拿远点才清楚。
这个大概叫Focal Depth Cues,人眼要根据深度来对焦,对焦也可以反应深度。而且看近处物体时,双眼通常向内看,也就是向内=看近。于是有个集合调节反射,眼一向内看自动就调焦。但如果用平面显示器显示左右眼不同画面,眼睛的这个反射就失败了,因为焦点总应该在屏幕上。
所以左右眼不同的画面只是立体感,而不是立体像。要完全欺骗大脑,就需要提供立体像,也就是光就要从空间中的点发射出来,成像光不仅要有强度还要有方向。能形成立体像的,之前只有全息图holograph,这个词已经被各种乱七八糟的概念污染了。
全息图的困难在于需要用相干光,一般来说也就是激光作为照明光,消费级就很困难,另一个全息图上的条纹密度是光波长量级的,几百nm顶多到几um,而液晶显示器326dpi像素间距已经是75um,所以动态数字全息一直是困难。只见过realviewimaging.com
如果全息描述的是光波前的曲面方程的话,光场则是波前的法线向量。我个人认为是等价的,但用光线来描述的时候天然是离散的,也不用太考虑相互影响,显示密度也不用那么高,于是光场相机热起来以后光场显示器自然就应该出来了。
用光场做头戴显示器优点就是对单眼也提供了深度信息,理论上视觉会更自然。
返回来,发布会上第二个demo是一个光场的see through阵列。VR眼镜显然是要see through的,也就是看穿过去看到CG叠加在实物上。现场就搞了个一个大号的。

96孔板呐。96个透镜,一面是在透镜后面装摄像头,一面是在透镜后面装显示器,两边对在一起,摄像头拍摄外面再交给显示器,于是就『透明』了。特殊一点就是摄像这边获得的是光场,显示这边也是光场。这种『透明』更准确些。

展示的时候在两层之间夹了些红布条。穿过显示器可以看到人,看不到布条,抽出来给观众展示布条。这里我不明白为何做成video see through,而且每个子像素都去拍,很浪费。
后面就没啥了,我觉得覃政已经爽够了。这个video see through的观察范围有限,正对着比较好,偏一些会差点,再偏一点就不知道他在干啥。虽然作为论文demo会很帅,但对普通消费者来说不够有吸引力。当然,发布会后半段根本就不是给普通消费者看的
覃政还在发布会上说他的专利比NVidia的要早。在2012年初就提交了。我查了一下,大概是这篇 https://www.google.com/patents/CN103376551A这个看起来是覃政自己写的,如果有一天蚁视真的要跟NVidia打,得需要强大的IP松狮。要判断一个专利是否是代理人写的很简单。ctrl+F『所述』这个词,然后对中文专利说明书中出现的次数求和(不含权利要求中),就可以分辨出是否为专利代理人所写。
观后感刷屏完毕。
补充,光场显示会面对两座大山,如何解决才是未来的关键。
1. 是微透镜阵列的成本。这东西用的人少,成本高。一般来说每个微透镜相当于一个可以显示带有光的方向的像素,微透镜能做到多小像素就有多少,Lytro卖不动很大一个原因就是微透镜阵列的像素数量上不去,于是Lytro在成像质量上就比不过普通单反,就算它能成立体像,但没有像素数量的保证,消费者不买单。
2. 显示器的分辨率。光场显示是用屏幕上平面的像素去展示立体的光线。一个微透镜对应N*N个像素,能够显示出N个层面。比如想在眼前30cm显示出10个高清层面,所需要的分辨率是300dpi*10^2=30000dpi,这是啥意思呢,两个点之间的距离大约是800nm左右,已经到红外光的波长了,有这么高的分辨率我做啥光场啊,直接上数字全息了。
显示器,貌似是IT产业里和电池一样是拖后腿的,比如2010年Apple发iPhone4,第一次推出retina屏幕,326dpi,4年以后,iphone6+,终于涨到了400dpi,注意iphone 6仍然是326dpi没变,4年,按摩尔定律已经应该是增4倍而不是增1/4。按这个速度未来5-10年也不会推出适合于光场头戴显示器的液晶的。
显示像素数量也是制约整个头戴显示器产业的瓶颈。300dpi,那是在眼前30cm的位置上观看的分辨率,移动到眼前10cm,那就需要900dpi,就剩LCoS勉强了吧,2*2cm的,眼前10cm放半扇,可不少钱呢。用透镜,成虚像放到30cm的位置上,300dpi够了吧,那大小呢?单眼的视角是内60,外90,上55,下70。放一个10寸的iPad在30cm处有多大视角?要覆盖上这水平150度,垂直125度的范围又需要多少个iPad屏幕?
除非。。
参考资料:
- 关于光场, 这个blog不错:
- 快速入门视频讲座在:
(这整个系列课程都不错,有讲一些比较新的图像处理知识,BM3D,光场,压缩感知都有提到)
- 关于光场成像的听课笔记:Envisioning a light filed ecosystem