耳朵与大脑的连接通道 (与大脑相关的科普知识)

我一般不大搭理科学教所谓理性派的挑衅，因为他们有一个很奇怪的思路：只接受理论，不承认事实。但是如果不承认事实只讨论理论，就相当于不用真的吃饭，假装吃饭就能吃饱一样，我觉得很傻。

上一篇文章里面随手怼了一下科学教音响理性派，结果有人不服气。所以，加个更，做一次小科普。

先来问一个问题。

你觉得你用一个照相机，开手动模式，不用任何美颜、AI效果，照出来的东西是真的吗？

如果你认为是真的，那就太（天）真了。因为这个世界上，并不只有美颜可以作假，你的大脑也会。

你要不信，做个小实验。拍一张你们家狗最喜欢吃的东西的“最真”照片，看你们家狗对这个“真的”感不感兴趣？

实际上，我们将现实世界中的光场通过镜头采样到一个平面上形成的图像，只能算三维物体的二维投影。这是第一层。

第二层就是，这个真实的投影还会被再压缩。所有的摄影摄像系统都是按照人类的视觉系统来设计的。也就是说，那些设计的评价指标，比如亮度、对比度与色度，都是按照人类的视觉还原特点做的，使得人类可以觉得照片很真实很美。但是对于人类视觉系统不需要的特征指标基本上在设计上不做考虑。所以，你们家的狗能不能认出你的照片，我认为认不出。为啥，下面说。

那么我们再解释一下整个人类的视觉系统是怎么工作的。

人类出生的时候，我们可以认为有了一个具备硬件体系的信息处理系统。而且硬件还没有发育成熟。比如刚刚出生的婴儿，眼睛的对焦就还不是很好，但是大脑对于眼睛肌肉的驱动已经装好了，所以，他会通过学习，很快学会了自动对焦，包括两只眼睛三维成像。然后不断大数据学习，建立了三维场景的二维投影的关系。一个婴儿平均要到9个月才能建立起来真实场景与平面照片视频的关系，那个时候，他才能够看懂图片上图像的意义。但是狗能不能这样学会？目前没人去实验。但是我认为就像再怎么训练狗也不会说话一样，狗脑没有进化出这么高级的抽象思维能力的大脑结构。所以，我认为没有办法通过训练让狗认识照片。

我们人类通过进化继承来的各种光感细胞与大脑中的丘脑还有大脑皮层，只不过建立了一个基本的计算硬件架构，而这种二维图像还原到三维真实场景的还原算法是婴儿用了9个月时间学会的。但是对于成人我个人认为应该不要这么长的时间。快到看几张照片就应该可以。因为以前西方探险家去到从来没有看到过照片这种东西的原始部落，那里生活的人类虽然对照片与照相机这玩意儿感觉非常神奇，但是他们有一点认识是对的，那就是他的照片跟他本人有对应关系。虽然他们理解为照相机抽取了他们的灵魂用魔法固定在了照片里面。

一般的人是区分不出一张照片到底是canon还是nikon的单反照相机照出来的，就像大部分人搞不清楚TCL电视机与sony电视机的区别，甚至LCD与OLED电视的区别，除非将两台电视并排放在一起看。

这个有点像人类的绝对辨音力与相对辨音力。相对辨音力基本上能听音乐的都有，但是绝对辨音力就要靠天分与训练。青蛙对静止不动的虫子没有反应，但是只要虫子一飞，青蛙就能看见。类似于多普勒效应，对于绝对速度无感，只对相对速度反应。这个机制应该是大脑记不住亮度色度对比度这些量化信息，他们只会做这些信息的差分比较。

人类记忆各种场景与图像也是一样。他们只是提取自己需要的特征进行记忆，并不存储全部信息，因为大脑存储容量不够，大脑处理能力也不够。就像人类将连续光谱的可见光范围粗粗分为赤橙黄绿青蓝紫这几种，基本就够用了。如果你非要售货员小姐姐给你拿色号456C的那件衣服，看会不会被小姐姐打死。

但是一般人能不能够训练出来做这种区分呢？我认为这个跟学外语一样，没有问题，只是学出来的水平高低差异而已。

人类还有一个使用大脑的倾向，就是追求效率，节省脑力。比如你看电视剧，一般不会特别追求画面的显示效果，也不在意音响效果，能够认出每个人，听清楚他们说的啥内容就行，注意力主要在剧情上面。特别是那种师奶连续剧，只要情感上跌宕起伏，你得到的信息能够让你沉浸在导演设计的意识流中就行。所以，对于大部分人来说，用电视看电视剧与用手机看，没啥区别。

BTW，给那些制作人，在画面上配上字幕是一个好的办法，可以节省观众的脑力。

人类对事物的认知，大部分是通过有限的信息进行脑补得来的。上一篇文章我讲过，人类提取记忆之后通过自己的算法进行脑补还原，使得自己不认为那实际上只是马赛克。就像你看电影电视一样，实际上并不是真实的连续画面，而是高速显示的一帧一帧的图像，但是你脑补为是连续的图像。甚至你听老师讲课，领导讲话，也不是每个字都听清楚的，而是不断脑补，然后听懂了。有时候脑补错了，就比较麻烦。

还有个具体例子。人类的人脸识别实际上也是跟现在的人工智能的人脸识别一样，是从小通过大数据训练学习来的。一个土生土长的中国人，很可能一去欧洲就脸盲。因为他从小的训练数据集里面没有欧洲的白人样板数据。对于老外也是，他们看东方人全都差不多，道理是一样的。因为东方人的脸部特征跟西方人的脸部特征差距比较大。就像你虽然学会了弹吉他，给你一把小提琴你不一点马上就拉得好，但是应该比不会乐器的学得快。人脸上都是两只眼睛一张嘴巴中间一个鼻子，大的特征不用重新学，补充一些小的特征指标就行。所以，看多了也就好了。当然人类也可以学会利用这种特征值还原人脸，但是一般人做不到，除非是受过观察训练的画家。所以警察局让证人去认照片比让证人画像稍微靠谱一些。

那么回到音响系统这个方面。

实际上声音对应到上面讲的光线，概念基本上是一样的。你将三维光场对应到三维声场就行了。但是有一点区别，声音的还原不是平面的，而是还原了一个三维声场。

但是，这个还原的三维声场跟原始的三维声场有巨大的差异，只是一般人不觉得而已。大部分一般的*放播**设备就只是让你能够得到基本的信息，比如几十块钱的蓝牙喇叭，跳广场舞大妈用的音响，基本上能够听清楚旋律与节奏，唱的歌词这些。再多的就是背景声音。最多再加点重低音，让你觉得很“劲”。设计师肯定不会做更多的追求，追求是要成本的。这方面渣男都懂。

为什么一般的*放播**系统还原的声场会与原始声场差异很大呢？跟录制设备与*放播**设备都有关系。我们早期没有立体声之前，用一个麦克风录制一个三维空间某一个点的声音强度信息。这种还原出来就是一个点的声音强度信息。这种情况就像一只耳朵完全听不见，另一只耳朵被削掉了耳廓的残疾人听到的声音。然后用一个扬声器还原出来，给有两只耳朵的普通人听。

后来技术进步，用两只麦克风模拟人的两只没有耳廓的耳朵的收音效果，这就是立体声。然后用各种播音系统重放出来。不考虑中间的录音师对声音的各种处理，你可以理解为开各种美颜效果，这种录音可以通过立体声*放播**系统还原出来一个大概的声场，比较好的录音与*放播**系统可以还原出一个交响乐团各个声部乐器的相互位置关系。但是，这个跟还原原始的声场差距还远得很。

那么原始声场是怎么形成的呢？

我们先从一把小提琴的发声说起。一把小提琴是一个发声体。声音由正在震动的一根或者几根弦，小提琴谐振腔的震动所组成，从声音的发散来说，琴弦、两个f孔，还有琴体都有声音发出。如果按照现在科学的理论模型，这个声场有这几个震动部分的无数个点声源通过空气扩散而形成。

所以，理论上来说，建立这个声场的方程需要综合这无穷多的点声源形成的声场叠加。

同样的道理，钢琴也是一个更大的发声体。这些乐器形成了一个乐团，演奏时无数的点声源同时发声，形成了一个声场。如果要用数学公式描述出来，复杂无比。

这显然不是目前科学能够做到的事情。

另一方面，人类在一般听音的情况下也不需要这个完整的声场信息。否则，怎么可能通过两个点的声场强度的记录就还原整个声场？一般大家都老老实实坐着听音乐，不需要玩围着乐队转圈的听音乐模式。但是，每个人对声场还原的程度要求还是不一样的。有的人只要听出来是小提琴拉出来的旋律就行，但是有的人会对小提琴的音色还原有要求，有的人对声场还原有期望。再加上目前声音重播系统各个方面的失真，甚至设计理论的不完善，都对声场还原形成了各种限制。一般的hifi系统，只能做偏向性设计。能放好大编制交响乐的放人声往往不够理想，反之亦然。至于现在7.1的家庭影院系统，除了动态大，声音够响，看个电影还凑合，放音乐确实无法忍受。

目前的hifi系统，失真指标足以满足大多数人的要求。如果不做刻意对比，在一般家庭的场景下，我觉得大多数人中即便有人能够听出几万块钱的系统与上百万系统的区别，但是他们也不知道好坏。因为这方面确实有个主观偏好的问题。有的人就是喜欢听邓丽君的甜，一个失真指标更大但是甜润的胆机加书架箱比一个价格高出去几个数量级的可以放好交响乐的系统都更讨他欢心。就像一般人喜欢的是开了美颜的自拍照，而不是真实。

至于音响中的科学理性派天天这个理论那个理论，问题是首先你的耳朵后面的大脑能不能够接受事实。就像一般这种理性派认为线材不能带来声音改变，卖高价线材就是骗钱。只要花几十块钱买根线材试试就知道了。我自己实验的结果是，线材变化肯定带来了声音改变，但是这个改变是不是更好？不好说，涉及因素很多，比较复杂，而且好坏评价还带有一定主观性。至于高价线材是不是智商税，这个你可以跟你老婆去讨论高价包包是不是智商税。

现在苹果音乐在杜比全景声的基础上推出了空间音频。据说大大增强了空间信号，不仅仅是扩大了声场，而且声场能够追踪你的头部转动而变化。当然这个不是真实还原的所谓无损音乐，而是计算声学的结果。就像电子游戏中的光线追踪算法，现在手机照相中的光学计算一样，是对原有杜比全景声信息的空间算法处理。不过，人类的要求一般都是：管他真实不真实，爽就行。特别对于看动漫打游戏长大的这一代，真实的往往是丑陋的，不开美颜绝对无法容忍。

顺手给苹果打了个免费广告。