上期节目我说:判断「阿波罗计划」是否造假,可以用「信源等级」的科学思维去考虑,帮助我们做出选择。简单来说,就是我们把发表正反双方观点的信源都列出来,然后综合对比一下这些信源的可靠度的等级,大概率来说,信源等级越高的观点,越值得我们信任。
今天我想把这个话题展开来谈一谈。我先提醒一下,本期内容会从一些浅显的道理开始越讲越深,越讲越烧脑,以至于到了最后可能 80% 的人无法看到最后。但如果你能认真看到最后,一定会获得一种窥探到一点点自然真相的满足感。
▼▼▼
首先,我们快速回顾一下关于信源可靠性等级的排序,按照从高到低往下排是:
1. 国际组织的书面材料
2. 国家级机构的书面材料
3. 入选自然指数科学期刊上的论文
4. 入选 SCI 的核心期刊上的论文
5. 口碑良好的科普类媒体
6. 综合性大媒体
7. 相关领域知名专家的观点
8. 相关领域普通专业人士的观点
9. 非相关专业的实名普通人观点
10. 匿名网友的观点
好了,前置知识讲完。我们再来看一下关于「阿波罗登月计划」的争议。先来找一下认为阿波罗登月计划「造假」的观点都来自哪里,后面我就简称为【反方】观点。
我在网上搜索了一下,能找到的信源等级最高的反方观点是 9 级,也就是来自于非相关专业的实名普通人观点。
有些人可能会说,马斯克质疑登月。但马斯克依然是 9 级,因为他并不是专业人士,他是的投资人,并不代表就是专业人士。这里的专业人士指的是:有能力分辨各种证据真伪的航空航天相关领域的科学家或者工程师。还有人可能会提到俄罗斯前航天局的局长罗戈津也在 2023 年 5 月公开说美国人登月造假。罗戈津还是 9 级信源,因为看一下他的履历就知道了,他是一个标准的政客。
下面我们来看【正方】观点的信源。
先说结论,正方观点能找到的等级最高的信源是 5 级,也就是口碑良好的科普类媒体。我来举几个例子,比如:
「科普中国」公众号,蓝 v 认证主体是中国科学技术协会,认证类型是政府。这个可以算是科普媒体的国家队了,说通俗点儿就是中科协的亲儿子。2023 年 12 月 19 日,科普中国发表文章《阿波罗载人登月到底是不是骗局?》,结论很明确,不是骗局。
再比如,同样是中科协主办,认证类型是政府的「科学辟谣」公众号,由中国科协、卫生健康委、应急管理部和市场监管总局等部委主办,中央网信办指导,全国学会、权威媒体、社会机构和科技工作者共同打造。
2024 年 5 月 14 日,科学辟谣公众号发表辟谣阿波罗登月骗局的文章,作者是中国科技新闻学会太空文化传播青少年工作委员会委员王君毅,审核专家是中国科学院国家空间科学中心研究员周炳红。
再比如,我非常推荐的一个科普媒体叫「腾讯较真」,由腾讯公司主办,也是专门查证谣言的一个科普媒体。2021 年 4 月 15 日发表辟谣阿波罗登月是骗局的文章,作者是行星科学家、中国科学院国家天文台研究员郑永春。
另外,像果壳网、知识分子、饶毅科学、风云之声、科学声音等等很多口碑良好的科普自媒体也都发表过正方观点的文章。
以上例子只举了中国的,全世界知名的科普媒体发表正方观点的文章这 30 多年来更是不计其数,搜索结果似乎永远翻不到头。
6 级信源是综合性大媒体,这个要举例就更多了。比如中央电视台,出过一个叫「走进真相」的专栏,其中有两集就是《登月疑云》,这个节目的播出时间是 2014 年,解释了很多常见的质疑美国载人登月真假的说法。
另外,像人民日报、澎湃新闻等等很多很多综合性大媒体都刊登过正方观点的文章,你很容易检索到。
7 级信源是相关领域知名专家的观点,这个也很多很多,比如有着「嫦娥之父」美誉的欧阳自远院士,他可以说是我国探月工程中最知名的科学家了,他亲自录短视频辟谣美国登月骗局。其他发表过正方观点的航空航天专家更是举不胜举。
8 级信源是相关领域普通专业人士的观点,在我们科学声音专家团中有很多航空航天领域的科学家,他们全部支持正方观点,无一例外。
好了,讲到这里我总结一下,关于美国载人登月是真是假的正反方观点的信源等级是 5 级对 9 级,这个落差是非常大的。所以,在面对一些专业问题时,我们可以通过信源等级的比较,来判断选择哪方观点正确的可能性更大。这是一条比较通用的科学思维,对于任何专业性比较强的问题,这条科学思维都适用。
我再强调一下,科学思维不能百分百保证我们每次都能选择正确,但它是让我们最有可能找到真相的一种思维方式。
说到这里,可能有人会好奇,为什么正方观点没有 1 - 4 级的更可靠信源呢?其实这个也不难理解。
因为质疑者的身份或问题还不足以让 1-4 级信源来发声。
所以,我的观点是:对于美国登月是不是骗局这件事情,有可能找到的最高等级信源就是 5 级,不可能更高了。
讲到这里,其实我们今天这期节目才刚刚开始。关于信源可靠度的话题,还远没有结束,它背后竟然还蕴含着非常高深的数学原理,让我们继续往下深入。
▼▼▼
正如你们看到的,我把信源分成了若干个等级,然后宣称,等级越高的信源,它的可信度也就越高。
那么,较真的人可能会追问:这个所谓的「可信度」是可以被测量的概念吗?如果它根本就不是一个可测量的指标,那你凭什么说这个信源的可信度要比另外一个信源的可信度高呢?凭你自己的直觉,拍脑袋拍出来的吗?
这其实是一个非常好的问题,它也是一条科学思维,叫做“没有测量,就没有科学”,当我们要给一样东西定量的时候,必须要说明它的测量方法是什么,并且是可以操作和计算的。
那么信源「可信度」这个指标,能不能测量呢?
答案是:能。
那怎么测量呢?
我先从一个比较容易理解的例子给你讲起。
现在,我给你一颗六个面的骰子(色子),请问,你能不能测量这个骰子的可信度?也就是说,判断出这是一个公平的骰子,还是一颗作弊用的骰子。
我估计,你稍稍一思索就想到了办法。这个好办啊,我们来扔骰子,看是不是扔的次数越多,每个面出现的概率越是均等,也就是六分之一,扔上个 100 次、1000 次、10000次,我扔的次数越多,越能证明这个骰子的可信度越高,这个道理不难理解吧。换句话说,一个骰子的可信度,可以通过测量若干次扔骰子的结果计算出来。
我们之所以认为这个测量方法是靠谱的,背后其实也有一个数学定律在支撑,这个数学定律叫做「大数定律」,意思是:随着随机事件的重复次数不断增加,其平均值将越来越接近总体平均值。这个定律可以用一个严格的数学公式来表达:
接下来,我们可以把这个测量骰子可信度的方法迁移到测量信源可信度上来,具体怎么做呢?比如说,我们从每一个信源中随机选取 1000 篇文章出来,然后给每一篇文章标记上是否被证伪的标签,被证伪了就得 0分,没有被证伪就得 1 分,这样我们就得到了在同一个测量标准下,每个信源可信度的得分了。我们会发现,不同信源,可信度得分果然是不一样的,而且,随着我们采样的文章越来越多,每个信源得分占总分的比值也会越来越趋于稳定。
不过,这个测量方法实在太过于理想化了,听上去好像很有道理,其实你真要去操作,就会发现,这个方法几乎不可行。因为,很难给一篇文章用 0 或者 1 去标记,这个世界是复杂的,一篇文章往往几千、几万个字,怎么评价它是 0 还是 1 呢?如果一篇文章有 60% 的内容是对的,40% 的内容是错的,那你是标 0 还是标 1 呢?
所以,真实世界要比理想化的模型复杂太多了?那怎么办呢?办法当然是有的,要理解这个升级版的信源可信度测量方法,我们首先要理解一个重要的统计学概念,这个概念叫「似然」,这是一个非常高能的概念,你需要打起精神听我讲解。
▼▼▼
什么是「似然」呢?我现在用抛硬币来举例说明。
假如说,有一个硬币被动过手脚了,它不再是公平的,而是出现正面的概率要多于反面的概率,它正面朝上的概率是 0.6。那么请问,如果抛 10 次硬币,会得到几次正面几次反面呢?
这个问题很好回答,大概率会得到得到 6 次正面和 4 次反面。当然,我不是说一定会得到这个结果,而是说大概率会得到这个结果,假如你抛个 100 组,每一组都是抛 10 次,那么我敢说,这 100 组中,符合正面朝上 6 次的情况是最多的。
刚才这个问题,就是用已知概率,去推测可观察结果。是一道最基础的概率题。
但是,现在我把这个问题的难度提升一下。
假设,你拿到了另外一枚硬币,你只知道这枚硬币也是被动了手脚了,只是不知道它具体被动了怎样的手脚。我要你根据扔硬币的结果去反推这枚硬币的正面固有概率是多少,你该怎么推算呢?
这道题目的难度上升了可不只是一点点,可以说,它非常难。
我来解释一下。我们现在设想一下,你拿到这枚硬币,先扔了 10 次,发现,有 6 次正面,4 次反面。这时候,你能不能就宣称,这枚硬币的固有概率就是正面 0.6 呢?
显然不能吧?因为你才抛了 10 次,次数这么少。这枚硬币的固有概率假如不是 0.6 而是 0.4,你抛 10 次,也完全可能出现 6 正 4 反的结果啊。
你可能会想,那 10 次不够,我们就抛 100次、1000 次,统计出来的结果就是硬币的固有概率了吧?
也不是。为什么?
我举个例子,假如,你抛了 1000 次,得到了580 次正面,你能宣称这枚硬币的固有概率是 0.58 吗?显然也不能啊,因为这枚硬币的固有概率完全有可能是 0.59 或者 0.57 啊,你抛 1000 次也不可能得到准确的固有概率。并且,这么往下想是没底的,即便你抛了一亿次硬币,正面朝上的概率是 0.6,你也不能排除它的固有概率是 0.599 或者其他很接近 0.6 的数。
尽管如此,有一点我们却是可以肯定的,那就是假如抛出来的统计结果,正面朝上的概率刚好是 0.6,那么,抛的次数越多,我们就知道,真实的固有概率越接近 0.6,而不会越远离 0.6。
换句话说,我们抛的次数越多,就会得到一个越接近硬币固有概率的数值,那么,怎么衡量抛的次数和我们得到的这个结果与固有概率的接近程度呢?说得更通俗一点,就是,怎么衡量我们统计出来的这个数值它就是硬币固有概率的可信度呢?
在统计学中,就可以把「似然值」当做是衡量硬币固有概率可信度的度量方式之一。当然,我这里必须强调一下,这并不是唯一的度量方式,是其中的一种度量方式。
希望你看到这里已经弄明白了这件事:概率值本质上描述的是一个事件最有可能出现多少次,而似然值则是在描述一个概率值的可信度。
那么,似然值怎么计算呢?针对硬币这个问题,似然值的计算公式如下:
这个公式有三个变量,分别是抛硬币的次数、得到正面的次数和我们假设的固有概率值,通过一番幂运算,得出似然值。
其实这个似然值,就是先假设一个固有概率,然后去看一下在这个假设之下,发生当前事件的概率大小。概率越高,那就表示可信度越高,反之可信度越低。
我还是来举例子吧,举例子最好理解。
假如,你现在拿到一枚硬币,你扔了 10 次,得到 6 次正面。
那么,结论是这样:
这枚硬币正面固有概率是 0.6 的似然值是 0.2508。换句话说就是,我们完全可以认为这枚硬币正面固有概率是 0.6 的可信度是 25.08%。
其实这里的0.2508,也就是不管固有概率本来是多少,你都假设它就是 0.6,然后去计算一下在这个假设下,抛硬币 10 次 6 正 4 反的概率值,这个值就是似然值。
上面计算的是 0.6 的情况。那正面固有概率是 0.3 的似然值可以计算出来是 0.0368,也就可以认为它的可信度是 3.68%。
而正面固有概率是 0.1 的似然值是 0.0001,也就是可信度度迅速下降到了万分之一。
尽管这个似然值看上去很像是一个概率值,但从准确的数学定义上来说,似然值并不是一种严格的概率值。因为,概率必须满足归一性。也就是说,事件发生的概率之和必须是 1。骰子的六个面,每个面出现的概率加起来必然为 1。但是,似然值并不符合归一性。就拿刚才的例子来说,抛出了 6 正 4 反的情况,从正面固有概率是 0.1 到 0.5,再到 0.999,把所有有可能情况的似然值加在一起,它的结果并不等于 1。这里面涉及的数学问题是题外话,今天不展开说,数学非常深奥。
你看,测量一件事情的“可信度”,它的学问可大了吧。
好了,有了似然值的基本概念,我们又可以回过头去研究一个信源的“可信度”该怎么测量的问题了。清醒一下,我们继续,更烧脑的还在后面。
▼▼▼
尽管,通过抛硬币统计的方法,抛的次数再多,也不能百分百确定硬币的真实固有概率,但是硬币的固有概率的似然值却是可以定量计算出来的,而且用数学可以证明,在某次测量中,一定会有一个最大的似然值。像是抛出了 6 正 4 反的结果,那么硬币正面概率等于 0.6 这种情况的似然值就是最高的,这可以理解为“可信度”就是最高的。所以,即便是任何一种情况都无法排除,但在必须做出选择的时候,我们应该理性地选择 0.6,尽管我们明知,可信度只有约 25%,但它就是在已知条件下可以做出的最佳判断,是风险最小的选择。如果选择其他答案,可信度只会更低,不会更高。
注意,这里的重点是在已知条件下的最佳判断,如果我们继续抛,抛到100次时,结果变成了 30 正,70 反,那么在有了更多信息的情况下,似然值也会更新,在这种情况下,硬币的固有概率是 0.3 的似然值就最大了,即可信度最高。
建立了似然值所代表的可信度的基础概念后,现在我们再看回信源的可靠性这个问题,我们就可以用似然值来计算某个信源的可信度。
之前我们说了,不能只根据一篇文章准确与否就得出信源的可信与否,这样是非常容易出现偏差的。并且,即便是某一篇文章也不能只用简单的 0 和 1 来标记,一篇文章本身也有准确度的概念。正确的做法是这样,举例来说,假设我们统计了信源发布的历史文章,发现 90% 准确的有 21 篇,80%准 确的有 53 篇,70% 准确的有 3 篇,50% 准确的有 12 篇等等等等,然后就我们可以计算,假定该信源是完全可靠的情况下,发布出这些文章的概率是多少,而这个值,这就是在当前已知的信息下,该信源完全可靠的似然值。换句话说,这个值就可以代表该信源的可信度。
我再解释一下。某个信源发布了一篇文章,虽然我们无法百分百确定这篇文章到底是可信的还是不可信的,但是我们可以用“信源完全可靠”和“信源完全不可靠”这两种假定,来分别计算出它们的似然值。也就是说,先假定信源是完全可靠的,那么它发布出这样的一篇文章的概率值是多少,这个概率值就是信源完全可靠的似然值。
当然,如果你愿意的话,也可以假设信源是完全不可靠的,就可以计算它发布出这样一篇文章的概率值是多少,这个概率值就是信源完全不可靠的似然值。
不过,在实际生活中,我们只需要用到两个似然值中的一个就够用了,没必要两个都计算。
好了,讲到这里,我就可以非常有底气地回答网友的诘问:
信源的可信度能测量吗?
答案是:能。
怎么测量?
就是用似然值为信源的可信度打分,似然值越高,可信度也就越高。
再次强调一点,可信度是 0 到 1 之间的一个概率数字,任何时候,都不代表真理,它只是代表着在当前已知信息的前提下,是我们人类可以得到的最靠谱的结论。
看到这里,爱较真的听众,可能又会抛出另外一个问题:你这种计算似然值的方法,归根到底还是依赖某人给一篇文章标记百分之多少准确,那假如这个标记本身就是不准确的,这个可信度也就没有任何意义了。这话当然没毛病,不过这其实是另外一个话题,我们又要新开一个专题才能讲清楚如何避免人为误判,简单来说,这个问题依然可以通过大规模的双盲评测来解决,这同样也是个统计概率问题。问题是好问题,但并不是致命问题,聪明的人类早就找到了解决方案。
好,现在我们了解了「似然值」这个概念对评估信源的作用了,但我们还要再往下深入一步,看看它在训练 AI 中所起到的巨大的作用。
▼▼▼
「似然值」在人工智能的训练工程中又起到了什么作用呢?之所以会有似然值,本质上是我们把客观世界里的各种属性特征分成了两类,一类是可以直接观测到的属性,比如前面提到的硬币落地后的朝向,一篇文章的准确程度,还可以是图片里的内容到底是猫是狗等等;另一类是没有办法直接观测到的属性,比如硬币的固有概率值,信源的可信度,还有就是人工智能模型里的参数值等等。在人工智能领域,这部分不可直接观测得到结果的属性,往往也被称作是「隐变量」,一个「隐变量」的所有可能性组成了一个空间,叫做「潜空间」。
而且,往往从逻辑上看,隐变量的取值决定着可观测变量的取值,所以我们才可以从可观测变量反向去窥探一下隐变量的真实数值。只不过,这件事永远做不到完美,我们只能通过当前有限的数据去尽可能的接近隐变量的真实数值。这个时候就需要似然值了。通过似然值,理论上我们总是可以找到可能性最大的隐变量的取值。对于人工智能模型,你用 100 张狗的照片去训练模型,那么只需要找到使似然值最大的那些模型参数,就可以让模型去判断这 100 张图片都是狗的可能性最大。
上面这段话听着有点绕口,你仔细听两遍,一定能理解的。
现在的人工智能模型也的确是这样做的,总是去追求似然值最大,更专业的说法叫做「最大似然估计」。不论是是现在最流行的多层感知机模型,还是深度网络流行之前的支持向量机模型,还是上一期介绍过可能挑战多层感知机地位的 KAN 网络,它们背后都以一个隐藏目标,就是训练出一组模型参数,能够让似然值尽可能的大。
人工智能追根溯源的话,有两个最大的分支,最最早期的人工智能模型都是基于逻辑推理实现的,可惜现实里的逻辑规则过于繁复,几乎无法穷尽,所以这个分支现在处于破产状态。另一个分支是基于统计学习的分支,在人工智能发展史上凡是接近实用的模型都是在这一分支下发展出来的,而这一切的基础,就是去寻找最大似然值。
当然了,人工智能的训练也不是只有寻找最大似然值这一个目标,如果只是去实现这一个目标的话,那么往往就会出现过拟合的情况。也就是说,在已有的数据下,模型的各种表现都很好,一旦超出已有数据,模型的表现力就大幅减少。
一个经典的例子就是,曾经有一个图像识别模型被训练来区分坦克和飞机的图片。模型在训练集上表现得非常完美,能够 100% 准确地识别出坦克,然而,当模型被用于新的、未见过的图像时,它的性能却非常差。经过进一步的调查,研究人员发现模型并没有学习到坦克的特征,而是学习到了训练图像中的背景——蓝天。因为在训练集中,所有的坦克图片背景都是蓝天,而飞机图片的背景则不同。模型实际上是通过识别图像中是否为蓝天来做出判断的,而不是坦克本身的特征。
所以,一个成功的 AI 模型一定是在追求最大似然值的同时,还会尽力做到,让模型的泛化能力更强,是对两个目标综合考虑后的权衡取舍。其中一个方法,就是将最大似然估计,修正为最大后验估计。
完了,看到这里又出来一个新名词「最大后验估计」,但我们今天的内容已经太长了,这个概念就权当是一个悬念留着吧,以后有机会再介绍。


