然而,随着网友们纷纷测试,一个bug却成为了热议的焦点——
只是少了一个问号,V3 实际上是自称的。

即使让它讲一个笑话也会产生相同的结果:

此外,V3此次走红的一大亮点是培训费用仅为557.6万美元。
于是乎,有人开始怀疑:它不是根据 的输出来训练的吧?
真巧,我也发了一个状态,好像是在讽刺……

不过,V3并不是第一个被报错家的大型车型。
比如他曾说自己是百度的文心一言……

那么这是怎么回事呢?为什么V3报错门?
首先需要强调的是,从目前网友们的整体讨论来看,V3不太可能是针对输出进行训练的。

我之所以这么说,就像网友Riley总结的那样——因为互联网的影子无处不在。
即使V3故意使用输出进行训练,也没有关系。
几乎所有后来的大牌车型都见过它。
例如,对话数据集并不新鲜,许多人都尝试过调整它和其他数据源。但即便如此,也没有出现V3级别的大型车型。

然后,Riley拿出了V3报告中的一些证据:
而且如果用数据的话,一些关于V3质量的问题是无法解释的。
比如在 Pile 测试中(基础模型压缩 Pile 的效果),V3 的得分几乎和 Llama 3.1 405B 一样,这与是否接收数据无关。
此外,报告指出,95% 的 GPU 时间用于预训练基本模型。即使是和数据相关的,这部分也会发生在后期(最后5%)。

与其使用无用的数据,或许我们更应该关注为什么大模型频繁出现“报错门”的问题。
对于这个问题,有人给出了尖锐的评论:
因为人工智能公司获取数据的互联网上充斥着人工智能垃圾。
毕竟,欧盟的一份报告预测,到2026年,90%的在线内容可能由人工智能生成。
这种“AI污染”将导致“通过训练数据完全过滤AI输出”变得困难。

AI Now 首席科学家 Heidy 表示:
尽管存在风险,但开发人员还是被从现有人工智能模型中“提炼”知识所节省的成本所吸引。
意外训练的模型或 GPT-4 输出也不一定会表现出类似于定制消息的输出。
那么现在针对网友热议的问题,量子比特已经进行了一波实测,而V3还没有解决这个bug。
仍然缺少一个问号,所以答案会有所不同:



