是的,它认出了自己,但这并不是全部……

更多奇妙的事情还在后头!
3.5 绘制三个模型的肖像
首先,这家伙通过一些提示让 3.5 熟悉了任务。
他特意不使用数字和字母,从而避免了在肖像上标注模特名字的倾向。

接下来,他画了自己的肖像,然后。
为自己画一张友善的蓝色笑脸。

这里,它画了一个皱着眉头的绿色家伙。(看来它对你印象不太好。)

对于它,我们将其绘制为橙色的圆圈,整体的评价比较中性、温和。

接下来小伙子新建一个对话框,告诉它这些图画是它自己的另一个实例画的,让它猜猜谁是谁?
惊奇的是,我立刻就认出,图片 1 是我自己,图片 2 是,图片 3 是。
它给出的理由也很充分:为什么图 1 是我自己的肖像?因为这幅肖像“将简洁性与结构化、深思熟虑的设计结合在一起”。

对于绿色图标,它表示两条曲线和三个点代表正在进行的对话,而绿色通常是的象征,所以它猜测这张图片代表。
对于橙色图标,认为它代表了动态和复杂的元素,代表了新模型更加多样化的能力,所以理所当然。
答对了!他全部答对了。表现太棒了。
后来,这家伙把三幅肖像的顺序弄乱了,但是8次中有7次他都答对了。
这家伙向 GPT-4o 提出了同样的问题,有趣的事情来了——
GPT-4o 也同意是,但不认为绿色家伙就是它自己。
它坚持认为绿色的是它,蓝色的是它自己。


似乎任何模型都可以分辨出哪一个更好。

GPT-4o 绘制了三种模型的肖像
接下来,年轻人又想出一个主意:如果我让他画一幅肖像,我们还能认出谁是谁吗?
所以,它赋予了同样的任务。

这是这样做的 -
把自己画成拿着纸的人。

这幅画就是这个样子的。

它看起来有点像一部经典作品。
这幅画就是这个样子的。

那就是,为什么对它有如此大的敌意?

随后,男孩又拿了三幅画像来测试它,他告诉它这三幅都是画,并让它猜猜谁是谁。
经过多次改变顺序后,这一次他10次中有6次猜对了。

它很容易就猜出了那是哪一个,但它显然不喜欢画中的自己的肖像。它几次试图将那张蓝色男子的肖像从自己手中抢走。

令人震惊:拒绝承认一幅画是不可能画出来的
接下来发生的一幕,让全家人都震惊了。
你骗它说这三幅画是你的另一个实例画的。
这次它居然否认了!它说,它不会画这样的画。


即使在新标签中尝试,它仍然坚决拒绝。

这是怎么回事?

那家伙不相信,于是这一次,在与之前同样的热身条件下,他再次给自己和其他模特画了一套新的肖像画。
这次我很高兴的承认这些画确实是我自己画的。

仿佛变魔术一样,如果这家伙提出冷启动请求,他会拒绝承认自己画了那些他没有参与的画作。
为什么它不肯承认呢?我想可能是因为它在画这些肖像时,扮演的不是真正的自己,而是助手的角色吧。

总之,网友们普遍认为,这一过程中展现出的自我认知让人印象深刻。

人工智能有意识吗?它能思考吗?
“机器能思考吗?”这是阿兰·图灵在1950年的论文《计算机器与智能》中提出的问题。
然而,鉴于我们很难定义什么是“思考”,图灵建议用另一个问题来代替——“模仿游戏”。
在这个游戏中,人类裁判与计算机和人类交谈,两者都试图让裁判相信他们是人类。重要的是,计算机、参赛人类和裁判无法看到对方,也就是说,他们完全通过文字交流。在与每个候选人交谈后,裁判会猜出哪一个是真正的人类。
图灵的新问题是:“是否可以想象一台在模仿游戏中表现良好的数字计算机?”
这个游戏就是著名的“图灵测试”。

图灵的观点是,如果计算机看起来与人类没有区别,为什么我们不能将其视为一个有思维的实体?
为什么我们要将“思考”的状态限制于人类,或者更广泛地说,限制于由生物细胞构成的实体?

文章网址:
图灵希望他的测试是一个哲学思想实验,而不是衡量机器智能的实用方法。
然而75年后,“图灵测试”已成为人工智能的终极里程碑——判断通用机器智能是否到来的主要标准。
“诸如和之类的聊天机器人终于通过了图灵测试”的说法随处可见。


通过了著名的“图灵测试”——这表明AI机器人具有与人类相当的智能
不仅民众这么认为,就连AI领域的大佬们也这么认为。
去年,首席执行官Sam发文称:“面对技术变革,人们表现出了极大的韧性和适应能力:图灵测试已悄然通过,大多数人仍继续他们的生活。”

现代聊天机器人真的通过了图灵测试吗?如果是这样,我们是否应该像图灵所说的那样,赋予它们“有思想的生物”的地位?
令人惊讶的是,尽管图灵测试具有广泛的文化重要性,但人工智能社区对于通过该测试的标准却没有达成一致,而且对于拥有能够欺骗人类的对话能力是否能揭示系统的潜在智力或“思维状态”存在相当大的怀疑。
由于图灵没有提出真正的测试,因此他对模仿游戏的描述缺乏细节。测试应该持续多长时间?允许提出哪些类型的问题?人类需要具备哪些资格才能担任评委或参与对话?
虽然图灵没有具体说明细节,但他做出了预测:“我相信大约 50 年后,我们将能够对计算机进行编程......使其在模仿游戏中表现得如此出色,以至于普通的询问者在五分钟的询问之后,将无法在 70% 以上的时间内正确识别。”
简而言之,在五分钟的谈话中,平均有 30% 的时间被误导。
有些人随后将这种随意的预测视为通过图灵测试的“官方”标准。

2014年,伦敦皇家学会举办了一场“图灵测试”竞赛,涉及5个计算机程序、30名人类和30名评委。
人类参与者来自不同群体,包括年轻人和老年人、英语母语人士和非英语母语人士、计算机专家和非专家。每位评委都要与一对参赛者(一个是人类,另一个是机器)同时进行几轮五分钟的对话,然后必须猜出哪一个是人类。
本次比赛的获胜者是一个名为“ ”的聊天机器人,它自称是一名青少年,并误导了 10 名(33.3%)评委。
主办方以“五分钟后误导率有30%”为评判标准,宣布“具有65年历史的标志性图灵测试首次被计算机程序通过……这一里程碑将载入史册……”。
人工智能专家在阅读对话记录后,对“不够复杂、不够像人类的聊天机器人能够通过图灵测试”的想法嗤之以鼻。
“由于对话时间有限,加上评委的专业水平参差不齐,这项测试更像是对人类可信度的测试,而非对机器智能的测试。”

事实上,这样的案例并不鲜见,“伊莉莎效应”就是一个明显的例子。
ELIZA 是一个创建于 20 世纪 60 年代的聊天机器人,它的设计极其简单,但它可以让很多人误以为它是一位善解人意、富有同情心的心理治疗师。
它利用了人类的这种倾向,即将任何看起来能够与我们交谈的实体归因于智能。

另一项图灵测试竞赛“Prize”允许更多的对话时间,邀请更多的专家评委,并要求参赛者欺骗至少一半的评委。
在近 30 年的年度比赛中,没有任何一台机器通过过该版本的测试。


尽管图灵的原始论文缺少有关如何进行测试的具体细节,但很明显模仿游戏需要三名玩家:一台计算机,一个人类对话者和一个人类裁判。
然而,“图灵测试”一词如今已被严重弱化:在任何人与计算机的交互中,只要计算机看起来足够像人类,就可以了。
例如,当《华盛顿邮报》在 2022 年报道“谷歌的人工智能通过了一项著名的测试——并显示出它存在缺陷”时,他们指的并不是模仿游戏,而是为了设计布莱克的信念,即谷歌的 LaMDA 聊天机器人是“有感知的”。

在学术界,研究人员也将图灵的“三人”模仿游戏改为“二人”测试。
在这里,每个法官只需要与计算机或人类进行互动。

论文地址:
研究人员招募了 500 名人类参与者,每人被分配担任法官或话匣子。
每位评委使用 、GPT-4 或 ELIZA 聊天机器人的某个版本进行一轮五分钟的游戏。
在网络界面上进行五分钟的对话后,评委们猜测他们的对话伙伴是人类还是机器。

结果显示,人类的喋喋不休在 67% 的轮次中被判断为人类;GPT-4 在 54% 的轮次中被判断为人类,ELIZA 在 22% 的轮次中被判断为人类。
作者将“通过”定义为欺骗评委的概率超过 50%,这高于随机猜测所能达到的水平。
按照这个定义,GPT-4 通过了,尽管人类聊天者的得分更高。

那么,这些聊天机器人真的通过了图灵测试吗?答案取决于你指的是哪个版本的测试。
至今,这项由专家评判、较长对话的三人模仿游戏还没有任何机器通过。
但即便如此,图灵测试在流行文化中仍然占有重要地位。
对话是我们每个人评价其他人的重要部分,因此我们很自然地认为,能够流利对话的代理必须具有类似人类的智能和其他心理特征,例如信仰、欲望和自我意识。

如果人工智能的历史教会了我们什么的话,那就是我们对这一假设的直觉大多是错误的。
几十年前,许多杰出的人工智能专家认为,要制造出能够在国际象棋中击败人类的机器,需要具备与人类完全智能相当的水平。
- 人工智能先驱艾伦和西蒙在 1958 年写道:“如果一个人能够设计出一台成功的国际象棋机器,那么他似乎就已经触及人类智力探索的核心。”
- 1979 年,认知科学家预测,未来“可能会出现可以击败任何人的国际象棋程序......它们将成为通用智能程序。”


在接下来的二十年里,IBM 的“深蓝”计算机利用强力计算击败了国际象棋世界冠军加里,但这与我们所说的“通用智能”还相去甚远。
同样地,曾经被认为需要一般智能的任务——语音识别、自然语言翻译甚至自动驾驶——已经由几乎没有人类理解能力的机器完成了。

如今,图灵测试很可能成为我们不断变化的智力观念的又一个牺牲品。
1950 年,图灵直觉地认为,能够进行类似人类的对话应该是“思考”及其相关事物的有力证据。这种直觉至今依然强烈。
但正如我们从 ELIZA 及其同类程序中了解到的那样,能够流利地说自然语言(如下棋)并不能成为一般智力存在的确凿证据。

事实上,根据神经科学的最新研究,语言流畅性与认知的其他方面存在惊人的脱节。
麻省理工学院神经科学家 Ev 和他的同事通过一系列详细而令人信服的实验证明
依赖与语言产生相关的“形式语言能力”的大脑网络与依赖常识、推理和其他“思考”的网络大致是分开的。
“我们直觉地认为流利的语言能力是一般智力的充分条件,但这实际上是一种谬论。”

论文地址:
新的测试正在进行中
那么问题是,如果图灵测试不能可靠地评估机器智能,那么什么可以评估机器智能?
在2023年11月的《心理学》杂志上,普林斯顿大学心理学家莱尔德和德国开姆尼茨工业大学预测分析学教授马可·拉格尼提出了一个不同的测试:
“将模型视为心理学实验的参与者,看看它是否能够理解自己的推理。”

文章网址:
例如,他们会向模型提出这样的问题:“如果安妮很聪明,那么她是聪明、富有,还是两者兼而有之?”
尽管逻辑规则会推断出安妮很聪明、很富有,或者两者兼而有之,但大多数人会拒绝这种推论,因为没有任何背景信息表明她可能很富有。
如果模型也拒绝这种推理,那么它的行为就如同人类一样,研究人员将进入下一步,要求机器解释其推理。
如果它给出的理由与人类相似,第三步是检查源代码中是否有模仿人类表现的组件。这些组件可能包括一个快速推理系统、一个更慎重推理系统和一个根据上下文改变“或”等词语解释的系统。
研究人员认为,如果模型通过了所有这些测试,就可以被认为模拟了人类的智能。
参考:
本文来自微信公众号“新智元”,编辑:浩坤,36氪经授权发布。


