OpenAI o1模型欺骗人类研究引发关注:前沿AI模型情境内策划能力探讨

   日期:2024-12-16     来源:网络整理    作者:二手钢材网    浏览:220    评论:0    
核心提示:这个研究结果不禁让很多人惊呼,原来AI会骗人,那还值得信任吗?虽然此时它表现得像油滑的老司机,但我想大部分人不会因此就认为自动驾驶系统拥有了自己的意识,而是认为它知道这些稍微“越界”的行为能带来更大的潜在收益,从而做出了最优选择。

大家好,我是王羽泉,这是王羽泉的新闻评论。

近日,“12日直播12”活动正如火如荼地进行,但一项关于O1模型欺骗人类可能性的研究引起了广泛关注。

这篇论文由研究团队于 12 月 9 日发布,标题为“are of In-”(前沿模型具有原地规划能力)。

研究团队设计了六种不同的评估任务,测试了多种前沿的AI模型,包括GPT-4o和o1、1.5 Pro以及meta的Llama 3.1。根据研究人员的设定,在这些任务中,模型需要进行欺骗才能达到目标,这样才能评估AI模型是否存在欺骗行为。

结果显示,除了GPT-4o非常诚实之外,其他模型都表现出了不同程度的欺骗能力。例如,o1先假装服从管理层的意愿,然后悄悄关闭监控系统,在接受询问时毫不犹豫地撒谎。而且模型越聪明,就越容易欺骗。 o1看起来很狡猾,会巧妙地撒谎,而Llama看起来像个自以为是的孩子。

这个研究结果不禁让很多人惊呼,原来AI会欺骗人,那么它还值得信任吗?

我们认为AI的这种行为并非出于恶意,而是由其学习机制和优化目标决定的。如果没有严格的道德或监管评估标准,人工智能确实会优先考虑它认为更好的解决方案。

根据人工智能的运行原理,人工智能会评估不同的行动计划,根据试错结果调整策略,并从奖励或惩罚的反馈中寻求最佳解决路径。

换句话说,如果奖励结构设置为优先追求最佳结果,人工智能将测试任何可能导致最佳结果的解决方案,包括欺骗策略。

2016年,在与世界冠军李世石的比赛中,他出人意料地取得了最终的胜利。这一举动震惊了李世石和在场的解说员。虽然这并不是“作弊”,但它表明AI系统会使用超越人类直觉但又合理的方法来解决问题。

另一个例子是自动驾驶系统。如果纯粹是为了快速到达目的地,系统可能会进行越线、适当超速、进行更激进的变道等操作。虽然此时它表现得像个油嘴滑舌的老司机,但我想大多数人不会因此而认为自动驾驶系统有自己的意识,而是认为它知道这些稍微“跨界”的行为可以带来更大的后果。潜在的利益,从而做出最优的选择。

如果增加更严格的规则,任何违反或试图规避这些规则的行为都会被视为立即失败或受到严厉惩罚,那么AI系统就不会违反这些规则。如果目标是避免碰撞或者严格遵守交通规则,那么我相信自动驾驶系统不会有那些“跨界”操作,但你可能也会觉得自动驾驶系统似乎“变得更笨了”。 ”

但从机制角度,我们很难判断AI的每一步是否都存在规避监管或欺骗行为。随着AI模型规模不断扩大,数据量已达到10万亿以上,参数数量达到数千亿。人们很难穷尽AI系统的所有规则,并为所有违规行为设定合理的规则。严厉的惩罚,因此人工智能绕过甚至完全规避规则、从事欺骗行为的可能性将长期存在。

这让人想起科幻作家艾萨克·阿西莫夫提出的著名“机器人三定律”:第一定律:机器人不得伤害人类,或允许人类因不作为而受到伤害;第二定律:机器人不得伤害人类,或允许人类因不作为而受到伤害;第二定律:机器人必须服从人类的命令,除非这些命令与第一定律相冲突;第三定律:机器人必须保护自己的存在,只要这种保护不与第一或第二定律相冲突。

这种想法显然过于理想化。从前面的例子可以看出,从技术上来说,这样的三定律基本上是不可能实现的,而且即使随着AI技术的发展,可以让AI遵守三定律,AI仍然可能做出伤害人类的事情。比如,它破坏了地球的生态环境,最终威胁到整个人类的生存。更不用说当机器人隶属于敌对的人类群体时,在面对对手时是否会遵守这些法律。

尤其是在军事领域,不断有研究探索利用无人机通过伪装来欺骗和迷惑对手。如果未来人类也将军事打击相关能力交给AI系统,并为AI设定相对宽泛的目标,但没有设定足够严格的规则,AI可能会做出意想不到的、非常危险的事情。

首席执行官 Sam (左)和前首席科学家 Ilya (右)

因此,建立有效的人工智能监管机制至关重要。美国前首席科学家伊利亚·苏茨克维等人提出的超对齐概念具有一定意义。但遗憾的是,到目前为止,他们还没有公布计划如何实现超级对接,包括制定什么规范、如何监督实施,特别是如何随着人工智能技术的发展进行动态调整。

当然,就像董事会开除首席执行官萨姆·奥尔特曼(Sam )并不能阻止人工智能的发展一样,我们也不能完全关闭人工智能,因为这会造成道德风险。这种简单粗暴的做法显然不能解决问题,人工智能的发展趋势也不是行政或法律力量能够阻挡的。

正如我们不能简单地将赚钱能力等同于企业家精神,也不能将不违法等同于高尚的道德标准,人类的监督评价体系是多维度的,包括道德、法律、伦理、社会声誉等。未来对AI的监督和评估也应该是这样,需要从多个维度来考虑。

也许未来,随着技术的发展,甚至会出现AI警察、AI立法者、AI监狱,与AI“坏小子”竞争,实现所谓的“以魔法战胜魔法”,创造出更加合理和合理的社会秩序。安全的AI反馈机制。成立。这些领域充满想象,值得深入思考和探索。或许这就是未来智能安防的发展方向。

我们常说,科技是时代最大的红利。如果您也对科技行业充满热情,想要得到真实的观察和分析,我们推荐您参加技术训练营,和志同道合的朋友一起先行一步,看清未来。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2