推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

开源 AI 界扛把子 Meta AI 发布 Llama3.1，性能超越 ChatGPT4o 和 Claude3.5-Sonnet

日期：2024-07-26 来源：网络整理作者：二手钢材网浏览：179 评论：0

核心提示：数据和运算规模上去了，能力肯定也就上来了，突出一个力大砖飞。主要官方给的这个模型版本，相当于一个完全没优化的基本型号，毛坯房。而它的优势在于后期用户可以在它里面安排各种定制化操作，相当于把毛坯房翻修出花来，到时候才会展现这玩意的真正功力。

而打脸的那个人，还是上次的那个，元宇宙的倡导者，曾经的半职业拳击手，一个潜伏在硅谷的纯蜥蜴人，扎克伯格。

好吧，不要卖它，简单地说，开源 AI 社区是 meta AI 的领导者，昨晚他们更新了他们最新最强的大模型 .1。

这个东西跟上次一样，也是三个版本，除了参数数量相同80亿和700亿外，这次最吸引眼球的是他们的超大杯，在老黄数万张显卡的供应下，小扎的新款使用了整整4050亿的参数！

而且它的性能也据称已经完全赶上了和.5-，甚至在长文本和数学等方面超过了它们。这一次，是开源的胜利！

硅谷的其他大佬们也相当看好这个模式，斯坦福大学计算机科学教授、谷歌AI负责人吴恩达感叹说，meta的这次更新是送给大家的一份很棒的礼物。

英伟达科学家、AI Lab负责人Jim Fan甚至认为，GPT-4的力量已经传递给了所有人，这是一个历史性的时刻！

不少媒体也炸开了锅，声称通往AGI的道路近在咫尺，但我还是给世界第一泼了一盆冷水，并建议大家不要先冲进狂热，因为meta AI官方这次也发布了.1的详细论文，长达90页。

这个版本有什么改进的地方，是不是真的这么吹牛，其实都写在了纸上。

_壳模壳芯是什么意思_小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

我们还花了一下午的时间进行研究，发现这篇论文涵盖了预处理、生成训练、推理训练、退火迭代、多模态评估等过程，但核心其实是关于两件事，一是训练量大，二是在训练中做了一些优化。

首先，我们来谈谈训练，他们在算力和数据的扩展上投入了大量的精力。

毕竟，人们使用 16,000 台 H100，运行 3930 万 GPU 小时（相当于每个区块 10,000 小时的计算）。运营规模扩大了50倍，增加了15万亿个单词，包括多种语言，相当于7500亿个单词，而上一版本为1.8万亿个。模型上下文窗口也从 8K 扩展到 128K，扩大了 16 倍。

数据和计算的规模上去了，能力肯定上来了，凸显了一块大砖头。毕竟东西这么多，我们大概率学不到它们，但是别人的AI真的是学会了。

其次，除了死记硬背之外，培训内容的优化和微调也非常重要，这也是他们能够快速提高的另一个原因。例如，当他们第一次开始处理训练信息时，他们使用一些算法来清理重复的内容和垃圾邮件，并提高训练数据的质量。

别说这个操作不重要，上次一个知名的AI翻车了中文垃圾邮件，就成了笑风生、大方大方的典型例子。

壳模壳芯是什么意思_小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？_

在这里，他们描述了两种算法的步骤，即重复数据删除和启发式过滤

在模型结构上，为了照顾到如此大量的数据训练，meta 也做了很多改进，比如将训练数据的精度从 16 位降低到 8 位，不仅可以节省存储空间，还可以方便计算，有利于移动端部署。

然而，其他厂商没有预料到这种方法，但降低精度可能会增加误差，导致大模型的性能降低，而meta在这个过程中就是通过“行级量化”等世界前所未闻的算法，来掌握这种误差的程度，并试图达到两全其美的效果。

此外，他们还放弃了传统的强化学习算法进行模型后处理，选择依靠测试人员的标注和监督，边给出反馈边迭代。

虽然这样成本较高，但可以增加.1的可扩展性，即未来将增加的图像、语音、视频识别等功能，产生的结果将更加自然，符合人类的认知。

尽管月活跃用户超过7亿的厂商仍需先申请，但已有25家公司正式宣布，希望发布基于.1的新模式。

小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？_壳模壳芯是什么意思_

不仅有亚马逊、戴尔这样的大公司，也有Grop这样的尖端小工厂，还有AI幕后的英伟达......

是的，老黄也完全接受了开源，并希望在他的人工智能服务中使用 .1。

说了这么多，这个对羊驼的攻击真的有那么好用吗？我们尝试了一下，发现在某些地方它做得非常好，而在另一些地方它也翻车了。

例如，在长文本阅读领域，它有时表现还不错，我们在要求它回答十几轮问题之前测试了这个概念，发现它确实对当时在回答中给出的信息做出了反应。

但当面对没有提供的信息时，他也会胡说八道。例如，当我们问他是哪一年发布的时，他不能肯定地说，因为它的训练数据一直到去年年底。

在经典的智障训练的情况下，.1也会抽象，真的不如隔壁。

壳模壳芯是什么意思__小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

顶部数字是 .1，底部数字是

在数据推理方面，他解决不了前几天被很多AI打败的9.11、9.9的大问题。

与GPT-4o相比，.1的表现不能说和GPT-4o有什么不同，只能说做兄弟很难，甚至装模作样地解释他们的错误答案。

而隔壁——就给这两个家伙打纱布，看看他们的推理，难怪他们的分数比你们两个高。

- 左边是 GPT-4o-mini，右边是 GPT-4o-mini

这不是一个根本不起作用的.1吗？也就是说，尽管上面显示了一些展期情况，但这并不能代表 .1 的真实强度。

壳模壳芯是什么意思__小扎新开源的Llama3.1，要带着套壳大模型追平GPT-4o？

这个模型的主要正式版本相当于一个根本没有优化的基础模型，粗糙的房间。而它的好处是，用户可以在后期在其中安排各种定制化的操作，相当于翻新了毛坯房间，然后这个东西的真正力量就会显现出来。

也就是说，Llama 的意义在于开源后创作者的调优和微操作，这也是这类开源模式的独特性。

然而，这并不意味着 meta 一下子就翻身了，这比真棒还要好。虽然开源的 .1 会非常具有可扩展性，但毕竟它的基础并不算太落后。

而meta在发挥其实力的时候，人们绝对不是闲着的，而且很有可能会带来新的领先优势。归根结底

，开源和闭源各有优势，但不一定是谁会颠覆谁。

从 3 到 3.1，确实是开源方的胜利，但后续是否如扎克伯格在昨天的采访中所说的那样，Llama 会成为 AI 时代的 Linux，其实现在还不好说，也可能成为 iOS 和的共存。

至于依托开源LLM模型能否走上AGI之路，扎克伯格挺看好的，但AI圈的老熟人杨乐坤还是觉得还不是个未知数。

不过，对于这次在.1中取得的进展，他说：虽然不能是AGI，但确实有用。

作者通過： Naxi

标签： LLaMa3 Claude3 论文研究训练优化

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

开源 AI 界扛把子 Meta AI 发布 Llama3.1，性能超越 ChatGPT4o 和 Claude3.5-Sonnet

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司