《AI未来指南北》客座作者肖静
“12天科技直播嘉年华”第二天,北京时间12月7日凌晨1点,meta发布了最新开源模型Llama 3.3。 meta 生成人工智能副总裁 Ahmad Al-Dahle 表示
Al-Dahle 在 X 上发布了一张图表,显示 Llama 3.3 70B 在多个行业基准测试中优于 1.5 Pro、 GPT-4o 和亚马逊新发布的 Nova Pro。
Llama 3.3支持除英语之外的7种语言:法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。该模型还引入了多项增强功能,包括更长的 128k 令牌上下文窗口(与 GPT-4o 相比,大约 400 页文本),使其适合长格式内容生成和其他高级用例。该架构结合了分组查询注意 (GQA),以提高推理过程中的可扩展性和性能。
简单来说,Llama用百亿参数实现千亿参数的性能,必然会带来成本的大幅降低。
可以节省多少成本?
GPU显存需求方面,根据博客的数据,Llama 3.1-405B需要243GB到的GPU显存,而Llama 2-70B需要42-168GB的GPU显存。
有媒体报道称,在某些情况下,低参数机型的GPU显存要求甚至可以低至4GB。这意味着,如果部署 Llama 3.3,用户预计可以节省高达 24 倍的内存,从而有可能减少标准 80GB H100 GPU 的 GPU 负载。每个 H100 GPU 的成本约为 25,000 美元,这可能意味着高达 600,000 美元的前期 GPU 成本节省,这还不包括持续的电力成本节省。
现在,Llama 3.3可以通过meta、Face等平台下载。开源许可证是 Llama 3.3 社区许可证。这是一份非排他性、免版税的协议,允许用户合法使用、复制、分发和修改 Llama 3.3 模型。及其输出,支持模型输出的重用,例如合成数据生成和模型蒸馏,但对于每月活跃用户超过 7 亿的大型组织,需要来自 meta 的商业许可证,而不是使用社区许可证。
参考:


