Claude 深夜上新 API 长文本缓存功能,降本效果惊人

   日期:2024-08-16     来源:网络整理    作者:二手钢材网    浏览:179    评论:0    
核心提示:提示词缓存的作用,就是一次给模型发送大量prompt,然后让它记住这些内容,并在后续请求中直接复用,避免反复输入。由于不需要反复输入重复的脚本,提示词缓存具有速度更快、成本更低这两大优势。

新的 API 可以“记住”整本书或代码库,无需重新输入。

这样一来,不仅处理长文本的延迟会更低,成本也能节省高达90%。

我们来看看这样降低成本的效果吧~

企业如何降低用电成本__银行降低企业融资成本

△ 假设重复部分为10000个token,模型为3.5,只计算输入

今年5月份,在一次更新中提出了这一功能,随后是Kimi和中国区的团队,现在又轮到它了。

值得一提的是,厂商推文中提到,提示词缓存功能可以让用户用更长、更有指导意义的提示词对模型进行“微调”。

企业如何降低用电成本_银行降低企业融资成本_

有网友看到后感叹,本来就已经让人难以区分即时工程()和微调,现在更是难以区分。

企业如何降低用电成本__银行降低企业融资成本

当然,在这样的场合,难免有人会明确或不明确地向隔壁的人发出提示。

_企业如何降低用电成本_银行降低企业融资成本

成本节省高达 90%

提示词缓存的目的是一次性向模型发送大量内容,让它记住这些内容,并在后续的请求中直接重用,避免重复输入。

对此,博主Dan做了这样的比喻:

假设你在一家咖啡馆,第一次点餐时,你需要告诉服务员你想要什么,但下次去的时候,你只需要说“跟平时一样”就可以了。

_银行降低企业融资成本_企业如何降低用电成本

不过要注意的是,缓存的有效期是五分钟,不过每次读取的时候都会重置定时器,所以如果你一直问问题也不用担心。

官方文档也介绍了几种典型的应用场景,非常适合代码和长文档的处理。

_银行降低企业融资成本_企业如何降低用电成本

由于不需要反复输入重复的脚本,提示词缓存具有速度更快、成本更低的优点。

比如,基于一本十万字的书进行对话时,之前的模型需要11.5秒才能生成第一个输出Token,但是有了提示词缓存之后,只需要2.4秒,时间缩短了79%,成本降低了90%。

在其他场景中,延迟和成本也不同程度地降低。

企业如何降低用电成本_银行降低企业融资成本_

定价方面,原有输入、输出token价格保持不变,而提示字缓存的价格分为写入和读取两个部分。

最小的Haiku每百万代币的写入价格为30美分(约合人民币2.1元),读取价格为3美分。

3.5 是写作 3.75 美元,阅读 0.3 美元。最大的 Opus 是 18.75 美元和 1.5 美元。

可以看出,初次写入的价格相对于输入要高,但是读取的价格却只有重复输入的十分之一。

也就是说,重复读取缓存的次数越多,相对于重新进入来说节省的成本就越大。

企业如何降低用电成本__银行降低企业融资成本

举个例子,假设你要发送1万个请求,其中有1万个重复请求,如果不使用缓存的话,总投入就是1亿,也就是300美元。

但如果开启缓存的话,只需要花费1÷100×3.75+1×10000÷100×0.3=30.03美元,节省近90%。

假设重复调用次数为10000次,下图显示随着调用次数的增加,成本优势越来越明显。

企业如何降低用电成本__银行降低企业融资成本

这对于开发者来说无疑是一大利好。

AI写作工具创始人兼首席执行官马特表示,这次更新意义重大。

这意味着人们可以以较低的成本给模型喂入一整套代码库,然后要求新的特征;或者打破每次只能输入 5 个 RAG 的限制,直接输入大量文档;或者直接给出数百个例子来得到“比微调更好的结果”。

银行降低企业融资成本_企业如何降低用电成本_

目前该功能支持3 Haiku和3.5,Opus将会在稍后更新。

顶级球员也纷纷效仿

此功能并非首创,今年 5 月, 已支持上下文缓存。

随后,月之暗面的Kimi以及中国的深海探索队也跟进。

值得一提的是,团队将该技术的存储介质替换为硬盘,也降低了存储成本。

触发方式也有所不同,比如系统会自动判断哪些内容需要缓存,而调用时则需要手动添加标签。

虽然各个公司对于细节的处理方式各有不同,但这款新机型已经获得了国内外顶尖玩家的青睐,并有可能成为未来大型机型厂商的新标准。

参考链接:

[1]

[2]

[3]

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2