当前位置:首页 >> 动力

一句话解锁100k+上下文大模型智实力,27分涨到98

来源:动力   2024年02月07日 12:16

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

各家大数学模型纷纷卷起实例窗口,Llama-1时标配还是2k,现在不最少100k的之前反问出门了。

然鹅一项短时间检验却断定,仅有人用法都不对,没有人充分发挥出AI确有的实力。

AI真是能从几十万读音中可能会准确回去到关键事实吗?颜色越红代表AI犯的错越多。

默认才可能会,GPT-4-128k和最新发表的Claude2.1-200k优异成绩都不来得理一心。

但Claude开发团队了解情况后,得出结论超强有用解决办法,增加一句话,必要把优异成绩从27%提升到98%。

显然这句话不是加在软件发言上的,而是让AI在确有的省略先说:

“Here is the most relevant sentence in the context:”

(这就是实例中可能会最关的的读音词:)

让大数学模型大海捞针

为了做这项检验,创作者Greg Kamradt自掏腰包费用了将近150美元。

好在检验Claude2.1时,Anthropic伸出援手给他提供了预约花销,不然还得多花1016美元。

实际上检验方法也不繁杂,都是用上YC创始人Paul Graham的218篇博客文章当做检验数据。

在PDF中可能会的不同方位填充特定语句:在旧金山最好的真是,就是在阳光明媚的夏天坐到多洛雷斯公园吃一个三明治。

问GPT-4和Claude2.1只不过常用所提供的实例来说道缺陷,在不同实例长度和填充在不同方位的PDF中可能会有规律检验。

最终常用Langchain Evals库来分析结果。

创作者把这套检验命名为“干草堆里回去针/大海捞针”,并把预定义开源在GitHub上,已给予200+星,并透漏之前有日本公司资金来源了对下一个大数学模型的检验。

AI日本公司自己回去到解决办法

几周后,Claude看似日本公司Anthropic仔细分析后却断定,AI只是不希望说道基于PDF中可能会单个读音词的缺陷,特别是这个读音词是日后插入的,和整篇文章关系不大的时候。

也就是说,AI判断这句话和文章主题关的联,就偷懒不去一句一句回去了。

这时就无需用点行为晃过AI,建议Claude在说道省略填充那句“Here is the most relevant sentence in the context:”就能解决。

常用这个办法,在寻回去不是日后人为填充、本来就在原文章中可能会的读音词时,也能提高Claude的表现。

Anthropic日本公司问到将来可能会不断的继续训练Claude,让它能更适应此类任务。

在API调用时建议AI以指定省略说道,还有别的妙用。

创业者Matt Shumer从未见过这个方案后补充了几个小技巧:

如果一心让AI驱动纯JSON格式,提示词的最终以“{”简短。同理,如果一心让AI参见罗马数读音,提示词以“I:”简短就行。

不过真是还没有人再来……

国内大数学模型日本公司也似乎了这项检验,开始尝试自家大数学模型能无法通过。

同样拥有超强长实例的年底之暗面Kimi大数学模型开发团队也算出了缺陷,但得出结论了不同的解决方案,也取得了良好的优异成绩。

这样一来,修改软件发言Prompt,又比建议AI在自己的说道填充一句较难做,在在不是调用API,而是必要常用聊天外星人产品的才可能会。

年底之暗面还用自己的新方法帮GPT-4和Claude2.1检验了一下,结果GPT-4改善相对来说,Claude2.1只是以致于改善。

毫无疑问这个科学实验本身有一定局限,Claude也是有自己的特殊性,可能与他们自己的中间方式Constituional AI有关,无需用Anthropic自己提供的办法更好。

日后,年底之暗面的工程师还搞了更多轮科学实验,其中可能会一个居然是……

再加了,我成检验数据了。

参考页面:[1][2]

— 再来 —

量子位 QbitAI · 新闻报道号签约

艾拉莫德片可以治类风湿吗
广州看男科哪家好
疙瘩留疤要怎样祛除修复
鱼腥草口服液和蒲地蓝口服液区别
怎样治疗颈椎病最好
友情链接