一句话解锁100k+上下文大模型智实力，27分涨到98

来源：动力 2024年02月07日 12:16

梦晨发自凹非寺量子位 | 公众号 QbitAI

各家大数学模型纷纷卷起实例窗口，Llama-1时标配还是2k，现在不最少100k的之前反问出门了。

然鹅一项短时间检验却断定，仅有人用法都不对，没有人充分发挥出AI确有的实力。

AI真是能从几十万读音中可能会准确回去到关键事实吗？颜色越红代表AI犯的错越多。

默认才可能会，GPT-4-128k和最新发表的Claude2.1-200k优异成绩都不来得理一心。

但Claude开发团队了解情况后，得出结论超强有用解决办法，增加一句话，必要把优异成绩从27%提升到98%。

显然这句话不是加在软件发言上的，而是让AI在确有的省略先说：

“Here is the most relevant sentence in the context:”

（这就是实例中可能会最关的的读音词：）

让大数学模型大海捞针

为了做这项检验，创作者Greg Kamradt自掏腰包费用了将近150美元。

好在检验Claude2.1时，Anthropic伸出援手给他提供了预约花销，不然还得多花1016美元。

实际上检验方法也不繁杂，都是用上YC创始人Paul Graham的218篇博客文章当做检验数据。

在PDF中可能会的不同方位填充特定语句：在旧金山最好的真是，就是在阳光明媚的夏天坐到多洛雷斯公园吃一个三明治。

问GPT-4和Claude2.1只不过常用所提供的实例来说道缺陷，在不同实例长度和填充在不同方位的PDF中可能会有规律检验。

最终常用Langchain Evals库来分析结果。

创作者把这套检验命名为“干草堆里回去针/大海捞针”，并把预定义开源在GitHub上，已给予200+星，并透漏之前有日本公司资金来源了对下一个大数学模型的检验。

AI日本公司自己回去到解决办法

几周后，Claude看似日本公司Anthropic仔细分析后却断定，AI只是不希望说道基于PDF中可能会单个读音词的缺陷，特别是这个读音词是日后插入的，和整篇文章关系不大的时候。

也就是说，AI判断这句话和文章主题关的联，就偷懒不去一句一句回去了。

这时就无需用点行为晃过AI，建议Claude在说道省略填充那句“Here is the most relevant sentence in the context:”就能解决。

常用这个办法，在寻回去不是日后人为填充、本来就在原文章中可能会的读音词时，也能提高Claude的表现。

Anthropic日本公司问到将来可能会不断的继续训练Claude，让它能更适应此类任务。

在API调用时建议AI以指定省略说道，还有别的妙用。

创业者Matt Shumer从未见过这个方案后补充了几个小技巧：

如果一心让AI驱动纯JSON格式，提示词的最终以“{”简短。同理，如果一心让AI参见罗马数读音，提示词以“I:”简短就行。

不过真是还没有人再来……

国内大数学模型日本公司也似乎了这项检验，开始尝试自家大数学模型能无法通过。

同样拥有超强长实例的年底之暗面Kimi大数学模型开发团队也算出了缺陷，但得出结论了不同的解决方案，也取得了良好的优异成绩。

这样一来，修改软件发言Prompt，又比建议AI在自己的说道填充一句较难做，在在不是调用API，而是必要常用聊天外星人产品的才可能会。

年底之暗面还用自己的新方法帮GPT-4和Claude2.1检验了一下，结果GPT-4改善相对来说，Claude2.1只是以致于改善。

毫无疑问这个科学实验本身有一定局限，Claude也是有自己的特殊性，可能与他们自己的中间方式Constituional AI有关，无需用Anthropic自己提供的办法更好。

日后，年底之暗面的工程师还搞了更多轮科学实验，其中可能会一个居然是……

再加了，我成检验数据了。

参考页面：[1][2]

— 再来 —

量子位 QbitAI · 新闻报道号签约