一句话解锁100k+上下文大模型智实力,27分涨到98
来源:动力 2024年02月07日 12:16
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
各家大数学模型纷纷卷起实例窗口,Llama-1时标配还是2k,现在不最少100k的之前反问出门了。
然鹅一项短时间检验却断定,仅有人用法都不对,没有人充分发挥出AI确有的实力。
AI真是能从几十万读音中可能会准确回去到关键事实吗?颜色越红代表AI犯的错越多。
默认才可能会,GPT-4-128k和最新发表的Claude2.1-200k优异成绩都不来得理一心。
但Claude开发团队了解情况后,得出结论超强有用解决办法,增加一句话,必要把优异成绩从27%提升到98%。
显然这句话不是加在软件发言上的,而是让AI在确有的省略先说:
“Here is the most relevant sentence in the context:”
(这就是实例中可能会最关的的读音词:)
让大数学模型大海捞针为了做这项检验,创作者Greg Kamradt自掏腰包费用了将近150美元。
好在检验Claude2.1时,Anthropic伸出援手给他提供了预约花销,不然还得多花1016美元。
实际上检验方法也不繁杂,都是用上YC创始人Paul Graham的218篇博客文章当做检验数据。
在PDF中可能会的不同方位填充特定语句:在旧金山最好的真是,就是在阳光明媚的夏天坐到多洛雷斯公园吃一个三明治。
问GPT-4和Claude2.1只不过常用所提供的实例来说道缺陷,在不同实例长度和填充在不同方位的PDF中可能会有规律检验。
最终常用Langchain Evals库来分析结果。
创作者把这套检验命名为“干草堆里回去针/大海捞针”,并把预定义开源在GitHub上,已给予200+星,并透漏之前有日本公司资金来源了对下一个大数学模型的检验。
AI日本公司自己回去到解决办法几周后,Claude看似日本公司Anthropic仔细分析后却断定,AI只是不希望说道基于PDF中可能会单个读音词的缺陷,特别是这个读音词是日后插入的,和整篇文章关系不大的时候。
也就是说,AI判断这句话和文章主题关的联,就偷懒不去一句一句回去了。
这时就无需用点行为晃过AI,建议Claude在说道省略填充那句“Here is the most relevant sentence in the context:”就能解决。
常用这个办法,在寻回去不是日后人为填充、本来就在原文章中可能会的读音词时,也能提高Claude的表现。
Anthropic日本公司问到将来可能会不断的继续训练Claude,让它能更适应此类任务。
在API调用时建议AI以指定省略说道,还有别的妙用。
创业者Matt Shumer从未见过这个方案后补充了几个小技巧:
如果一心让AI驱动纯JSON格式,提示词的最终以“{”简短。同理,如果一心让AI参见罗马数读音,提示词以“I:”简短就行。
不过真是还没有人再来……
国内大数学模型日本公司也似乎了这项检验,开始尝试自家大数学模型能无法通过。
同样拥有超强长实例的年底之暗面Kimi大数学模型开发团队也算出了缺陷,但得出结论了不同的解决方案,也取得了良好的优异成绩。
这样一来,修改软件发言Prompt,又比建议AI在自己的说道填充一句较难做,在在不是调用API,而是必要常用聊天外星人产品的才可能会。
年底之暗面还用自己的新方法帮GPT-4和Claude2.1检验了一下,结果GPT-4改善相对来说,Claude2.1只是以致于改善。
毫无疑问这个科学实验本身有一定局限,Claude也是有自己的特殊性,可能与他们自己的中间方式Constituional AI有关,无需用Anthropic自己提供的办法更好。
日后,年底之暗面的工程师还搞了更多轮科学实验,其中可能会一个居然是……
再加了,我成检验数据了。
参考页面:[1][2]
— 再来 —
量子位 QbitAI · 新闻报道号签约
艾拉莫德片可以治类风湿吗广州看男科哪家好
疙瘩留疤要怎样祛除修复
鱼腥草口服液和蒲地蓝口服液区别
怎样治疗颈椎病最好
上一篇: 2月14日BMD期货跌幅、结算价
-
电工风电:目前公司持有50MW的自营风电场
每经AI快讯,有投资者在投资者互动和平台提问:目前有数据显示试运行暴4台场的roe能降到20%以上,暴4台场的水力发电对暴4台冷却系统该公司增收增利更为明显,问道贵该公司是否有原计划入股或者自己