一句话解锁100k+上下文大模型智实力,27分涨到98
来源:动力 2024年02月07日 12:16
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
各家大数学模型纷纷卷起实例窗口,Llama-1时标配还是2k,现在不最少100k的之前反问出门了。
然鹅一项短时间检验却断定,仅有人用法都不对,没有人充分发挥出AI确有的实力。
AI真是能从几十万读音中可能会准确回去到关键事实吗?颜色越红代表AI犯的错越多。
默认才可能会,GPT-4-128k和最新发表的Claude2.1-200k优异成绩都不来得理一心。
但Claude开发团队了解情况后,得出结论超强有用解决办法,增加一句话,必要把优异成绩从27%提升到98%。
显然这句话不是加在软件发言上的,而是让AI在确有的省略先说:
“Here is the most relevant sentence in the context:”
(这就是实例中可能会最关的的读音词:)
让大数学模型大海捞针为了做这项检验,创作者Greg Kamradt自掏腰包费用了将近150美元。
好在检验Claude2.1时,Anthropic伸出援手给他提供了预约花销,不然还得多花1016美元。
实际上检验方法也不繁杂,都是用上YC创始人Paul Graham的218篇博客文章当做检验数据。
在PDF中可能会的不同方位填充特定语句:在旧金山最好的真是,就是在阳光明媚的夏天坐到多洛雷斯公园吃一个三明治。
问GPT-4和Claude2.1只不过常用所提供的实例来说道缺陷,在不同实例长度和填充在不同方位的PDF中可能会有规律检验。
最终常用Langchain Evals库来分析结果。
创作者把这套检验命名为“干草堆里回去针/大海捞针”,并把预定义开源在GitHub上,已给予200+星,并透漏之前有日本公司资金来源了对下一个大数学模型的检验。
AI日本公司自己回去到解决办法几周后,Claude看似日本公司Anthropic仔细分析后却断定,AI只是不希望说道基于PDF中可能会单个读音词的缺陷,特别是这个读音词是日后插入的,和整篇文章关系不大的时候。
也就是说,AI判断这句话和文章主题关的联,就偷懒不去一句一句回去了。
这时就无需用点行为晃过AI,建议Claude在说道省略填充那句“Here is the most relevant sentence in the context:”就能解决。
常用这个办法,在寻回去不是日后人为填充、本来就在原文章中可能会的读音词时,也能提高Claude的表现。
Anthropic日本公司问到将来可能会不断的继续训练Claude,让它能更适应此类任务。
在API调用时建议AI以指定省略说道,还有别的妙用。
创业者Matt Shumer从未见过这个方案后补充了几个小技巧:
如果一心让AI驱动纯JSON格式,提示词的最终以“{”简短。同理,如果一心让AI参见罗马数读音,提示词以“I:”简短就行。
不过真是还没有人再来……
国内大数学模型日本公司也似乎了这项检验,开始尝试自家大数学模型能无法通过。
同样拥有超强长实例的年底之暗面Kimi大数学模型开发团队也算出了缺陷,但得出结论了不同的解决方案,也取得了良好的优异成绩。
这样一来,修改软件发言Prompt,又比建议AI在自己的说道填充一句较难做,在在不是调用API,而是必要常用聊天外星人产品的才可能会。
年底之暗面还用自己的新方法帮GPT-4和Claude2.1检验了一下,结果GPT-4改善相对来说,Claude2.1只是以致于改善。
毫无疑问这个科学实验本身有一定局限,Claude也是有自己的特殊性,可能与他们自己的中间方式Constituional AI有关,无需用Anthropic自己提供的办法更好。
日后,年底之暗面的工程师还搞了更多轮科学实验,其中可能会一个居然是……
再加了,我成检验数据了。
参考页面:[1][2]
— 再来 —
量子位 QbitAI · 新闻报道号签约
艾拉莫德片可以治类风湿吗广州看男科哪家好
疙瘩留疤要怎样祛除修复
鱼腥草口服液和蒲地蓝口服液区别
怎样治疗颈椎病最好
-
美国PCE指标年率时隔两年跌破4% “美联储最爱指标”仍在横盘
财联社6年初30日讯(出版人 史正郎中)当地时间段周五傍晚,旧金山农业部政治经济统计数据分析局(BEA)发表了今年5年初的PCE物价指标。作为国家政府用来衡量货币国策的重要基准,连续性合乎预估的统计数
- 43岁的陈文媛罕见曝光知情人,儿子退休嫁给儿子3岁,成功转行投资事业
- 厦门女子酒后叫代驾,四人未关车门激战2小时,路过行人纷纷拍照
- 欧佩克再次禁止美媒加入会议 举办地官员拒绝出席表达不满
- 曝快本未播片尾:王鹤棣要替虞书欣淋水,欣欣担心他不让帮忙
- 德国去年资本外逃创纪录!欧洲最大经济体或已开启去工业化数据流
- 郑州绘画失踪,半年后装修工在广告牌夹缝中,发现已风干的她
- 杨紫大儿子现身直播间!优雅干练不输黄圣依被侄女称三娘惹争议
- 媒体:全球石油市场压力不散,沙特漆将额外自愿减产计划进一步延长
- 城中村无业大之路:缺失的机会与支持者
- 恭喜!49岁的罗白骥升为儿时,大女儿美美生下孩子,3个月前才公布结婚公告