GPT-4写代码能力提升21%！MIT新方法让LLM学会反思网友：和人类的思考方式一样_网络消费网

GPT-4再度进化！

(资料图片仅供参考)

加上一个简单方法，就能让GPT-4这类大语言模型学会自我反思，性能直接提升30%。

在此之前，大语言模型回答出错，经常是二话不说，直接先道歉，然后emmmmmm，继续乱猜。

现在，它不会这样了，有了新方法的加成，GPT-4不仅会反思自己哪里错了，还会给出改进策略。

比如说它会自动分析为什么“陷入循环”：

或者说反思一下自己有缺陷的搜索策略：

这是美国东北大学联合MIT发表的最新论文中的方法：Reflexion。

不仅适用于GPT-4，也适用于其他大语言模型，让它们学会人类特有的反思能力。

目前该论文已经发表在预印平台arxiv上。

这把直接让网友直呼“AI进化的速度已经超过我们适应的能力了，我们要被毁灭了。”

甚至有网友为开发人员发来“饭碗警告”：

用这种方法写代码的时薪是要比普通开发人员便宜的。

利用二元奖励机制实现反思

正如网友所言，Reflexion赋予GPT-4的反思能力和人类的思考过程差不多：

可以简单用两个字来概括：反馈。

在这个反馈过程中，又可以分为三大步：

1、评估：测试当前生成答案的准确性

2、自我反省的产生：错误识别——实现修正

3、执行一个迭代反馈循环

在第一步评估的过程中，首先要经历的是LLM（大语言模型）的自我评估。

也就是说LLM在还没有外部反馈时，首先要自己对答案进行反思。

那如何进行自我反思？

研究团队使用了一个二元奖励机制，为LLM在当前状态下执行的操作赋值：

1代表生成的结果OK，0则表示生成的结果不太行。

而之所以采用二元而非多值或连续输出这类更具描述性的奖励机制，原因和没有外部输入有关。

要在没有外部反馈的条件下进行自我反思，必须将答案限制在二元状态下，只有这样，才能迫使LLM做出有意义的推断。

在自我评估结束之后，如果二元奖励机制输出为1，则不启动自我反思装置，若为0，LLM则会开启反思模式。

在反思的过程中，模型会触发一个启发性函数h（如下），类比人类思考过程，h起到的作用就像是监督一样。

不过，同人类思考一样，LLM在反思的过程中同样也有局限性，这在函数中的Ω和ε中就能体现。

Ω表示重复连续动作的次数，一般会将这个数值设置为3，这表示反思过程中若重复一个步骤三次，会直接跳到下一个步骤。

而ε则表示在反思的过程中允许执行的最大操作数量。

既然有监督，那修正也必须执行，修正过程的函数是这样子的：

其中，自我反思模型是通过“特定领域的失败轨迹和理想反射对”训练而来的，并不允许访问数据集中给定问题的特定领域的解决方案。

这样一来，LLM在反思的过程中便能够迸发出更多有“创新性”的东西。

反思之后性能提升近30%

既然GPT-4这类LLM都能够进行自我反思了，那具体效果究竟如何？

研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。

在HotpotQA的100个问答对测试中，使用Reflexion这种方法的LLM显示出了巨大的优势，再经过多轮反思重复提问之后，LLM的性能提升了接近30%。

而没有使用Reflexion，在重复问答之后，性能没有任何变化。

在HotpotQA的134个问答对测试中，可以看出在Reflexion的加持下，LLM经过多轮反思后，准确率一度达到97%。

在另外一篇博客中，团队成员也晒出了他们这种方法在GPT-4上的效果，测试范围是编写代码。

结果也显而易见，用了Reflexion，GPT-4的编程能力直接提升了21%。

关于GPT-4已经会“思考”了，你怎（huang）么（le）看（ma）？

推荐内容

火速变现微软开始在ChatGPT聊天中插广告

2023-03-30
全球播报:美参议员反对封禁TikTok：不喜欢别用宪法没有赋予封禁权

2023-03-30
一枚超2亿元的腕表背后：“表王”百达翡丽的危机

2023-03-29
环球看点！3亿个工作将被ChatGPT取代更要担心的却不是失业

2023-03-29
当前聚焦：赛博难民打响反AI第一枪

2023-03-29
天天实时：谁在取代老干妈？

2023-03-29
天天新资讯：你现在听的歌很可能是AI唱的

2023-03-29
每日速看!快手CEO程一笑：生成式AI与业务场景融合价值潜力大

2023-03-29
环球消息！几十家品牌店遭“炸店”？拼多多小二朋友圈怒斥

2023-03-29
“土地”价格暴跌、巨头退出元宇宙凉凉了

2023-03-29
快手2022年营收达942亿元同比增长16.2%

2023-03-29
AI为电商带来了什么？

2023-03-29
全球快报:百度自研国内首个开源图数据库：Apache HugeGraph1.0.0版本发布

2023-03-29
环球视点！理想汽车CEO赞比亚迪：整车成本管理显著优于特斯拉

2023-03-29
天天报道:宁德时代辟谣欧洲第二座电池工厂陷入停滞传闻：假的正按计划进行

2023-03-29
焦点滚动:B站“剪刀手”：在达摩克里斯之剑下求生

2023-03-29
“危险！立刻停下所有大型AI研究！”马斯克领衔，1000多名硅谷企业家科学家联名呼吁

2023-03-29
微软Bing Chat引入聊天记录特性正式放宽至每轮20次、每天200次限制

2023-03-29
【世界新要闻】欧盟达成里程碑协议：批准2035年起禁售非零排汽车

2023-03-29
陆奇可惜了

2023-03-29
电池级碳酸锂价格腰斩电动车会降价吗？专家给出结论

2023-03-29
开发者提交PR请求为微软Windows Terminal终端应用引入“便携模式”

2023-03-29
全球热点！货拉拉于港交所提交上市申请近三年年均复合增长率为39.9%

2023-03-29
环球最资讯丨国产车首个高端品牌观致工厂停摆已无财产可被执行

2023-03-29
世界微资讯！谷歌联手Replit 挑战微软AI编程工具GitHub Copilot

2023-03-29
天天速递！特斯拉败诉“退一赔三”案车主维权三年终获胜利

2023-03-29
全球热推荐：“革自己的命” 阿里巴巴是专业的

2023-03-29
环球滚动:不支持随机播放等关于苹果古典乐应用Apple Music Classical的一些注意事项

2023-03-29
环球视讯！美媒：阿里巴巴重组或成全球科技巨头模版，腾讯会仿效吗？

2023-03-29
苹果新专利获批：暗示未来iPad平板和iMac电脑可使用玻璃背板

2023-03-29
【报资讯】Apple正式推出古典音乐应用Apple Music Classical

2023-03-29
全球微头条丨故事讲不下去了？迪士尼撤销整个元宇宙研发部门

2023-03-29
GPT-4进入网络安全领域微软“AI全家桶”新增Security Copilot

2023-03-29
追觅发新品M13 Beta 另推两款机器人

2023-03-28
高盛：生成式AI将影响3亿人工作

2023-03-28
微头条丨消费提振年，消费券有多给力？

2023-03-28
日本推出佛祖版ChatGPT 已经为20多万人解决烦恼

2023-03-28
新消费出海日本瞄准年轻女性

2023-03-28
当前聚焦：马云回国阿里转舵

2023-03-28
焦点信息:百度何俊杰：AI不是危机而是生机

2023-03-28
中国新能源汽车多项指标性能明显提高低温续驶里程衰减率逐年降低

2023-03-28
TikTok被美打压封禁下的“九死一生” 投行指出活路

2023-03-28
实时焦点：一名高层美国官员将TikTok比喻为特洛伊木马外交部回应

2023-03-28
全球快报:金山办公杯WPS办公软件能力大赛启动

2023-03-28
环球信息:GPT-4老板：AI可能会杀死人类已经出现我们无法解释的推理能力

2023-03-28
喜茶回应在饮料中喝出碎标签：洗设备时没注意带入

2023-03-28
全球今日讯！我用AI画的图给甲方提案一稿过了

2023-03-28
支付宝被曝启动7年来最大高管轮岗知情人士回应

2023-03-28
开出百万年薪腾讯网易米哈游等大厂掀起一轮AI人才争夺战

2023-03-28
【天天速看料】周受资立于狂澜

2023-03-28