大模型学好编程,常识逻辑能力一起提升!
2023-05-25 12:09:03 来源:量子位
明敏 发自 凹非寺
(相关资料图)
量子位 | 公众号 QbitAI
大模型代码能力强,顺便还能提升其他能力?
最近CMU的一项研究突然在网上火了起来。
因为它提出了一个结论,模型掌握好代码能力后,在一些非代码任务上也能表现出色。
类比于:学好数理化走遍天下都不怕的感觉。
这一下子把网友们的脑洞给打开了。
难道说GPT-4比GPT-3.5强的关键原因,就在这里?
有人提问:这是否意味着掌握复杂编程,就能获得更高的推理水平?
还有人好奇,是不是说学编程有助于提升逻辑能力,真的有道理。
想要解释这些疑问,还要来看研究本身。
这篇论文首次发表于ChatGPT(GPT-3.5)面世以前,它提出了一种方法,验证了 代码语言大模型,在完成结构性常识推理上非常擅长 。
甚至比一些通用大模型专门微调过的效果好,碾压GPT-3、T5。
之所以又被人们热议起来,或许是因为这项研究中的一些观点为解释ChatGPT、GPT-4的能力涌现,提供了一些启发。
该论文被EMNLP 2022接收,相关数据和代码已上传至GitHub。
学学编程就能提升逻辑
该研究主要提出四方面工作:
1、代码语言模型比自然语言模型能更好处理结构化常识推理任务。
2、提出一种利用代码语言模型进行结构常识推理的方法:CoCoGEN。
3、在3个结构化常识推理任务上评估,证明CoCoGEN能优于微调/少样本测试下的自然语言大模型。
4、进行消融试验,测试数据格式、模型大小和少样本示例数量的影响。
大语言模型在挑战摘要、翻译、生成、问答等方面都有了不错的表现,目前还存在的一个挑战是如何进行结构化常识推理。
具体任务包括生成事件图、推理图、脚本、论证解释等。
和传统的常识推理任务不同,结构化常识需要根据自然语言输入,生成结构化输出。
这要求模型需要既理解语言内容,还能预测和生成复杂的结构。
而为了避免跨模态的复杂问题,现有的结构化常识生成模型都会修改问题的输出格式,比如将图形“扁平化”为节点对的列表(下图d),或者转换为DOT这类规范语言(下图c)。
但是大语言模型在处理这些输出时依旧存在困难,因为这些序列化的结构输出和大部分预训练数据存在很大差异。
而且在自然语言中,语义相关的词一般都离得很近,但是在结构化表达中它们可能离得很远。
这就导致大语言模型可能无法很好理解拓扑结构,所以想要模型完成这类任务还要进行特定训练。
与此同时,大语言模型在代码方面的能力越来越突出,代码也是一种结构化数据。
所以研究人员就想到,与其进行额外微调,为什么不利用代码能力来搞定结构化常识推理。
如下图b就是利用该方法的结果:
研究人员将该方法命名为Code for Commonsenses Generation(常识生成代码)模型,简称为CoCoGEN。
CoCoGEN使用一个由k(5-10)个Python类组成的提示。
在推理过程中,测试输入被转换为一个部分类,如上所示,附加到提示中,并由代码生成模型(如CodeX)完成。
研究人员使用CodeX发现它在生成代码上表现很好,总是能轻松转换成图形。
然后,研究人员进行了三项任务测试:
脚本生成 实体状态跟踪 解释图生成在脚本生成任务中,T5模型进行了微调,CURIE(text-curie-001)和DAVINCI(text-davinci-002)使用了15个示例进行少样本测试。
(CURIE和DAVINCI是基于GPT-3的两个模型)
结果显示,CoCoGEN的表现结果最好。
在以精确度(Precision)、召回率(Recall)和F1值作为评估指标时,同样是使用15个样本训练后,CoCoGEN的效果优于其他模型,并且优于在100个样本上微调过的T5模型。
另外两项任务中,CoCoGEN的表现也都优于其他模型。
同时该方法也验证了其他大模型在使用代码提示后,表现也会更好。
换言之,在让大模型精通编程后,它的结构常识能力就会提升。
网友锐评:这不就是野生版柯里-霍华德同构嘛?
据了解柯里-霍华德同构建立了逻辑和类型理论之间的关联,现实了推理系统和程序语言之间的相似性。
看来,推理可以等于证明,再等于编程了。
GPT-3也能涌现类似能力
与此同时,有人也发现了一个半年前的帖子,其中提出了一个观点和这项研究由类似之处:
大模型具有复杂推理能力的思维链,可能同样得益于代码训练。
这个帖子中列举了几个例子。
最初的GPT-3没有用代码训练,它并不具有思维链能力(chain-of-thought,CoT)。
text-davincic-001虽然指令调优了,但是执行CoT的效果也不理想。
PaLM的训练数据中有5%是代码,就能具备CoT了。
Copilot(据说是12B版本),也能做到CoT。
……
这种相关性的确非常有趣。
还有人觉得用代码训练大模型的好处可能有更多,比如语言模型预测下一个token往往是非常局部的,但是代码方面通常要求能更加“远距离”一些,比如完成一个括号闭合的操作。
你怎么看?
论文地址: https://arxiv.org/abs/2210.07128
GitHub地址: https://github.com/madaan/
参考链接: https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
标签:
[责任编辑:renwu001]
相关阅读
- (2015-08-11)中芯国际为何率先量产28nm的骁龙410?
- (2015-08-11)为了卖炫感枪,他又做了一款叫VR游戏播放器的产品
- (2015-08-11)小米5屏幕哪家造?三星给出AMOLED
- (2015-08-09)掌贝微POS:我们不做淘宝,要做O2O中最后的一环
- (2015-08-09)回顾暴雪科隆展:诚意满满,让你找回青春
- (2015-08-09)这个户外“机器人”已经学会了躲雨
- (2023-05-25)大模型学好编程,常识逻辑能力一起提升!
- (2023-05-25)大专生学大数据技术与应用专业怎么样?_快消息
- (2023-05-25)今日热文:人工智能专业必考证书有哪些?
- (2023-05-25)实时焦点:后期制作专业必考证书有哪些?
- (2023-05-25)环球最新:择校难题解答:到底是公办学校好还是私立学校好?
- (2023-05-25)袁姗姗主演情感剧央视预热
- (2023-05-25)全球今头条!气象精准预报水平保持全国前列!为提高预报准确率,山东气象这样做
- (2023-05-25)夏季达沃斯论坛召开首场媒体吹风会 参会注册和筹备工作稳步推进
- (2023-05-25)让龚琳娜和张靓颖玩PK,这也想的出来? 每日速读
- (2023-05-25)世界热点!比亚迪短线跳水
- (2023-05-25)隔夜SHIBOR报1.5780% 上涨30.70个基点 7天SHIBOR报1.9080%|天天视讯
- (2023-05-25)环球快讯:据一财报道 比亚迪工作人员表示还在核实
- (2023-05-25)融侨集团20亿元公司债票面利率不调整 仍为6.50%-最新快讯
- (2023-05-25)德班世乒赛:国乒13场赛事全胜 今日迎首场队内争夺 世界播资讯
最近更新
- (2023-05-25)全球热推荐:老韶关民间故事112---姑 嫂 雕
- (2023-05-25)河北2023年普通高校招生统一考试考务工作培训视频会议召开 天天亮点
- (2023-05-25)天天快报!2023年北京市汇贤学校小学部招生要求介绍 -->
- (2023-05-25)注意!中育贝拉美高2+1项目2023年秋季招生开始报名 -->
- (2023-05-25)环球热点!2023年成都国际学校学费大概多少钱?
- (2023-05-25)名为“七国集团” 实则“1+6”_世界关注
- (2023-05-25)罗曼股份参设数字科技公司 经营范围含物联网应用服务 全球消息
- (2023-05-25)白云机场:正有序推进2023年第二批招商项目
- (2023-05-25)资讯:十四部门:推进“双千兆”网络统筹集约建设
- (2023-05-25)食品饮料等消费股震荡走低
- (2023-05-25)平高电气新型六氟化硫大功率回收装置顺利下线|环球今热点
- (2023-05-25)黄金股震荡走低 四川黄金跌超6% 西部黄金、中润资源、湖南黄金、银泰黄金、金贵银业等跟跌
- (2023-05-25)长城汽车:就比亚迪秦PLUSDM-i、宋PLUS DM-i采用常压油箱,涉嫌整车蒸发污染物排放不达标的问题进行举报
- (2023-05-25)意甲第36轮 萨索洛VS蒙扎比赛分析|今日快看
- (2023-05-25)世界看点:乒乒乓乓德班奏响,这是历史性一刻
- (2023-05-25)2023年德国埃森新能源及水处理展览会举办_焦点滚动
- (2023-05-25)焦点报道:黄灯车开过去叫闯红灯吗
- (2023-05-25)北京中加学校兴趣班有哪些?需要另外交钱吗? -->
- (2023-05-25)预测2023年山西高考一本分数线 最低多少分可以上一本 世界球精选
- (2023-05-25)2023年可高考的北京朝阳私立中学高中有哪些?(含招生简章) 热点