ChatGPT背后的指令学习是什么？PSU发布首篇「指令学习」全面综述

来源：现代服务产业技术创新战略联盟 2023-04-05 07:17:29

任务语义可以用一组输入到输出的例子或一条文本指令来表示。传统的自然语言处理（NLP）机器学习方法主要依赖于大规模特定任务样本集的可用性。但这出现了两个问题：首先，收集特定于任务的标记示例，不适用于任务可能太复杂或太昂贵而无法注释，或系统需要立即处理新任务的场景；其次，这对用户来说并不友好，因为最终用户可能更愿意在使用系统之前提供任务描述，而不是一组示例。因此，社区对NLP的一种新的监督寻求范式付出了越来越大的兴趣：从任务指令中学习。尽管取得了令人印象深刻的进展，但社区仍面临一些共同的问题。

本文试图从以下几个方面对当前的指令学习研究进行总结：

（1）什么是任务指令，存在哪些指令类型？

(相关资料图)

（2）如何为指令建模？

（3）哪些因素影响和解释指令的执行？

（4）指令中还存在哪些挑战？据我们所知，这是第一次对文本指令的全面调查。论文地址：https://arxiv.org/pdf/2303.10475v2.pdf

1引言

人工智能的一个目标是建立一个可以普遍理解和解决新任务的系统。标记示例作为主流任务表示，不太可能大量可用，甚至不存在。那么，是否有其他任务表示可以有助于任务理解？任务指令为表达任务语义提供了另一个监督维度，指令往往包含比单个标记示例更抽象和全面的目标任务知识。指令学习是受典型的人类对新任务的学习启发，例如，小孩可以通过从指令和几个例子中学习来很好地解决一个新的数学任务。这种新的学习范式最近引起了机器学习和NLP社区的主要关注。如图1所示，通过任务指令的可用性，可以快速构建系统来处理新任务，特别是在特定于任务的注释稀缺的情况下。当谈到任务指令时，我们大多数人首先会将这个概念与提示联系起来——使用一个简短的模板将新的输入重新格式化为语言建模问题，以便为启动PLM回复响应。尽管提示在文本分类、机器翻译等中普遍存在，但提示只是指令的一种特殊情况。本文对指令驱动的NLP研究进行了全面和更广泛的看法。具体来说，我们试图回答以下问题: 什么是任务指令，存在哪些指令类型?给定任务指令，如何对其进行编码以帮助完成目标任务?哪些因素(如模型大小、任务数量)影响指令驱动系统的性能，以及如何设计更好的指令?指令学习能带来什么应用?指令学习中存在哪些挑战，未来的方向是什么?据我们所知，这是第一篇调研文本指令学习的论文。与一些现有的侧重于特定上下文指令的调研相比，例如提示、按输出输入的演示或推理，我们提供了一个更广泛的视角，以有组织的方式连接该领域的不同研究。希望本文能呈现一个更好的指令学习故事，吸引更多同行来研究这个具有挑战性的人工智能问题。我们还发布了本次调研的相应阅读清单。

2基础知识

对于任务式学习，目标是通过遵循指令来驱动系统达到给定输入的输出。因此，一个数据集由三个元素组成: Input (X)：实例的输入;它可以是一段文本（如情感分类）或一组文本（如文本蕴涵、问题回答等）。 Output (Y)：实例的输出;在分类问题中，它可以是一个或多个预定义标签;在文本生成任务中，它可以是任何开放形式的文本。模板(T)：一种文本模板，试图单独表达任务的含义，或者充当X和y之间的桥梁。T可能还不是一种组件结构。

3 什么是任务指令？

在之前的零样本和少样本NLP任务中已经使用了各种类型的文本指令，例如提示，Amazon Mechanical Turk 指令，辅以演示的指令和思维链解释。不同的指令最初是为不同的目标设计的（例如，Mturk指令最初是为人类标注者理解而创建的，提示是为了控制PLM）。在本节中，如图2所示，我们首先将这些指令总结为三个类别，它们执行T、X和ˆY的不同组合（面向蕴含、面向PLM和面向人），然后比较它们并提供指令的正式定义。 3.1 I=T^+Y:Entailment主导的指令处理分类任务的一个传统方案是将目标标签转换为索引，并让模型决定输入属于哪个索引。这种范式侧重于对输入语义进行编码，同时丢失标签语义。为了让系统识别新标签而不依赖于大量标记的示例，Yin等人提出为每个标签建立一个假设——然后，推导标签的真值被转换为确定假设的真值。如表1所示，这种方法内置在指令I中，将模板T与标签Y相结合，以解释每个目标标签Y。由于这种范式自然地满足文本蕴含的格式(TE，其中任务输入和指令可以分别被视为前提和假设)，这些类型的指令被称为「面向蕴含（Entailment）的指令」。

面向蕴含（entailment）的指令学习方法具有以下4个方面的优势：

（1）保持了标签语义，使得输入编码和输出编码在建模输入输出关系时得到同等的重视；

（2）形成了一个统一的推理过程——文本蕴含——来处理各种NLP问题；

（3）它创造了利用现有TE数据集的间接监督的机会，以便预训练TE模型有望在不进行特定任务微调的情况下在这些目标任务上工作；

（4）将原始的闭集标签分类问题扩展为具有少量甚至零类属类样本的开放域开放形式标签识别问题。因此，它被广泛应用于各种少样本/零样本分类任务中，如分类主题、情感、姿态、实体类型和实体关系。 3.2 I=T^+X:面向PLM的指令（如ˆ提示）提示是面向PLM的指令的代表，它通常是一个简短的语句，前面加上任务输入（前缀提示），或者一个完形填空问题模板（完形填空提示）。它主要用于从预训练的语言模型（PLM）中查询中间响应（可以进一步转换为最终答案）。由于提示输入符合PLM的预训练目标，例如，完形风格的输入满足掩码语言建模目标，它有助于摆脱对传统监督微调的依赖，并大大减轻人工标注的成本。因此，快速学习在大量之前的少量/零样本NLP任务上取得了令人印象深刻的结果，例如问答、机器翻译、情感分析、文本蕴含和命名实体识别。 3.3以人为本指示以人为本的指令基本上是指在人类注释平台上用于众包的指令（例如Amazon MTurk指令）。与面向人的指令不同，面向人的指令通常是一些人可读的、描述性的、段落式的任务特定文本信息，由任务标题、类别、定义、要避免的事项等组成。因此，以人为本的指令更加友好，可以理想地应用于几乎任何复杂的NLP任务。

4 如何为指令建模？

在本节中，我们总结了几种最流行的指令学习建模策略。总体而言，本文介绍了四种不同的建模方案：对于早期的基于机器学习的系统，（1）基于语义解析器的策略是编码指令的常用方法;随着神经网络和预训练语言模型的出现，（2）基于提示模板和（3）基于前缀指令的指令学习模式成为两种备受青睐的范式；最近，（4）基于超网络的方法也引起了更大的兴趣。

5 应用

5.1人机交互文本指令可以自然地视为一种人机交互方式。之前的许多工作使用自然语言指令来「指导」计算机执行各种现实世界的任务。对于非NLP（多模态）任务，大多数专注于基于环境的语言学习，即驱动智能体将自然语言指令与环境相关联，并做出相应的反应，例如从图像/视频中选择提到的对象，按照导航指示，在地图上绘制相应的痕迹，基于给定规则玩足球/纸牌游戏，生成实时体育广播、控制软件和查询外部数据库。与此同时，指令也被广泛适用于帮助与系统沟通，以解决NLP任务，例如，遵循操作字符串的指令，根据给定的解释对电子邮件进行分类，以及文本到代码生成。近年来，越来越多的研究倾向于以迭代和模块化的方式设计人机通信过程。例如，Li等人构建了一个系统来帮助用户处理日常任务（例如，点咖啡或请求Uber）。得益于用户友好的图界面，系统可以迭代地询问有关任务的问题，用户可以不断改进他们的指令，以避免不明确的描述或模糊的概念。类似地，Dwivedi-Yu等人提出了一个基准来迭代地指导PLM改进文本，其中每次迭代只使用具有精确目的的一小段指令（例如，「简化文本」或「使文本中性」）。此外，Chakrabarty等人构建了一个协作写诗系统，用户可以最初提供一个模棱两可的指令（例如，「写一首关于蛋糕的诗」），然后通过观察模型的中间输出，用更多的细节逐步完善指令（例如，「包含单词-巧克力」)。同时，Mishra和Nouri提出了一个传记生成系统，该系统逐步从用户那里收集必要的个人信息（通过在对话场景中提出问题来引导用户），并最终生成一个段落式的传记。针对非专家用户难以一次性编写完整的指令的问题，在基于指令的人工智能系统设计中采用迭代式、模块化的设计范式，可以引导用户逐步丰富任务指令，从而有效地缓解用户的思维需求，使系统更加面向用户。鉴于其实用价值，本文强调了这一分支工作的重要性。 5.2 数据和特征增强任务指令被认为是一种间接的监督资源，其中有时包含一些肤浅且武断的规则。这些规则也被称为标记函数，可以直接应用于注释（例如，句子「a very fair price」是情感积极的，因为「单词price之前直接有fair」）。因此，现有的一些工作还将指令作为远程监督来执行数据或特征增强。例如，Srivastava等人使用语义解析器将自然语言解释转换为逻辑形式，并将它们应用于数据集中的所有实例以生成额外的二进制特征。而Wang等人利用标签解释自动标注原始语料库，并在产生的噪声数据上训练分类器。除了直接的扩充外，Su等人进一步使用任务指令来丰富模型表示，并实现了较强的跨任务泛化。具体来说，他们在具有对比学习的不同指令数据集上训练了一个嵌入模型（单个编码器），然后使用该模型为下游未见过的任务生成基于指令的特定任务表示。 5.3 通用语言模型根据通用人工智能（Artificial General Intelligence, AGI）的定义，「通用模型」通常是一个能够胜任不同任务并在多变环境中可扩展的系统，这将远远超出其创造者最初的预期。虽然特定于NLP领域，但通用语言模型应该是一个优秀的多任务助手，能够以完全零样本/少样本的方式熟练处理各种现实世界的NLP任务和不同的语言。由于许多现有工作证明了在跨任务泛化中使用指令的惊人能力，该指令很可能成为实现这一最终目标的突破。值得注意的是，最近指令的两个显著应用，即InstructGPT和ChatGPT，也表明在构建通用语言模型方面迈出了一大步。然而，与其他主要采用指令学习的工作不同，ChatGPT还采用了一些其他组件，如人工反馈的强化学习（RLHF）。虽然「哪个组件对ChatGPT的出色结果贡献更大」的答案仍然是模糊的，需要进一步调研，但我们介绍了一些最近的工作，以强调指令学习的关键作用。例如，Chung等人进行了广泛的实验来评估人类对PaLM的偏好对齐。他们发现，即使没有任何人类反馈，指令微调也显著降低了PaLM开放式世代的毒性，比如性别和职业偏见。此外，其他一些工作也单独采用创造性指导而不是人工反馈，并取得了显著的跨任务结果。尽管ChatGPT仍然存在许多不令人满意的方面，距离通用语言模型还很远，我们希望AGI的目标可以通过采用和发展更强大的技术来继续推动，包括指令学习。参考资料： https://arxiv.org/pdf/2303.10475v2.pdf

【END】

免责申明:本站所有内容均来自网络,我们对文中观点保持中立,对所包含内容的准确性,可靠性或者完整性不提供任何明示或暗示的保证,请仅作参考。若有侵权,请联系删除。

文章来源：新智元

ChatGPT背后的指令学习是什么？PSU发布首篇「指令学习」全面综述

来源：现代服务产业技术创新战略联盟 2023-04-05 07:17:29

ChatGPT背后的指令学习是什么？PSU发布首篇「指令学习」全面综述

观热点：晚上吃什么不长胖还比较有营养_晚上吃什么不长胖

山茶籽可以直接吃吗_山茶籽适合直接生吃吗

世界即时：花朵燃烧的国度

安顺顶柱珊瑚_时讯

短讯！如何区分甲流与普通感冒？一图读懂→

东方电气：拟向控股股东等定增募资不超50亿元 用于收购多家子公司股权等 环球新动态

快播：房地产行业“百城价格指数”：3月百城销售均价 新建住宅环比上涨0.02% 同比下跌0.07%；二手住宅环比下跌0.05% 同比下跌1.12%；50城租赁均价 普通住宅环比上涨0.13% 同比下跌1.61%

天天新消息丨山东威海发布暴雨蓝色预警！

焦点热门:有线电视费一年多少钱台州仙居_有线电视费一年多少钱

即时：多城首套房贷款利率行至低位 楼市成交回暖趋势有望延续

世界微头条丨南京一路面往外渗水 水务部门紧急抢修

【环球聚看点】3月8日送什么礼物老婆好

券商观点|钢铁与大宗商品行业周报：宏观市场情绪改善，大宗商品市场氛围回暖

贞丰县气象台继续发布大风蓝色预警信号【Ⅳ/一般】

工业硅期货和期权免收平今仓手续费

今日快看!交个朋友三周年成绩单：合作品牌超1万家，累计服务超1亿人次 环球速递

焦点！在快手收到的礼物能转送么

全球短讯！2023年3月31日-4月1日南方（以广东起步）电力现货市场结算运行日报

曼联笔记：胖虎不在且客战强队，滕哈赫你还玩中场人盯人？-今日热讯

当前视点！蔡松涛会见明阳集团党委书记、董事长张传卫一行

环球今头条！“三支ETF挑战一年资金翻倍”项目式教学案例追踪：第53天

10月婚姻运最好的生肖2023年 生肖龙独占鳌头

明火（明火） 环球热议

透过一场悦客大会，建发商管释放了哪些重要信息

七月十五外婆送什么给外孙

南昌银行,南昌银行一级银行行长级别 天天热资讯

b4的纸张尺寸_b4纸张大小尺寸 环球头条

环球要闻：《勇者斗恶龙》系列首席制作人市村龙太郎离开SE

世界关注：往来大湾区和北部湾“两湾快航”内外贸同船进入常态化运行

世界资讯：摄影清晰！荣耀骁龙超曲屏多主摄计算摄影折扣3279元

理直气壮造句一年级_理直气壮造句_快讯

微视频丨无处安身——美国无家可归者现象调查

新潮能源控制权之争新进展：法院裁定解除保全裁定

【天天时快讯】北部湾港(000582.SZ)：定增深圳获得深交所受理

4月，金价再创历史新高？|每日看点

中国人寿管理层：希望通过一到两年时间，在20至30个中心城市形成养老服务供给能力

媒体人：想异地搬迁的球队可以再等等，坚决反对的土木哥失联了

要想延缓衰老，真可以用年轻血液？-全球视讯

AH股追踪 | 新华保险A股涨5.46%，H股涨4.45%

快看：英雄联盟演员怎么赚钱_英雄联盟怎么赚钱快

【专业诊断】

最新资讯：“豫章书院”案前学员发声：新增让吴军豹等人从业禁止的请求

全球快消息！中山市社保卡卡号在哪里查询呀？

【当前独家】嘉泓物流2022年收益约27.88亿港元 权益股东应占纯利增长约3.9%

天天观点：世华科技：3月30日融资买入181.26万元，融资融券余额8388.01万元

当前动态:斑马利好！意媒：迪玛利亚与尤文将续约1年 无缘欧冠也会留下

天天通讯！春节送什么给干妈

环球最新：收官之战 继续涨起来

南科大深大上榜软科中国大学百强

即时看！嫁对人了！马丽挺孕肚仍坚持工作，获老公全程呵护超恩爱

火影忍者万花筒写轮眼图片_火影忍者万花筒写轮眼的隐形眼镜多少钱_当前关注

为群众办实事，江北新区法院推进行政诉讼法援“全覆盖”

北京丰台提出18项重点任务加快发展智能制造产业|当前关注

【世界热闻】夜间经济逐渐火热 成为多地促消费发力点

【天天快播报】拔鸭头颈部毛的技巧（拔鸭头毛细小毛的好方法）

和平精英绿洲世界望远镜在哪 绿洲世界望远镜位置获取攻略[多图]-环球今热点

37岁查出患有先心病，错过最佳手术时机？上海四院成功为患者“修心”

每日短讯：中新网评：拒绝擦边，让网络空间更加清朗

快克智能（603203）3月30日主力资金净卖出237.62万元

河南焦作：危化品交通运输高风险企业

全球新消息丨“没有为啥，不到18不给文”

新北洋中标中国农业银行2022年超级柜台项目

蒙娜丽莎：战略工程渠道营收降23.18%至26.24亿元 | 年报拆解|天天百事通

证券公司的员工不可能会给你打电话给你免费的荐股软件吗？ 焦点速讯

环球即时：理想汽车：理想L系列车型累计交付超10万

世界快资讯：渤海油田2022年新增油气探明储量创历史新高

世界热门:阿不都23+15新疆险胜北控 张帆21分廖三宁13+7

《最后的生还者1》PC低画质下 乔尔会变丑 环球信息

融捷股份（002192）：3月29日北向资金减持3.01万股

11岁女孩生日送什么礼物,很有创意礼物攻略-全球热资讯

环球即时：毛坦厂中学招生办电话（毛坦厂中学招生条件）

【环球热闻】李维周深对决现场视频_李维周深

日本福岛第一核电站核燃料取出作业专家组召开首次会议-环球新资讯

世界即时看！我的世界天骐精灵宝贝_天骐我的世界神奇宝贝全集

焦点速读：西南石油大学学杂费缴费平台_西南石油大学缴费网站

注意！国药现代将于5月19日召开股东大会

富德生命人寿最新消息_富德生命人寿会倒闭|观热点

东方电气：拟向控股股东等定增募资不超50亿元用于收购多家子公司股权等环球新动态

快播：房地产行业“百城价格指数”：3月百城销售均价新建住宅环比上涨0.02% 同比下跌0.07%；二手住宅环比下跌0.05% 同比下跌1.12%；50城租赁均价普通住宅环比上涨0.13% 同比下跌1.61%

即时：多城首套房贷款利率行至低位楼市成交回暖趋势有望延续

世界微头条丨南京一路面往外渗水水务部门紧急抢修

今日快看!交个朋友三周年成绩单：合作品牌超1万家，累计服务超1亿人次环球速递

10月婚姻运最好的生肖2023年生肖龙独占鳌头

明火（明火）环球热议

南昌银行,南昌银行一级银行行长级别天天热资讯

b4的纸张尺寸_b4纸张大小尺寸环球头条

【当前独家】嘉泓物流2022年收益约27.88亿港元权益股东应占纯利增长约3.9%

当前动态:斑马利好！意媒：迪玛利亚与尤文将续约1年无缘欧冠也会留下

环球最新：收官之战继续涨起来

【世界热闻】夜间经济逐渐火热成为多地促消费发力点

和平精英绿洲世界望远镜在哪绿洲世界望远镜位置获取攻略[多图]-环球今热点

证券公司的员工不可能会给你打电话给你免费的荐股软件吗？焦点速讯

世界热门:阿不都23+15新疆险胜北控张帆21分廖三宁13+7

《最后的生还者1》PC低画质下乔尔会变丑环球信息

今天最新消息国际媒体人被蜀道三国文化深深吸引拍摄众多佳作

环球热资讯！平安果洛建设丨强化外来人员管理创建平安建设环境

滨化股份等新设科技投资发展公司注册资本1亿元

山东企业技术改造引领精准发力助推产业“换挡提速”

2023上海中考将于6月17日至19日举行 “名额分配到校”志愿增至2个焦点短讯

天天视讯！春季招聘启动各地举行多场招聘会促就业

清华五道口张健华：数据主体二次授权原则需要引起重视，防止“一次授权多次使用”所引发的风险天天百事通

世界快资讯：君子不迁怒不贰过_ldquo 不迁怒不贰过 rdquo 是孔子对弟子的要求 ldquo 不贰过 rdquo 指的是什

贵港：尽锐出击市公安局开展道路交通安全专项整治县际交叉执法战果丰【道路交通安全整治攻坚战】第17期

辉道与辉昂的区别全球热闻

医疗AI第一股鹰瞳科技发布财报全年研发支出超总体营收10%

地道康巴什味不服你来“干” 世界热点

老马点金：24号黄金现价1985做多，杜绝一切马后炮！天天新动态

拼多多800现金需要多少人助力来看需要助力人数介绍|全球观点