AI TIME欢迎每一位AI爱好者的加入!

用最少的语料训练生成模型是构建开放域对话系统的关键挑战之一。现有的方法倾向于使用元学习框架,首先预训练所有非目标任务的参数,然后在目标任务上进行微调。然而,微调的方法仅仅将不同任务从参数角度区分开来,却忽略了模型的结构,容易产生相似的对话模型。

在第五期AI Time PhD对话系统专题分享的直播间,我们邀请到北京大学信息科学技术学院2020级博士毕业生宋伊萍,为大家介绍她在ACL2020中发表的最新研究成果。

讲者及其团队提出了CMAML算法,可以为每一个对话任务定制一个独特的模型。在CMAML中,每个对话模型由一个共享模块、一个门控模块和一个私有模块组成。讲者提出的CMAML在任务一致性、回复质量和多样性方面都优于所有基线模型,且在低资源文本生成任务上具有较强的通用性。

宋伊萍 ,北京大学信息科学技术学院2020级博士毕业生,导师为张铭教授。主要研究方向为自然语言处理和对话系统,已在相关领域的国际顶级会议如ACL, AAAI, IJCAI等发表多篇论文。

一、元学习是什么呢?

元学习Meta Learning,含义为学会学习,即learn to learn,就是带着这种对人类这种“学习能力”的期望诞生的。Meta Learning希望使得模型获取一种“学会学习”的能力,使其可以在获取已有“知识”的基础上快速学习新的任务,如:

????让一个长颈鹿图片的分类器,迅速具有分类其他物体的能力。

对比理解machine learning和meta learning的两个概念。

二、经典的元学习方法——MAML

元学习使用的两种场景

1)元学习的方法与模型无关,适用性强。

任何的一个监督的学习,比如分类回归、强化学习等,凡是用梯度下降来更新参数的,都可以使用这种方法。

2)需要的场景数据少。

在机器学习中,训练单位是一条数据,通过数据来对模型进行优化;数据可以分为训练集、测试集和验证集。

在元学习中,训练单位分层级,第一层训练单位是任务。元学习中要准备许多任务来进行学习,第二层训练单位才是每个任务对应的数据。

元学习的具体算法

1)方法: 利用一系列分类器task的训练数据作为训练样本,找到一个最好的全局参数θ,将其迁移到新的任务上,迅速的去学习到一个对新的场景的分类器。

2)算法: 以分类任务和回归任务为例:

  • a)准备N个训练任务(Train Task)、每个训练任务对应的Support Set和Query Set。再准备几个测试任务,测试任务用于评估meta learning 学习到的参数的效果。训练任务和测试任务均从Omniglot中采样产生。

  • b)初始化一个meta网络的参数为θ。

  • c)开始执行迭代“预训练” 。

  • d)通过上一步得到meta网络的参数,该参数可以在测试任务中,使用测试任务的SupportSet对met网络的参数进行finetuing。

  • e)最终使用测试任务的Query Set评估meta learning的效果。

三、用元学习的方法解决低资源的问题的CMAML

讲者发表ACL2020的:

Learning to customize model structure for few-shot dialogue generation task.

1)Few-shot Text Generation应用场景

  • 冷启动

  • 多语言

  • 个性化对话

  • 情感对话

讲者主要针对的就是在个性化对话和情感对话的研究工作。

2)元学习的常见三种方法

  • 基于度量 metric-based:学习核变换参数

  • 基于模型 model-based:一次性输入数据,学习1个模型的参数

  • 基于优化 optimization-based:学习元模型参数

3)MAML特点:

MAML的目标是在应用于新任务时,通过最大化损失函数的灵敏度来找到模型参数的初始化。对于一个目标任务,它的对话模型是通过使用特定于任务的训练样本微调是来自MAML的初始参数获得。

生成式对话模型的目标是构建一个函数,将用户查询映射到它的回复,其中函数由模型结构和参数决定。

MAML仅从参数优化的角度搜索最佳参数设置,而忽略了从结构优化的角度搜索最佳网络结构。

基于以上分析,研究的目的是如何调整MAML以适应更大的模型多样性。

讲者及其团队设定了三个目标:

第一,为所有具有不同网络结构和参数的任务定制模型。

第二,每个任务独特的模型结构能够记忆任务特征。

第三,与MAML相比,不需要额外的训练数据。

因此,讲者及其研究团队提出了CMAML,它本质上是一个文本生成模型seq2SPG。

构建对话模型的网络结构——seq2SPG

对于每个任务,相应的生成模型由三部分组成:共享模块、私有模块和门控模块。

1)共享模块: 是一个传统的seq2seq,旨在学习一般的生成能力,该模块在任务间共享。

2)私有模块: 存储独特的特征,所有的任务都从seq2seq解码器中的同一个mlp开始,然后在训练过程中演化成不同的结构。

3)门控模块: 用于平衡前两个模块的贡献,它也在任务之间共享。

训练过程分为两个阶段:预训练和定制模型训练。

1)在预培训中 ,CMAML使用普通的MAML获得一个预训练的对话模型作为所有任务的初始模型,然后讲元训练和元测试交替进行。目前,不同任务的模型具有相同的网络结构和参数。

2)定制模型训练中 ,共有两个阶段。

  • 第一,对私有模块,使用私有网络剪枝算法来区分每个任务的MLP结构。

  • 第二,再次使用MAML重新训练每个任务的所有三个模块的参数。在这个阶段,私有模块是一个修剪过的MLP结构。

实验数据和模型

在两个数据集上进行实验,Persona-chat和MojiTalk。

  • 在Persona-chat中,把为用户建立对话模型视为一项任务。

  • 在mojitalk中,把用cemoji生成响应视为一项任务。

使用4种类型的Competing Methods:

1)Pretrain-Only

预训练仅表示用来自所有训练任务的数据预训练一个统一的对话生成模型,然后直接在测试任务上测试它。

2)Fine-tune

微调是用特定于任务的数据来微调统一模型。

3)MAML

在两个基础模型上应用MAML,主要使用了传统的seq2seq和讲者团队提出的seq2SPG。

4)CMAML

采用CMAML算法的两种变体,CMAML-Seq2SP’G和CMAML-Seq2SPG。

主要使用了四种评估指标:

1)通过评估回复的质量和多样性,以及语义和情感的一致性,衡量模型生成的句子的是否准确。

2)为了验证每种方法对不同任务之间的模型差异,定义了它的三个参数:

diff score 是成对任务的平均模型差异。

Δscore是微调前后方法的模型差异。

Ti和Tj之间的模型差异是将计算参数之间的欧几里德距离将其归一化。

3)除此之外,还使用了人为评估的方法。

整体结果表明,微调方法比仅预训练更好,MAML方法在BLEU分数上没有比微调方法更好的表现,但是具有相对较高的Dist-1分数。这表明MAML有助于促进反应的多样性。

在不同的场景设置中进行评估:

由左图表明,对于非基于MAML的方法,任务一致性不会随着数据的增长而提高。

而对于基于MAML的方法,句子质量和任务一致性都随着数据的增长而增加。

由右图表明,当任务不太相似时,基于MAML的方法表现更好。

  • 讲者在研究报告中提出的算法CMAML可以为任务定制模型,其中每个任务具有唯一的网络结构和参数,并且在生成任务中只需要一个或两个数百个训练样本。

  • 每个任务独特的结构能够记忆其特征,相似的任务从模型结构的角度共享训练数据。

  • CMAML是通用的,并且很好地统一以适应各种few-shot的生成场景。

四、提问和回答

请教下,如何构建不同task?其数据来源是依赖通用数据集吗?

在论文里面,我们主要讨论了2种场景;

1. 个性化对话,每个任务是每位用户的对话系统;

2. 情感对话,每个任务是指带有特定情感(表情)的对话模型。

请问剪枝是怎么做的?剪枝类似于dropout吗?

先稀疏化,后自顶向下剪枝。剪枝跟dropout不一样,dropout是随机的,我们的剪枝部分根据训练预料的阈值删除。

不同通用数据集,对最后具体任务,会存在显著影响吗?

会。对话的长度、task的个数、每个task的sample个数都有影响。这个我们实验里面也讨论了一下,感兴趣可以看看~ ????

相关链接及文献:

Paper: https://www.aminer.cn/pub/5ec49a639fced0a24b4de849/learning-to-customize-model-structures-for-few-shot-dialogue-generation-tasks?conf=acl2020

Code: https://github.com/zequnl/CMAML

整理:唐家欣

审稿:宋伊萍、鸽鸽

排版:田雨晴

AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至[email protected]

微信联系:AITIME_HY

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

(点击“ 阅读原文 ”下载本次报告ppt)

(直播回放:https://b23.tv/KrnCJg)

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!2023年9月15日 19:00-20:00柴思远:智谱AI解决方案技术总监,大数据算法技术专家,组建智谱解决方案团队,支持过美团、360、金山、小米等重点大模型项目落地;曾历任大搜车数据中台负责人,妙计旅行联合创始人,搜狗搜索NLP研究员等。分享内容:ChatGLM大模型应用构建和指令工程报告简介:本次报告从理论、技巧、案例多个角度剖析大... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!报告题目面向文本和视觉线索联合推断的多模态上下文推理方法内容简介联合文本和视觉线索条件推理任务是一项复杂多模态推理任务,其中,文本线索提供与视觉内容互补的先验假设或者外部知识,对推断正确选项至关重要。虽然先前使用预训练视觉语言模型(VLM)的方法取得了令人印象深刻的表现,但这些方法存在多模态上下文推理能力的不足,尤其是在文本模态信息上,上下... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!2023年9月15日 19:00-20:00柴思远:智谱AI解决方案技术总监,大数据算法技术专家,组建智谱解决方案团队,支持过美团、360、金山、小米等重点大模型项目落地;曾历任大搜车数据中台负责人,妙计旅行联合创始人,搜狗搜索NLP研究员等。分享内容:ChatGLM大模型应用构建和指令工程报告简介:本次报告从理论、技巧、案例多个角度剖析大... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!以下内容来源于始智AI wisemodel始智AI团队打造的中立开放AI开源社区平台(wisemodel.cn)正式上线,欢迎大家注册使用。我们的目标是要打造中国版“HuggingFace”,汇聚国内外常用的开源AI模型和数据集等资源,建设中立开放的AI开源创新平台。清华/智谱chatglm2-6B、Stable Diffusion V1.... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!哔哩哔哩直播通道扫码关注AI TIME哔哩哔哩官方账号预约直播13:30—13:50闫俊Virtual Prompt Injection for Instruction-Tuned Large Language Models13:50—14:10宁雪妃SoT:利用并行解码加速LLM的尝试14:10—14:30张锐麒Trained Tran... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!以下内容来源于AMiner科技过去的8月,如果让我用一个词来总结,那就是“Agent”!大模型的下半场已经拉开序幕,大厂们都纷纷表态入局“Agent”。OpenAI创始成员Andrej Karpathy表示相比大模型,OpenAI内部目前已经关注Agent领域,亚马逊也宣布了Amazon Bedrock Agents新功能,而更早之前的斯坦... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!作者介绍张耕维悉尼科技大学在读博士生,研究方向为持续学习报告题目通过慢学习和分类器对齐在预训练模型上进行持续学习内容简介持续学习研究的目标在于提高模型利用顺序到达的数据进行学习的能力。尽管大多数现有工作都是建立在从头开始学习的前提下的,越来越多的努力致力于融入预训练的好处。然而,如何让每个增量任务自适应地利用预训练知识,同时保持预训练提供的... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!以下内容来源于THU基础模型基础模型研究中心自 2018 年 BERT、GPT 等语言模型问世以来,大规模语言模型取得了显著进步,对社会经济发展产生了深远影响。尽管如此,该领域仍面临诸多挑战待解。为推动我国大语言模型发展,清华大学人工智能研究院基础模型研究中心将于 2023 年 9 月 10 日举办「大模型研讨会」。本次研讨会将邀请中国人工... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!哔哩哔哩直播通道扫码关注AI TIME哔哩哔哩官方账号预约直播2023年9月6日 15:00-17:00唐天一中国人民大学高瓴人工智能学院二年级硕士生,导师为赵鑫教授。主要关注大语言模型、文本生成相关研究,曾在ACL、EMNLP、NAACL、COLING等自然语言处理会议中发表相关论文十余篇。开源预训练模型MVP在Hugging Fac... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!随着通用人工智能(AGI)的崛起,graph领域将会迎来怎样的变革?图数据处理、图神经网络、图推理和推荐、图数据库和知识图谱等方面将如何应对新时代的挑战?这些问题都值得我们深入探讨和思考。2023年8月16日,AI TIME第十七期PhD Debate活动“AI新时代,graph的研究该何去何从”,特别邀请了新加坡Sea AI Lab研究员... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!AI TIME大模型系列活动定期特邀来自全球知名高校与研究机构的青年学者,分享最新大模型前沿动态,思辨大模型未来之路。今年以来,已邀请海内外150多位讲者,沉淀了近50场大模型系列活动内容。AI TIME将持续搭建多元开放的产学研交流平台,现开放大模型系列活动讲者报名通道,欢迎您来分享大模型前沿工作。活动形式:线上个人Talk、圆桌论坛、团... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!以下内容来源于CVer本文分享 CVPR 2023 论文『DynamicDet: A Unified Dynamic Architecture for Object Detection』,北京大学王选计算机研究所王勇涛团队所提出的一个目标检测器的通用动态架构。具体信息如下:论文:https://arxiv.org/abs/2304.0555... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!作者介绍梁志烜香港大学计算机系直博一年级学生,导师为罗平教授,研究兴趣是生成式机器学习,Embodied AI和Data-centric learning。报告题目作为自适应自进化规划器的扩散模型内容简介扩散模型已经在许多任务中展示了其作为生成模型的强大能力,进而具有作为离线强化学习范式的巨大潜力。然而,扩散模型的质量受到训练数据多样性不足... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!大模型LLM近半年大模型一路狂飙,席卷全球,已经成为了AI领域的研究热点与必争之地。AI TIME大模型系列活动定期特邀来自全球知名高校与研究机构的青年学者,分享最新大模型前沿动态,思辨大模型未来之路。应粉丝朋友们要求,AI TIME把近半年150多位讲者,近50场活动的精彩输出,整理成大模型系列活动合集,方便大家一站式探索大模型前沿动态与... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!哔哩哔哩直播通道扫码关注AI TIME哔哩哔哩官方账号预约直播15:00—15:20廖馨婷基于双曲空间探索的非独立同分布联邦学习15:20—15:40吴南楠面向不平衡医学数据的联邦带噪学习15:40—16:00瞿兴华AudioQR: 一种基于语音的全新扫码技术16:00—16:20霍超凡3Dhuman-objectreconstruct... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!如今,数字人和大模型已经成为引人注目的热点话题。在这个数字化时代,我们不仅可以创造出高度逼真的数字人,还能够让他们拥有人类一样的思维能力,而大模型的出现更是为学习和决策提供了强有力的支持。然而,与其应用的广泛性相匹配的是一系列的挑战。2023年8月8日,AI TIME第十六期PhD Debate活动“数字人、大模型在AIGC中的应用与挑战”... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!哔哩哔哩直播通道扫码关注AI TIME哔哩哔哩官方账号预约直播直播时间:2023年8月29日 18:30—20:0001思辨话题1. 多模态大模型是什么?2.伴随妙鸭等产品的出圈,还关注到哪些AI+各模态结合有意思的产品,感受如何?3.AI+图像、视频、3D等模型会改变哪些行业与岗位的工作方式?4.什么样的产品是你所期待的? ●面对... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!AI TIME开始招募 ACL 2023 一作华人讲者啦!!!我们欢迎各位讲者来AI TIME分享您被 ACL 2023录用的工作~直播预计分享时间:2023年9月。报名方式有意愿加入的小伙伴请通过链接https://www.wjx.cn/vm/mY5PCGv.aspx或扫描下方二维码填写问卷哦~同时也欢迎大家推荐身边的小伙伴来和我们一起t... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!哔哩哔哩直播通道扫码关注AI TIME哔哩哔哩官方账号预约直播8月15日 19:30—21:3019:40-19:50侯文太图卷积网络驱动的组织病理图像智能分析方法19:50-20:00林天成基于因果干预的全景病理图多实例学习方法20:00-20:10曲麟昊基于双向弱监督知识蒸馏的全切片病理图像分类方法20:10-20:20蔡程飞基于结直肠... 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入!以下内容来源于将门创投作者:赵天辰机构:清华大学电子工程系研究方向:硬件友好的高效深度学习论文标题:Ada3D : Exploiting the Spatial Redundancy with Adaptive Inference for Efficient 3D Object Detection论文地址:https://arxiv.or...