博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
论文笔记:A Gated Self-attention Memory Network for Answer Selection
阅读量:4290 次
发布时间:2019-05-27

本文共 1795 字,大约阅读时间需要 5 分钟。


作者:陈宇飞

单位:燕山大学



目录

一、研究问题

  答案选择(AS)是一个重要的研究问题,在许多的领域都有应用,以往的深度学习方法主要采用比较-聚合的结构,本文将采用一种新的方法结构来完成答案选择任务。

二、解决思路

  本文首先分析了以往的一些模型,比如,分析这些模型中都存在前几层只是单纯的把问题和候选答案分别编码成了向量表示的序列,但是这些序列都是相互独立的,完全忽略了该序列与另一个序列之间的信息联系的问题,这也是本文为解决这个问题所提出的模型的设计思路和创新点,本文提出使用记忆网络(memory network)和自注意力两个架构,同时结合来自大规模在线语料库的简单迁移学习技术来完成答案选择任务。

三、模型设计

3.1 The gated self-attention mechanism

  与传统的注意力机制求输入向量序列 X = [ x 1 . . x n ] X=[x_1..x_n] X=[x1..xn]与上下文信息 c c c之间的相关性得分 α \alpha α相比,本文提出了一种叫做门控注意力机制的新方法,在传统注意力的基础上加入了自注意力 s i j s_i^j sij用来表示序列中的第 i i i个单词和序列中的第 j j j个单词的注意力分数,也就是向量 x x x的自注意力分数,然后再计算向量 c c c和向量 x x x的注意力分数 s i c s_i^c sic,最后将计算的相关性分数汇总成 g i g_i gi,其本质就是想把两个向量 c c c x x x同时融入到attention机制中。

在这里插入图片描述

3.2 Combining with the memory network

  因为在大多数以前的存储器网络架构中,存储器单元之间的交互相对有限,在每一跳,单个控制向量只能用于独立解释每个存储单元。为了克服这一限制。本文模型设计采用记忆网络与上述门控自我注意机制相结合的方法,其中简化记忆流程如下图。

在这里插入图片描述

其中用 c k c_k ck来控制上下文, x 1 k . . . x n k x_1^k...x_n^k x1k...xnk作为第 k k k个位置的跳跃点记忆值,控制向量 c c c是随机初始化的,初始记忆向量 x 1 k . . . x n k x_1^k...x_n^k x1k...xnk可以采用word2vec、GloVe、BERT等来获取。每次门控自我注意机制的计算结果作用在记忆单元的更新计算中,公式如下。

在这里插入图片描述

由于上述公式已经处理了记忆向量 x i k + 1 x_i^{k+1} xik+1,所以在更新控制器 c k c_k ck时只需将每个记忆向量 x i k + 1 x_i^{k+1} xik+1求和取平均,无需进行加权平均,公式如下。

在这里插入图片描述

3.3 GSAMN for answer selection

  在做答案选择任务时,方法就比较简单了。先将问题和答案进行拼接,然后当作一个输入序列输入模型,将任务视为一个二分类问题。

3.4 Transfer Learning

  因为现在大量公共社区问答平台的兴起,这些平台包含大量的问答对,同时会包含很多领域的问答,这就为本文的迁移学习提供了一个很好的机会。首先使用从社区问答平台中爬取的数据集预先训练一个答案选择模型,然后本文采用了WikiQA数据集和TrecQA数据集作为实验数据集,在预先训练好的模型上进行微调。该迁移学习方法的优势在于数据获取简单,只需要在相关网站爬取数据即可,且可以提升模型性能。

四、实验分析

4.1 Ablation Analysis

  消融实验部分较为简单,只是单纯的将模型做了拆分,列出了实验结果,没有进行分析,实验结果如下,其中消融实验只做了BERT baseline、[BERT + GSAMN]、[BERT + Transfer Learning] 三个,其他为对比实验结果。

在这里插入图片描述

4.2 对比实验

 本文使用[BERT+Transformers]、[BERT+Transformers+Transfer Learning],在Bert之后加入额外的6层的Transformers并没有对模型有提升,原因是BERT本身已经包含12个Transformer layers,堆叠更多的层将没有任何帮助,尤其是在测试的数据集不大的情况下。

转载地址:http://gqmgi.baihongyu.com/

你可能感兴趣的文章
javascript设计模式-享元模式(10)
查看>>
javascript设计模式-代理模式(11)
查看>>
Executor相关源码分析
查看>>
react之setState解析
查看>>
elasticsearch7.3版本已经不需要额外安装中文分词插件了
查看>>
【重大好消息】elasticsearch 7.3版本已经可以免费使用x-pack就可以设置账号和密码了,让你的数据不再裸奔
查看>>
解决使用logstash中jdbc导入mysql中的数据到elasticsearch中tinyint类型被转成布尔型的问题的方法
查看>>
elasticsearch7.3版本环境搭建(一)elasticsearch安装和配置
查看>>
SEO基本功:站内优化的一些基本手段
查看>>
centos6系列和7系列如何对外开放80,3306端口号或者其他端口号
查看>>
为什么您宁愿吃生活的苦,也不愿吃学习的苦?为什么你不愿意去学习呢
查看>>
解决elasticsearch7.3版本安装过程中遇到的包括内存不够、线程不够等问题
查看>>
日常项目测试用例检查点(来自一线测试人员的吐血总结)
查看>>
网站建设之域名注册和域名备案
查看>>
解决bootstrap时间输入框总被浏览器记住的记录遮挡住的问题
查看>>
git将一个分支完全覆盖另外一个分支如:dev分支代码完全覆盖某一个开发分支
查看>>
elasticsearch7.3版本环境搭建(二)可视化管理后台kibana的安装和配置
查看>>
elasticsearch7.3版本环境搭建(三)可视化管理后台kibana的汉化(设置中文界面)
查看>>
记录一次DDos攻击实战
查看>>
分享一首小诗--《致程序员》
查看>>