Wwt-blog

学习 生活 分享

基于监督和层次的注意力机制模型

层次注意力

文本分类是一项基础的NLP任务,在主题分类、情感分析、垃圾邮件检测等应用上有广泛的应用。目标是给每篇文档分配一个类别标签。本文针对文本分类任务提出了一个层次化attention机制模型Hierarchical Attention Networks for Document Classification(HAN),有两个显著的特点: 采用“词-句子-文章”的层次化结构来表示一篇文本。 ...

基于注意力的图卷积联合事件抽取

图卷积

事件抽取是自然语言处理中一个重要任务。在现实世界中,一个句子中会经常出现多个事件,抽取单一事件要比抽取多个事件要简单的多。常见的事件抽取方法是通过对句子顺序建模建立起多个事件之间的关联关系,这种方法在捕获长远距离的依赖关系会受到非常大的影响。本文是发表在EMNLP 2018上的一篇关于事件抽取的联合模型论文,主要介绍了一种引入句法分析信息和图卷积网络来编码图信息,同时抽取触发词和论元。在AC...

不要怂,就是GAN

GAN学习初探

本文摘自文章《到底什么是生成式对抗网络GAN?》,部分内容稍作修改。 首先,先介绍一下生成模型(generative model),它在机器学习的历史上一直占有举足轻重的地位。当我们拥有大量的数据,例如图像、语音、文本等,如果生成模型可以帮助我们模拟这些高维数据的分布,那么对很多应用将大有裨益。 针对数据量缺乏的场景,生成模型则可以帮助生成数据,提高数据数量,从而利用半监督学习提...

NLP的游戏规则从此改写

语言模型

本文摘自夕小瑶专栏文章《NLP的游戏规则从此改写?从word2vec,ELMo和BERT》,部分内容稍作修改。 还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net+和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络”变成了NLP领...

玩转Keras之seq2seq自动生成标题

seq2seq

本文摘自博客《玩转Keras之seq2seq自动生成标题》,部分内容稍作修改 seq2seq是NLP与深度学习结合的经典之作,可以做的事情非常多,我挑选的是比较简单的根据文章内容生成标题(中文),也可以理解为自动摘要的一种。 seq2seq简介 所谓seq2seq,就是指一般的序列到序列的转换任务,比如机器翻译、自动文摘等等,这种任务的特点是输入序列和输出序列是不对齐的,如果对...

基于神经网络的实体识别和关系抽取联合学习

命名实体识别

本文摘自博客《基于神经网络的实体识别和关系抽取联合学习》,部分内容略微修改 联合学习(joint learning) 一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint Model)来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性标注联合学习,触发词抽取和论元抽取联合学习等。最...

Pytorch学习

Pytorch基础

本文参照chenyuntc 的github项目 pytorch-book,部分内容略微修改,仅作学习参考使用 Pytorch基础 Tensor Tensor 是Pytorch中重要的数据结构,可以认为是一个高维数组。它可以是一个数(标量)、一维数组(向量)、二维数组(矩阵)以及更高维的数组。Tensor和Numpy的ndarrays类似,但Tensor可以使用GPU进行加速...

GBDT算法原理初探

集成学习

本文参照博客《GBDT算法原理深入解析》,部分内容略微修改 GBDT算法:原理篇 GBDT是常用的机器学习算法之一,因其出色的特征自动组合能力和高效的运算大受欢迎。这里简单介绍下GBDT算法的原理。 梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的机器学习技术,属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算...

Boosting与Bagging

集成学习

个体与集成 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统,基于委员会的学习。 下图显示出集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生,例如C4.5决策树算法、BP神经网络算法等,此时集成中只包含同种类型的个体学习器,例如“决策树集成”中全是决策树...

排序算法

排序

排序的基本概念 排序(sorting)是按关键字的非递减或非递增顺序对一组记录重新进行整队(或排列)的操作。 当待排序记录中的关键字$k_i(i=1,2,…,n)$都不相同时,则任何一个记录的无序序列经排序后得到的结果是唯一的;反之,若待排序的序列中存在两个或两个以上关键字相等的记录时,则排序所得到的记录序列的结果不唯一。假设$k_i=k_j(1\leq i \leq n,1\leq j...