Wuwt-blog

学习 生活 分享

理解NLP SubWord算法

Byte Pair Encoding

本文参考自深入理解NLP Subword算法:BPE、WordPiece、ULM 介绍 Subword算法如今已经成为一个重要的NLP模型性能提升方法。自2018年BERT出现后,各路预训练模型如同雨后春笋般涌现,其中subword算法在其中已经成为标配。作为NLP从业者,有必要了解下subword算法的原理。 分词器是做什么的 机器无法理解文本。当我们将句子序列送入模型时,...

知识图谱增强语言表示

Knowledge Graph

Introduction K-BERT的由来 当前的预训练模型(比如BERT、GPT等)往往在大规模语料上进行预训练,学习丰富的语言知识,然后在下游的特定任务上进行微调。预训练文本和微调文本之间的领域区别,BERT在领域问题上表现不佳,比如电子病历分析。 对于特殊领域的文本,一般人只能理解字面上表达的,但是专家能够根据相关领域知识进行推理。像BERT这种公共模型就像普通人一样,在通用领...

如何训练一个BERT模型

BERT

本文参考自How to Train a BERT Model From Scratch,部分内容有删改。 我的许多文章都专注于BERT–这个模型出现并主导了自然语言处理(NLP)的世界,标志着语言模型的新时代。 对于之前没有使用过Transformers模型(例如BERT是什么)的人来说,这个过程看起来有点像这样: pip install transformers 初...

闲话NLP中的对抗训练

对抗训练

简介 提到“对抗”,相信大多数人的第一反应都是CV中的对抗生成网络(GAN),殊不知,其实对抗也可以作为一种防御机制,并且经过简单的修改,便能用在NLP任务上,提高模型的泛化能力。关键是,对抗训练可以写成一个插件的形式,用几行代码就可以在训练中自由地调用,简单有效,使用成本低。目前网上对NLP中对抗训练有一些介绍,笔者在由于自己在比赛中使用对抗训练技巧,所以在这里做一下记录。 第一...

Seq2Seq之Beam Search

Beam Search

本篇博文主要介绍beam search(束搜索)的基本原理以及其高效的实现方式。beam search广泛的应用在seq2seq模型中。但我尚未掌握其中的细节,目前为止,openNMT-py 是我见过最强大的翻译器和预测器,拥有着数量巨大的参数和广泛选项。 写这篇文章要比想象中难得很多。我发现很难简单一边介绍流程的内部工作原理,一边还要覆盖重要的代码块。由于这一困难,这篇博客被分成两部分,...

统一预训练语言模型

Unified Language Model Pre-training for Natural Language Understanding and Generation

UniLM论文全名为Unified Language Model Pre-training for Natural Language Understanding and Generation,译为自然语言理解与生成的统一预训练语言模型,来自于微软研究院。 本文参考自UniLM论文阅读笔记,部分有删改 介绍 目前,预训练模型(Language model) 大幅地提高了各种自然语...

基于预训练模型的文本摘要

Text Summarization with Pretrained Encoders

文本摘要任务 任务概述:浏览一篇新闻或论文,用精炼且核心的语句来概括整篇文章的内容,用户只需通过阅读摘要就能获取文章的主要内容。 文本摘要通过生成方式可以分为生成式和抽取式,根据处理对象的不同又可以分为单文档摘要和多文档摘要。 抽取式摘要主要从原文中抽取若干个句子作为摘要,通过对句子进行打分,获得句子的重要性,在通顺程度上要比生成式效果好,但也会出现冗余的问题。 生成式摘要与...

基于标签特定文本表示的文本多标签分类

Label-Specific Document Representation for Multi-Label Text Classification

本文是《Label-Specific Document Representation for Multi-Label Text Classification》的阅读笔记,部分内容有删改。 多标签文本分类旨在对给定文本分配多个相关类别的标签。在该篇论文中提出了一个label specific attention network(LSAN)来学习文档表示。LSAN能够利用标签的语义信息...

ELECTRA:超越BERT的预训练模型

ELECTRA

本文参考自ELECTRA: 超越BERT, 19年最佳NLP预训练模型,部分内容有删改。 1.简介 ELECTRA全称是Efficiently Learning an Encoder that Classifies Token Replacements Accurately。首先来看一下来自论文的自我吹嘘。 掩码语言模型(masked langauge model,MLM),类...

BERT应用之阅读理解

BERT

本文参考自BERT系列(三)– BERT在阅读理解与问答上应用,部分内容有删改。 机器阅读理解和问答是自然语言处理领域的一个热门主题。该任务旨在让机器人像人类一样能够看懂文章。因此本篇将通过介绍如何利用BERT来解决阅读理解与问答问题,来帮助新手入门阅读理解任务。 阅读理解与问答简介 机器阅读理解与问答主要涉及到深度学习、自然语言处理和信息检索。检索阅读理解具有很高的研究价值和...