Wuwt-blog

学习 生活 分享

TorchServe部署transformers model

TorchServe

本篇博客来源于如何部署Pytorch模型,有部分改动。 什么是TorchServe? 使用Pytorch框架训练好了模型,如何部署到生产环境提供服务呢? 有Web开发经验的小伙伴可能首先想到的是用HTTP框架(例如Flask)进行简单的封装,做一个简单的HTTP接口来对外提供服务。但既然是生产,那还是免不了考虑性能、扩展性、可运维性等因素。另外,做好这个服务还要求开发人员具备良...

Triton Inference server部署transformers model

Triton Server

本篇博客来自于How to deploy (almost) any Hugging face model 🤗 on NVIDIA’s Triton Inference Server with an application to Zero-Shot-Learning for Text Classification,有部分改动。 SUMMARY 在这篇博客中,我们研究了Nvidia的...

BERT-Flow:词向量性质分析+标准化流

BERT-Flow

本文参考自BERT-flow: Sentence-BERT + Normalizing flows,部分有修改。 概述 BERT-flow 来自论文《On the Sentence Embeddings from Pre-trained Language Models》,中了EMNLP2020,主要是用了flow 模型校正了BRET出来的句向量的分布,从而使得计算出来的cos相似...

基于无监督的关键词抽取

key word extraction

本文参考自关键词抽取算法,部分有修改。 任务 关键词提取是从文本检索关键字或关键短语。这些关键词从文本中短语中选择出来并且代表了文档的主题。在本篇短文中我们将介绍几种常见的关键词抽取方法。 自动从文档中提取关键字是从文本文档中选择最常用和最重要的单词或短语的启发式方法。关键字提取是自然语言处理领域中的一个重要任务。 通过抽取关键字,有以下三个方面优点: 节省时间,根据...

基于模板的命名实体识别

named entity recognition

论文《Template-Based Named Entity Recognition Using BART》 地址:https://arxiv.org/abs/2004.01970 介绍 命名实体识别是一项基础的NER任务,最近的研究热点集中在few-shot NER任务上 ,目的是将资源丰富领域的不同标签迁移到低资源领域上。现在方法是基于相似性进行度量。然而这种方法不能完...

基于BERT生成对抗样本

text classification

论文《BAE:BERT-based Adversarial Examples for Text Classification》 地址:https://arxiv.org/abs/2004.01970 介绍 现在的文本分类模型受到对抗性样本的干扰。人类也无法分辨经过扰动后的原始文本,这些版本被模型错误分类。最新的NLP工作使用基于规则的同义词生成对抗性样本的策略,这些策略可能...

理解NLP SubWord算法

Byte Pair Encoding

本文参考自深入理解NLP Subword算法:BPE、WordPiece、ULM 介绍 Subword算法如今已经成为一个重要的NLP模型性能提升方法。自2018年BERT出现后,各路预训练模型如同雨后春笋般涌现,其中subword算法在其中已经成为标配。作为NLP从业者,有必要了解下subword算法的原理。 分词器是做什么的 机器无法理解文本。当我们将句子序列送入模型时,...

知识图谱增强语言表示

Knowledge Graph

Introduction K-BERT的由来 当前的预训练模型(比如BERT、GPT等)往往在大规模语料上进行预训练,学习丰富的语言知识,然后在下游的特定任务上进行微调。预训练文本和微调文本之间的领域区别,BERT在领域问题上表现不佳,比如电子病历分析。 对于特殊领域的文本,一般人只能理解字面上表达的,但是专家能够根据相关领域知识进行推理。像BERT这种公共模型就像普通人一样,在通用领...

如何训练一个BERT模型

BERT

本文参考自How to Train a BERT Model From Scratch,部分内容有删改。 我的许多文章都专注于BERT–这个模型出现并主导了自然语言处理(NLP)的世界,标志着语言模型的新时代。 对于之前没有使用过Transformers模型(例如BERT是什么)的人来说,这个过程看起来有点像这样: pip install transformers 初...

闲话NLP中的对抗训练

对抗训练

简介 提到“对抗”,相信大多数人的第一反应都是CV中的对抗生成网络(GAN),殊不知,其实对抗也可以作为一种防御机制,并且经过简单的修改,便能用在NLP任务上,提高模型的泛化能力。关键是,对抗训练可以写成一个插件的形式,用几行代码就可以在训练中自由地调用,简单有效,使用成本低。目前网上对NLP中对抗训练有一些介绍,笔者在由于自己在比赛中使用对抗训练技巧,所以在这里做一下记录。 第一...