Wuwt-blog

学习 生活 分享

Pre-training for document AI with Unified Text and Image Masking

LayoutLMv3

背景 基于自监督预训练技术在文档智能方面取得了显著的成功。大部分预训练模型使用遮蔽语言模型来学习文本模态的双向表示,与图像模态上预训练任务不同,这无疑增加了在多模态领域的学习表示难度。因此我们提出LayoutLM v3预训练多模态的模型,统一了文本和图像遮掩任务。另外,LayoutLMv3模型还添加了word-patch对齐模块,通过预测对应的图像来预测被遮掩的单词,来学习交叉模块之间的对...

DNA序列向量化

milvus

本文参考自# 用 AI 识别基因,从向量化 DNA 序列开始,部分有删改 DNA 序列在分子生物学和医药研究中有着广泛的应用,比如基因溯源、物种鉴定、疾病诊断等。如果结合正在兴起的基因大数据,采取大量的样本,会使得实验更加具有说服力,也能够更有效地投入现实应用。 传统的核酸比对算法如BLAST,有着诸多的限制,并不适用于大规模的数据,这使得现实应用不得不在成本和准确率之间作出取舍...

事件抽取新范式

QA

今天刷到了一篇事件抽取的论文,方法比较新颖,将事件抽取任务描述为一个问答(QA)任务,以端到端的方式抽取事件,该论文目前发表在EMNLP2020的主会上。 论文:《Event Extraction by Answering (Almost) Natural Questions》 地址:https://github.com/xinyadu/eeqa/ 1.研究背景与动机 事...

关系抽取新方案--TPLinker

TPLinker

引言 近年来,从非结构化中提取实体和关系引起了越来越多的关注,但仍然具有挑战性,因为识别与共享实体的重叠关系具有内在的困难。以前的研究表明,联合学习可以带来显著的性能提升。然而,它们通常涉及顺序相关的步骤,存在曝光偏差的问题。在训练时,它们利用真实条件进行预测,而在推理时则必须从头开始提取,这种差异会导致错误累积。为了缓解这个问题,我们在本文中提出了一种单阶段联合提取模型,即TPLinke...

TorchServe部署transformers model

TorchServe

本篇博客来源于如何部署Pytorch模型,有部分改动。 什么是TorchServe? 使用Pytorch框架训练好了模型,如何部署到生产环境提供服务呢? 有Web开发经验的小伙伴可能首先想到的是用HTTP框架(例如Flask)进行简单的封装,做一个简单的HTTP接口来对外提供服务。但既然是生产,那还是免不了考虑性能、扩展性、可运维性等因素。另外,做好这个服务还要求开发人员具备良...

Triton Inference server部署transformers model

Triton Server

本篇博客来自于How to deploy (almost) any Hugging face model 🤗 on NVIDIA’s Triton Inference Server with an application to Zero-Shot-Learning for Text Classification,有部分改动。 SUMMARY 在这篇博客中,我们研究了Nvidia的...

BERT-Flow:词向量性质分析+标准化流

BERT-Flow

本文参考自BERT-flow: Sentence-BERT + Normalizing flows,部分有修改。 概述 BERT-flow 来自论文《On the Sentence Embeddings from Pre-trained Language Models》,中了EMNLP2020,主要是用了flow 模型校正了BRET出来的句向量的分布,从而使得计算出来的cos相似...

基于无监督的关键词抽取

key word extraction

本文参考自关键词抽取算法,部分有修改。 任务 关键词提取是从文本检索关键字或关键短语。这些关键词从文本中短语中选择出来并且代表了文档的主题。在本篇短文中我们将介绍几种常见的关键词抽取方法。 自动从文档中提取关键字是从文本文档中选择最常用和最重要的单词或短语的启发式方法。关键字提取是自然语言处理领域中的一个重要任务。 通过抽取关键字,有以下三个方面优点: 节省时间,根据...

基于模板的命名实体识别

named entity recognition

论文《Template-Based Named Entity Recognition Using BART》 地址:https://arxiv.org/abs/2004.01970 介绍 命名实体识别是一项基础的NER任务,最近的研究热点集中在few-shot NER任务上 ,目的是将资源丰富领域的不同标签迁移到低资源领域上。现在方法是基于相似性进行度量。然而这种方法不能完...

基于BERT生成对抗样本

text classification

论文《BAE:BERT-based Adversarial Examples for Text Classification》 地址:https://arxiv.org/abs/2004.01970 介绍 现在的文本分类模型受到对抗性样本的干扰。人类也无法分辨经过扰动后的原始文本,这些版本被模型错误分类。最新的NLP工作使用基于规则的同义词生成对抗性样本的策略,这些策略可能...