Wwt-blog

学习 生活 分享

玩转Keras之seq2seq自动生成标题

seq2seq

本文摘自博客《玩转Keras之seq2seq自动生成标题》,部分内容稍作修改 seq2seq是NLP与深度学习结合的经典之作,可以做的事情非常多,我挑选的是比较简单的根据文章内容生成标题(中文),也可以理解为自动摘要的一种。 seq2seq简介 所谓seq2seq,就是指一般的序列到序列的转换任务,比如机器翻译、自动文摘等等,这种任务的特点是输入序列和输出序列是不对齐的,如果对...

基于神经网络的实体识别和关系抽取联合学习

命名实体识别

本文摘自博客《基于神经网络的实体识别和关系抽取联合学习》,部分内容略微修改 联合学习(joint learning) 一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint Model)来对一些有着密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性标注联合学习,触发词抽取和论元抽取联合学习等。最...

Pytorch学习

Pytorch基础

本文参照chenyuntc 的github项目 pytorch-book,部分内容略微修改,仅作学习参考使用 Pytorch基础 Tensor Tensor 是Pytorch中重要的数据结构,可以认为是一个高维数组。它可以是一个数(标量)、一维数组(向量)、二维数组(矩阵)以及更高维的数组。Tensor和Numpy的ndarrays类似,但Tensor可以使用GPU进行加速...

GBDT算法原理初探

集成学习

本文参照博客《GBDT算法原理深入解析》,部分内容略微修改 GBDT算法:原理篇 GBDT是常用的机器学习算法之一,因其出色的特征自动组合能力和高效的运算大受欢迎。这里简单介绍下GBDT算法的原理。 梯度提升(Gradient boosting)是一种用于回归、分类和排序任务的机器学习技术,属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算...

Boosting与Bagging

集成学习

个体与集成 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统,基于委员会的学习。 下图显示出集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生,例如C4.5决策树算法、BP神经网络算法等,此时集成中只包含同种类型的个体学习器,例如“决策树集成”中全是决策树...

排序算法

排序

排序的基本概念 排序(sorting)是按关键字的非递减或非递增顺序对一组记录重新进行整队(或排列)的操作。 当待排序记录中的关键字$k_i(i=1,2,…,n)$都不相同时,则任何一个记录的无序序列经排序后得到的结果是唯一的;反之,若待排序的序列中存在两个或两个以上关键字相等的记录时,则排序所得到的记录序列的结果不唯一。假设$k_i=k_j(1\leq i \leq n,1\leq j...

概率和信息论—下篇

概率

信息论 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含义噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。在这种情况下,信息论告诉我们如何设计最优编码,以及计算从一个特定的概率分布上采样得到、使用多种不同编码机制的消息的期望长度。在机器学习中,我们也可以把信息论应用在连续型变量上,而信息论中一些消息长度的解释不怎么使用...

概率和信息论—上篇

概率

概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明的公理。在人工智能领域,概率论主要由两种用途。首先,概率论告诉我们AI系统如何推理,据此我们设计一些算法来计算或者估算概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的AI系统的行为。 1.为什么要使用概率论 计算机科学的许多分支处理的实体大部分都是完全确定且必然的。...

LDA浅析

主题模型

什么是主题模型 话题模型(topic model)是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表,它可以将文档集中每篇文档的主题以概率分布的形式给出。通过分析一些文档,我们可以抽取出它们的主题(分布),根据主题(分布)进行主...

python快速解析XML文件

python解析xml

在XML解析方面,Python贯彻了自己‘开箱即用’(batteries include)的原则。在自带的标准库中,Python提供了大量可以用于处理XML语言的包和工具,数量之多,甚至让Python编程新手无从选择。 本文介绍深入解读利用Python语言解析XML文件的几种方式,并以minidom示例,演示具体使用方法和场景。文中使用的Python版本为3.5.2。 什么是XML X...