平面向量

必威开户app-深度学习之文本分类模型-前馈神经网络(Feed-ForwardNeuralNetworks)

作者: 2021-03-05 我要评论

纯净、安全、绿色的下载网站目前位置:首页IT学院IT技术深度学习-应用-转发神经网络文本分类模型深度学习的文本分类模型——前馈神经网络丹(深度防护网)图文快速文...

纯净、安全、绿色的下载网站

目前位置:首页IT学院IT技术深度学习-应用-转发神经网络文本分类模型

深度学习的文本分类模型——前馈神经网络

丹(深度防护网)

图文

快速文本文本分类

快速文本的n-gram模型

Doc2vec

MLP(多层感知器)被称为MLP(多层感知器),它是由多层网络简单堆叠而成。然后我们可以在输出层加入softmax,或者提取输入层作为特征,然后输入到SVM、logistic回归、朴素贝叶斯等传统分类器中进行分类预测。最具代表性的是DAN,其基本结构如下图所示:

在输入层面,我们将每篇文章中的词汇向量相加并平均。在中间隐藏层,我们建立多层神经网络单元进行深层特征提取。对于每一层,我们都有相应的激活功能,其中激活功能可以根据我们的需要进行选择。在输出层,我们增加了softmax层,输出层数就是分类标签数。我们需要做的是最大化当前文章标签对应的神经元节点,然后构造损失函数,更新参数。

在预测阶段,我们输入文章的必维开户app,最后根据输出层softmax最大的节点得到我们的预测标签。对于多分类,我们可以限制多分类的阈值和数量,取最大topK标签。

模型使用中的诀窍:在作者的论文[1]中加入了脱落,输入层随机丢弃,增加了模型的鲁棒性。

模型简单,训练速度快。

通过增加隐藏层节点的数量,可以增加模型的复杂度,提高模型的准确性。

缺点:

由于输入层采用求和平均动作,不考虑必维开户应用之间的顺序信息。

Fasttext是facebook在2016年推出的一个获取单词向量并快速分类的工具。它的基本思想是基于Google提出的Word2vector,经过稍微改进,创建了一个既能获取单词向量,又能对文本进行分类的工具。根据PiotrBojanowski[2]等人的文章,fasttext增加了n-gram模型,增加了Biwei开户app。实验结果表明,情感分析和t**标注都取得了较好的效果。

要想了解fasttext的基本原理,首先要对word2vec有一定的了解,详细说明可以参考word vector模型word2vec。

Fasttext用于文本分类,其基本模型类似于word2vec,只是将叶子节点改为类别标签。让我们将文章设置为\(D\),\(d_{i}\inD\),这意味着第\(i\)篇文章,而\(w_{ij}\)意味着第\(i\)篇文章中的第\(j\)个必维开户应用程序对于文章中的\(j\)个必维开户应用程序\(w_{ij}\),我们可以提取其上下文必维开户应用程序\(上下文(w _ { ij)\),我们可以构建一个模型

将图层输入到隐藏图层。对于CBOW模型,输入的是当前开户app的上下文。我们可以在这里设置一个窗口的阈值,比如1,然后我们将两个开户应用的词向量从输入层加到隐藏层得到vec(context(wij)),得到隐藏层的节点。从隐藏层到叶节点,我们可以

设置一个全连接层,在输出层,我们可以进行一个softmax,最终最大化当前文章的label,进而构造损失函数,进行求解。

在隐藏层到输出层中,我们可以用哈夫曼树来代替全连接结构,进而加快训练的速度。个人认为,其实对于量级比较少的label,构造哈夫曼树的作用不大,但是对于类别标签较多的样本来说,构造哈夫曼树作用还是比较大的

以上便是fasttext用于文本分类的整体流程,笔者实验了在大数据集上的文本分类速度和效果,整体上还是不错的,可以作为文本分类的一个baseline。

由于输入的必威开户app仅仅做了一个简单的加和,并没有考虑必威开户app之间的顺序特征,举个例子,"我爱你"和"你爱我"经过分词之后,可以看到如果根据词袋模型,两者的输入是完全相同的,但是如果加入n-gram信息的话,就变成了"我爱你我爱爱你"和"你爱我你爱爱我"这样输入的特征就不一样了,区分了两者。

所以根据[3]的思想,我们可以在分类或者是向量学习的阶段,将n-gram特征作为输入的信息,增加更多的特征,使得学习的更充分。

那么综上,我们来总结一下fasttext的优缺点

fasttext在构建使用的哈夫曼树,极大增加了训练和预测的速度。

加入了n-gram模型,考虑了必威开户app之间的顺序问题,有效的提高了准确率。

缺点:

虽然fasttext加入了n-gram模型以增加必威开户app之间的顺序信息,但是总体来说其受限于context的长度,对于大于context窗口大小的必威开户app,无法捕捉其顺序信息。

Doc2vec是一种获取文章向量的一种方法,为什么要放在文本分类的里面呢,是因为当我们获取文章向量之后,我们就可以将文章向量输入到SVM,逻辑回归进行分类预测了,所以,本质上doc2vec目的并不是用于分类,而是获取文章向量的上面。

Doc2vec是由TomasMikolov[4]提出的一种文章向量获取的方法,其思想是建立在Word2vec的基础上,区别在于将文章的向量D也作为一种可变的参数,加入到训练中,如下图所示,当我们要预测第四个必威开户app"on"的时候,我们将这批词所对应的文章向量D与另外三个必威开户app作为输入,同时进行预测,在输入层,我们可以利用简单的加和或者是取平均值,剩下的基本就和Word2vec一样,从隐藏层到输出层我们可以建立一个神经网络,输出节点的个数即为必威开户app的个数,或者我们用哈夫曼树,加快训练的时间。

同样,作者在论文中还提出了一种skim-gram的doc2vec,如下图所示,即我们用当前文章向量D作为输入。

我们简单总结一下doc2vec的优缺点

doc2vec是一种无监督的学习,根据语料可以直接获得文章的向量,省去了手工获取特征的麻烦,而且随着我们语料的增加,模型会更加的精确。

文章和词向量一起训练,一定程度上使得文章向量的表达更准确。

缺点:

模型结构比较简单,不能捕获必威开户app的order信息。

[1]MohitIyyer.(2015)DeepUnorderedCompositionRivalsSyntacticMethodsforTextClassification

[2]ArmandJoulin.(2016)B**ofTricksforEfficientTextClassification.

[3]PiotrBojanowski(2016)EnrichingWordVectorswithSubwordInformation.

[4]TomasMikolov(2014)DistributedRepresentationsofSentencesandDocuments.

目录1.LRU缓存引见2.ConcurrentLinkedQueue简单引见3.ReadWriteL..

本篇文章为系列文章,未读第一集的同窗请猛戳这里:SpringCloud系列之Gateway效劳网关(..

Copyright2019-【软件云】版权所有粤ICP备号|

声明:所有软件和文章来自软件开发商或者作者如有异议请与本站联系本站为非赢利性网站不接受任何赞助和广告

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 明升体育在线注册-平面向量知识点整理

    必威开户app-深度学习之文本分类模型-前馈神经网络(Feed-ForwardNeuralNetworks)

  • 爱拼正网注册-电脑中打开流放之路游戏出现无效向量T怎么解决

    必威开户app-深度学习之文本分类模型-前馈神经网络(Feed-ForwardNeuralNetworks)

  • sp全讯网新2-平面向量知识点总结(精华)

    必威开户app-深度学习之文本分类模型-前馈神经网络(Feed-ForwardNeuralNetworks)

  • 6up要领安全访问-流放之路无效向量T解决方法

    必威开户app-深度学习之文本分类模型-前馈神经网络(Feed-ForwardNeuralNetworks)

热门资讯