Short Text Sentiment Classification Based on CNN-LSTM Model
-
摘要:
为了有效获取短文本评论隐含的语义信息进行情感倾向性识别,提出一种基于CNN-LSTM模型的短文本情感分类方法.利用卷积神经网络(convolutional neural network,CNN)模型设置不同大小的卷积窗口,提取短文本的语义特征.引入长短时记忆(long short-term memory,LSTM)神经网络模型对短文本的情感倾向进行预测.在3种不同的中英文短文本评论数据集上进行验证取得较好的性能,其中,在NLPCC评测数据集上,正、负向情感识别的F1值分别达到0.768 3和0.772 4(优于NLPCC评测的最优结果).相较于传统的机器学习分类模型,t-test检验结果表明性能提升显著.
Abstract:A CNN-LSTM model-based short text sentiment classification method was proposed to effectively obtain the implicit semantic information of short text reviews. The convolutional neural network (CNN) model was used to automatically learn the semantic feature by setting different sizes of convolution windows. The long short-term memory (LSTM) neural network model was used to predict the sentimental label of the short text. The performance of the model was evaluated on three different short text review data sets. The F1 value of the positive and negative data in NLPCC is 0.768 3 and 0.772 4, respectively (better than the best NLPCC evaluation result). Compared with the traditional machine learning classification model, t-test results show that the performance is improved significantly.
-
随着互联网技术的高速发展,人们通过网络与他人联系并分享一些有趣的话题及见解,这些信息包含大量的带有个人主观情感色彩的信息,涵盖了正向或负向的情感,对信息传播产生非常大的影响.
目前,国内外专家学者在情感分析领域取得较好的成果.采用的方法主要分为2类:第1类是基于情感词典的方法,第2类是基于机器学习的方法.赵妍妍等[1]提出基于海量微博数据,使用简单的文本统计算法,构建大规模情感词典,实验表明大规模词典有助于情感分类性能的提高. Cho等[2]通过数据驱动的方式,筛选合并多个情感词典,以获得对某个领域情感分类最有影响力的情感词集合,从而提高情感分类准确率.基于机器学习的短文本情感分类方法,通过设计特征,采用多种分类器进行情感分析.乌达巴拉等[3]基于依存句法的词语搭配特征和组合语义的深度特征,提出一种以短语为主要线索的半马尔可夫条件随机场文本情绪分析模型,对解决隐性情感分析问题具有重要作用.冀俊忠等[4]提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法,基于词典极性的分布信息与文档情感分类的相关性,将特征融合到朴素贝叶斯分类器中,提高了文档级情感分类的准确率. Li等[5]提出基于多种特征和资源的支持向量机(support vector machine,SVM)分类器构造方法,包括情绪词典和字矢量,同时使用模型迭代方式,对概率输出加权,提高了分类准确率.
以上方法取得了较好的情感分类效果,但人工进行特征选择,耗时费力.近年来,随着深度学习的崛起和迅速发展,可以有效解决这些问题.深度学习的方法可以借助大规模语料,让模型主动学习文本中潜在的句法和语义特征,更好地进行理解,有效弥补了人工提取特征在信息表示方面的不足,具有更好的灵活性、鲁棒性[6].深度学习在短文本处理领域也有较多的应用.卷积神经网络(convolutional neural network,CNN)的卷积与池化操作可以很好地应用于局部特征的抽取[7]. Attardi等[8]使用卷积神经网络进行情感分类,并在三分类数据集上取得较好结果. Deriu等[9]利用大量的数据进行远程监督,训练卷积神经网络模型,并与随机森林分类器进行组合,在极性分类方面进行优化.贾熹滨等[10]提出一种动态卷积超限学习算法,使用浅层随机神经网络替代全连接层,降低分类端对训练样本的依赖,提升分类性能.利用长短时记忆(long short-term memory, LSTM)神经网络通过引入存储单元和门控机制来捕获序列中的长期依赖关系,决定如何利用和更新存储单元中的信息,进而获得更持久的记忆,增加深度计算的优势[11]. Tang等[12]采用LSTM模型结合目标信息,明显提高了目标依赖情感分析的准确性.
本文提出一种基于CNN-LSTM神经网络模型的情感分类方法.利用CNN提取句子特征,包括句子的二元特征及三元特征,以此为基础,利用LSTM模型与softmax函数结合对短文本的情感倾向进行分类.
1. 基于CNN-LSTM模型的情感分类模型
卷积神经网络和长短时记忆神经网络在情感分类任务上都各有优势,卷积神经网络通过利用多卷积核对文本的词向量进行卷积操作,更有效地挖掘文本潜在的语义信息,而长短时记忆神经网络可以更好地对文本序列的语义进行预测.结合这2种类型的神经网络,提出了一种基于CNN-LSTM的神经网络模型,结构如图 1所示.
2. 基于CNN的短文本特征表示
卷积神经网络也称为卷积网络,是一种前馈神经网络,广泛应用于时序数据、图像数据处理,它的非全连接和权值共享的网络结构使之更类似于生物的神经网络,降低了网络模型的复杂度,减少了权值的数量[13].卷积运算能够在3个方面提高机器学习的性能:稀疏连接、权值共享、等值表示[14].
基于卷积神经网络的相关特性,本文设计了双层并行卷积神经网络,如图 1所示,对短文本的特征进行提取及表示,具体设计如下:
1) 嵌入层——句子表示
采用词频特征形成词向量,调用结巴分词(https://github.com/fxsjy/jieba/tree/jieba3k)对评论短文本数据进行分词,得到词语集合并统计词频,由于评论文本具有短文本简短精炼的特征,所以将句子的长度(包含的词语数量)限制为50.将句子输入到嵌入层中,每个词转换为256维的词向量,最终嵌入层输出50×256的二维矩阵,每个句子都形成n×m的二维矩阵${\bf Z}=\left[\boldsymbol{w}_{1}, \cdots, \boldsymbol{w}_{i}, \cdots, \boldsymbol{w}_{n}\right] $,其中,$ {\mathit{\boldsymbol{w}}_i} = \left[ {{\mathit{\boldsymbol{x}}_{i1}}, \cdots , {\mathit{\boldsymbol{x}}_{ij}}, \cdots , {\mathit{\boldsymbol{x}}_{im}}} \right]$为词wi的词向量.
2) 卷积层——特征提取
卷积层的目的是提取句子的语义特征,每个卷积核对应提取某一部分特征,本文设置卷积核数量为128个.对于嵌入层输出的每个句子矩阵Z进行卷积操作
$$ \mathit{\boldsymbol{S}}{\rm{ = }}f{\rm{(}}\mathit{\boldsymbol{W Z}}{\rm{ + }}\mathit{\boldsymbol{b}}{\rm{)}} $$ (1) 式中:S表示经过卷积操作抽取后的特征矩阵;权重矩阵W和偏置向量b为该网络学习的参数.
为了计算方便,需要对每个卷积核的卷积结果做非线性映射
$$ f=\mathrm{relu}=\max (0, x) $$ (2) 式中relu函数为神经网络模型常用的激励函数之一.
为了更全面地提取特征,本文同时使用大小为2和3的卷积窗口,分别提取句子的二元特征及三元特征.
3) K-Max池化层——特征降维
句子经过卷积操作后,将提取的特征传递给池化层.池化层将这些特征进一步聚合,简化特征的表达.本文中使用K-Max池化操作,它选择每个过滤器的Top-K个最大值代表该过滤器所表示的语义信息. K值表达式为
$$ K=\left\lfloor\frac{l-f_{\mathrm{S}}+1}{2}\right\rfloor $$ (3) 式中:l是句子向量长度50;fS是卷积窗口大小.
经过池化操作后每个卷积核提取的特征向量明显降低,并保留了句子最核心的语义信息.由于设置卷积核数量为128,因此池化后产生的句子表示矩阵为$\boldsymbol{W} \in \mathbb{R}^{K \times 128} $.
CNN的卷积层和池化层分别通过卷积操作和池化操作对短文本句子进行了特征提取,得到泛化后的二元及三元特征向量,经过融合层,将两类特征向量拼接在一起,作为LSTM模型的输入矩阵.
3. 基于LSTM的短文本情感分类
长短时记忆神经网络是一种特殊的循环神经网络(recurrent neural networks, RNN),具有学习长期依赖关系的能力,尤其是在文本处理中有较好的效果,在语言模型中能通过一定范围的上下文信息预测下一个词的概率[15].它解决了传统RNN在处理长序列数据时存在的梯度消失问题[16],见图 2.
LSTM模型有着多样的变化,门限重复单元(GRU)模型就是其中的一种变体.它结合了遗忘和输入门限,合成了一个“更新门限”,融合了单元状态和隐藏状态,使其模型比标准的LSTM模型更加简单,模型结构如图 3所示.
将CNN模型提取的特征矩阵输入LSTM神经网络结构中,进行情感倾向的预测,t时刻LSTM单元的输入由特征向量和t-1时刻LSTM单元的输出ht-1组成,神经网络中的激励函数是模型的关键,本文对sigmoid、tanh、relu三种激励函数分别进行验证.
将LSTM模型输出的向量矩阵输入到Dropout层中,防止数据过拟合现象.随后,将向量矩阵输入全连接层,进行降维处理.最后,通过softmax激励函数,得到情感分类概率.
基于CNN-LSTM模型的短文本情感分类算法描述如表 1所示.
表 1 基于CNN-LSTM模型的短文本情感分类算法Table 1. Algorithm of short text sentiment classification based on CNN-LSTM model算法:基于CNN-LSTM模型的短文本情感分类算法
输入:短文本集合
输出:短文本正负情感倾向的概率Begin /*读取短文本,标注情感倾向,对每条短文本分词,计算词频*/
Z=embedding (input=s, output=256, input_length=l);/*嵌入层对每个词形成256维词向量,形成向量矩阵Z*/
/*设置卷积核数量为128,卷积窗口为2和3,2种卷积操作同时进行,选取式(1)(2)进行卷积操作,得到特征向量矩阵S2、S3,选取式(3)进行池化操作,计算特征降维值k2、k3,得到新的特征向量矩阵C2、C3*/
fs=2:S2=relu(WZ+b);S2∈ ${{\mathbb{R}}^{49\times 128}} $
C2=MaxPooling1D(k2);C2∈${{\mathbb{R}}^{24\times 128}} $
fs=3:S3=relu(WZ+b);S3∈${{\mathbb{R}}^{48\times 128}} $
C3=MaxPooling1D(k3);C3∈${{\mathbb{R}}^{24\times 128}} $
concat(C2,C3);/*将C2和C3融合后作为LSTM模型的输入*/
/*选取式(4)(5)(6)分别进行实验,得到向量矩阵L1,L2,L3*/
L1=LSTM(output=128, activation=‘sigmoid’);
L2=LSTM(output=128, activation=‘relu’);
L3=LSTM(output=128, activation=‘tanh’);
emotion=softmax(Li);i=1, 2, 3 /*降维后,调用softmax激励函数对情感倾向进行分类*/
End4. 实验分析
4.1 数据集
本文实验中主要使用3个短文本数据集:1) NLPCC 2014(中文数据,http://tcci.ccf.org.cn/conference/2014/),中国中文信息学会举办的自然语言处理会议公布的深度学习情绪分类评测数据集,包含1万多条中文产品评论(Chinese product review). 2) Movie review data(英文数据,http://ai.stanford.edu/~amaas/data/sentiment/),该数据集包含5万条英文电影评论的情感分析标注语料. 3)中文情感分类数据集(multi-domain review data,http://spaces.ac.cn/archives/),“科学空间”搜集整理的2万多条中文标注语料.数据规模如表 2所示.
表 2 数据集Table 2. Data set数据集 训练集/条 测试集/条 全集/条 积极 消极 积极 消极 NLPCC2014 5000 5000 1250 1250 12500 Movie Review Data 12500 12500 12500 12500 50000 Multi-domain review data 7114 6952 3557 3476 21099 4.2 评价标准
采用较为通用的评测标准,准确率、精确率、召回率以及F1值的计算表达式分别为
$$ A=\frac{T_{\mathrm{P}}+T_{\mathrm{N}}}{T_{\mathrm{P}}+F_{\mathrm{P}}+T_{\mathrm{N}}+F_{\mathrm{N}}} $$ (4) $$ P=\frac{T_{\mathrm{P}}}{T_{\mathrm{P}}+F_{\mathrm{P}}} $$ (5) $$ R=\frac{T_{\mathrm{P}}}{T_{\mathrm{P}}+F_{\mathrm{N}}} $$ (6) $$ F_{1}=\frac{2 \times P \times R}{P+R} $$ (7) 式中:A表示准确率;P表示精确率;R表示召回率;TP表示将正类预测为正类数;FP表示将负类预测为正类数;TN表示将负类预测为负类数;FN表示将正类预测为负类数.
4.3 实验结果分析
本文针对3种语料数据集,采用标准的LSTM模型、GRU模型、CNN2、CNN3、CNN2+CNN3模型作为对比,LSTM+CNN2+CNN3模型为本文采用的模型,由LSTM模型结合2个并行的CNN模型构成,设置卷积窗口大小为2和3,分别标识为CNN2和CNN3.
4.3.1 不同激励函数对模型性能的影响
为了考察激励函数对模型实验结果的影响,本文针对3种语料数据集,均采用sigmoid、relu、tanh激励函数对6种模型的分类准确率进行测试,实验结果见表 3~5.
表 3 NLPCC评测数据集不同模型情感分类准确率(A)Table 3. Result comparison by different models on NLPCC data(A)模型 sigmoid relu tanh 积极 消极 积极 消极 积极 消极 LSTM 0.6664 0.7560 0.6116 0.6928 0.6368 0.7412 GRU 0.7392 0.7608 0.7392 0.7456 0.7032 0.7048 CNN2 0.7336 0.7009 0.7305 0.7376 0.7029 0.6731 CNN3 0.7601 0.7536 0.7500 0.7368 0.6876 0.6715 CNN2+CNN3 0.7026 0.7259 0.7373 0.7254 0.7306 0.6842 LSTM+CNN2 0.7040 0.7432 0.7360 0.7280 0.6896 0.6992 LSTM+CNN3 0.7248 0.7664 0.6864 0.6784 0.7288 0.6864 LSTM+CNN2+CNN3 0.7616 0.7792 0.7184 0.6864 0.7352 0.7176 表 4 Movie review data不同模型情感分类准确率(A)Table 4. Result comparison by different models on Movie review data(A)模型 sigmoid relu tanh 积极 消极 积极 消极 积极 消极 LSTM 0.7565 0.6839 0.6982 0.6711 0.7459 0.7614 GRU 0.7848 0.7774 0.7249 0.8163 0.7249 0.7284 CNN2 0.7523 0.7548 0.7725 0.7717 0.7714 0.7636 CNN3 0.7586 0.7892 0.7898 0.7854 0.7943 0.7729 CNN2+CNN3 0.7468 0.7795 0.7902 0.7831 0.7991 0.7726 LSTM+CNN2 0.7532 0.7648 0.7652 0.7716 0.7736 0.7680 LSTM+CNN3 0.7493 0.7575 0.7543 0.8004 0.7961 0.7721 LSTM+CNN2+CNN3 0.7992 0.8091 0.7080 0.7654 0.8110 0.7765 表 5 Multi-domain review data不同模型情感分类准确率(A)Table 5. Result comparison by different models on Multi-domain review data(A)模型 sigmoid relu tanh LSTM 0.8870 0.8783 0.8864 GRU 0.8880 0.8874 0.8901 CNN2 0.8801 0.8771 0.8629 CNN3 0.8807 0.8765 0.8770 CNN2+CNN3 0.8752 0.8833 0.8739 LSTM+CNN2 0.8763 0.8697 0.8676 LSTM+CNN3 0.8681 0.8723 0.8814 LSTM+CNN2+CNN3 0.8931 0.8752 0.8904 1) 不同激励函数对模型分类性能的影响
针对3种数据集,模型中的不同激励函数对最终分类结果会产生一定的影响.对于LSTM模型来说,不论是标准的LSTM,还是采用LSTM+CNN2+CNN3模型,sigmoid函数对模型分类的性能都要优于其他2种激励函数,这主要是因为sigmoid函数输出范围有限,收敛快,受噪音数据的影响相对较小.
2) 不同模型对分类准确率的影响
采用的模型LSTM+CNN2+CNN3在sigmoid、tanh参数下性能均要优于其余5种模型,尤其是在使用sigmoid参数时,情感分类性能提升较为明显,针对3种语料数据集,分类准确率均达到最优.从表 5可以看出,对于相同数据集,陈思[17]利用情感词典对大规模文本进行预处理,随后采用word2vec词向量与LSTM相结合的方式对文本情感进行分析,准确率为0.8607,本文模型准确率达到0.8931,进一步说明本文模型对分类性能的提升有着明显效果.
为了验证本文模型的有效性,同时,采用精确率,召回率及F1值进行评价,并将实验结果与NLPCC2014任务二评测结果进行对比,见表 6.
表 6 本文方法与NLPCC2014_Task2评测性能对比Table 6. Comparison result with NLPCC2014_Task2模型 积极 消极 P R F1 P R F1 LSTM+CNN2+CNN3 0.7616 0.7752 0.7683 0.7792 0.7657 0.7724 NLPCC2014_Task2_Medium(F1) 0.7225 0.6835 0.7025 0.6785 0.7265 0.7016 NLPCC2014_Task2_Best(F1) 0.7580 0.7890 0.7730 0.7800 0.7480 0.7640 由表 6可以看出,采用的基于CNN-LSTM模型的情感分类方法F1值明显优于NLPCC2014 Task2评测的中位水平;该任务的最优评测结果(NLPCC2014_Task2_Best)由Wang等[18]获得,采用词向量方式表示文本的原始语义,结合逻辑回归模型对情感倾向信息建模,共同学习单词的语义信息和情感极性特征,实现情感分类.同Wang等[18]相比,针对正向情感短文本,本文模型精确率0.7616,达到最优;对于负向情感短文本,本文模型召回率为0.7657、F1值为0.7724,均达到最优.
在NLPCC数据集上,对“句子长度”、“词向量维度”等参数对模型性能的影响进行了分析.句子长度分别设置为30、50、100、150,词向量维度分别设置为64、128、256、300.句子长度为50时,准确率为0.7704,达到最优.对于短文本,若句子长度设置较大,会形成稀疏的embedding矩阵;若句子长度较小,会丢失部分语义信息.词向量维度为256时,准确率达到最优值0.7704.若词向量维度较小,无法充分捕捉词语语义,词向量维度过大,训练效率降低,且易产生梯度消失现象,进而影响性能.
本文模型将CNN、LSTM相结合,在3种数据集上都表现出较好的性能.通过卷积和池化,能够更加准确、高效地提取文本中的二元及三元特征;借助LSTM长距离依赖的学习能力,有效地增强了模型对特征及文本上下文情感语义的捕获能力,进而提升了情感分类性能.
4.3.2 不同模型对分类性能的影响
为了验证基于CNN-LSTM的模型相较于常用机器学习算法及基本神经网络模型LSTM、CNN2+CNN3模型的有效性,设计了显著性检验实验,在NLPCC评测数据及Multi-domain review data两个数据集上,采用词频作为特征,分别用KNN分类器、SVM分类器、LSTM模型、CNN2+CNN3模型及LSTM+CNN2+CNN3模型进行了10折交叉验证,采用精确率、召回率及F1值进行评价,实验结果见图 4~5.
从图 4、5可以看出,针对2种语料数据集,在只用词频作为特征时,机器学习方法KNN、SVM的3个评价指标的值大多分布在0.5~0.7,性能相对较低;LSTM模型及CNN2+CNN3模型分类效果较好,3种指标的值分布在0.6~0.9;而本文提出的基于LSTM+ CNN2+CNN3模型的分类方法精确率均要优于其余4种模型,对于NLPCC数据集,精确率保持在0.7以上,对于Multi-domain review data数据集,3种评价指标的值均为0.8~0.9,明显优于基于KNN和SVM的分类结果,对分类性能的提升也要优于LSTM模型和CNN2+CNN3模型,并且比这两种神经网络模型更加稳定.
同时,针对2种数据集进行t-test检验,结果见表 7、8.
表 7 t-test结果(NLPCC数据集)Table 7. t-test result(NLPCC data)模型对比 KNN & LSTM+CNN2+CNN3 SVM & LSTM+CNN2+CNN3 LSTM & LSTM+CNN2+CNN3 CNN2+CNN3& LSTM+CNN2+CNN3 精确率 t=10.20 t=9.15 t=2.12 t=3.25 p=3.29×10-9 p=1.73×10-8 p=0.02 p=0.002 表 8 t-test结果(Multi-domain review data)Table 8. t-test result(Multi-domain review data)模型对比 KNN & LSTM+CNN2+CNN3 SVM & LSTM+CNN2+CNN3 LSTM & LSTM+CNN2+CNN3 CNN2+CNN3& LSTM+CNN2+CNN3 精确率 t=14.48 t=22.64 t=3.05 t=1.76 p=7.68×10-8 p=1.52×10-9 p=0.02 p=0.04 召回率 t=18.29 t=27.6 t=0.53 t=1.71 p=9.96×10-9 p=2.61×10-10 p=0.28 p=0.05 F1值 t=17.78 t=31.56 t=2.31 t=1.98 p=1.28×10-8 p=7.91×10-11 p=0.03 p=0.03 由表 7可知,对于NLPCC评测数据集,基于CNN-LSTM模型的方法相比于常规的机器学习方法KNN、SVM及基本的神经网络模型LSTM、CNN2+CNN3,精确率指标的p值均小于0.05,性能提升显著.
由表 8可知,对于Multi-domain review data数据集,相比于常规的机器学习方法KNN和SVM,基于CNN-LSTM模型的方法性能提升极其显著,3个指标p值均小于0.01;LSTM模型和CNN2+CNN3模型与本文采用的模型相比,精确率和F1值指标的p值均小于0.05,性能提升显著,由于精确率和召回率相互制约影响,召回率并无显著提升.
5. 结论
针对短文本简短、信息量少的特点,基于卷积神经网络CNN对评论短文本进行特征的抽取,使用不同大小的卷积窗口,分别提取句子的二元特征及三元特征;采用长短时记忆神经网络LSTM对评论文本的情感倾向进行预测,结合CNN和LSTM实现正负向情感的分类.在实验数据集上的结果表明,本文提出的模型能够有效挖掘短文本包含的隐含特征,并实现文本情感倾向预测,相对于机器学习方法KNN、SVM及基本的神经网络模型LSTM、CNN2+CNN3模型,t-test的结果表明性能提升显著.
-
表 1 基于CNN-LSTM模型的短文本情感分类算法
Table 1 Algorithm of short text sentiment classification based on CNN-LSTM model
算法:基于CNN-LSTM模型的短文本情感分类算法
输入:短文本集合
输出:短文本正负情感倾向的概率Begin /*读取短文本,标注情感倾向,对每条短文本分词,计算词频*/
Z=embedding (input=s, output=256, input_length=l);/*嵌入层对每个词形成256维词向量,形成向量矩阵Z*/
/*设置卷积核数量为128,卷积窗口为2和3,2种卷积操作同时进行,选取式(1)(2)进行卷积操作,得到特征向量矩阵S2、S3,选取式(3)进行池化操作,计算特征降维值k2、k3,得到新的特征向量矩阵C2、C3*/
fs=2:S2=relu(WZ+b);S2∈ ${{\mathbb{R}}^{49\times 128}} $
C2=MaxPooling1D(k2);C2∈${{\mathbb{R}}^{24\times 128}} $
fs=3:S3=relu(WZ+b);S3∈${{\mathbb{R}}^{48\times 128}} $
C3=MaxPooling1D(k3);C3∈${{\mathbb{R}}^{24\times 128}} $
concat(C2,C3);/*将C2和C3融合后作为LSTM模型的输入*/
/*选取式(4)(5)(6)分别进行实验,得到向量矩阵L1,L2,L3*/
L1=LSTM(output=128, activation=‘sigmoid’);
L2=LSTM(output=128, activation=‘relu’);
L3=LSTM(output=128, activation=‘tanh’);
emotion=softmax(Li);i=1, 2, 3 /*降维后,调用softmax激励函数对情感倾向进行分类*/
End表 2 数据集
Table 2 Data set
数据集 训练集/条 测试集/条 全集/条 积极 消极 积极 消极 NLPCC2014 5000 5000 1250 1250 12500 Movie Review Data 12500 12500 12500 12500 50000 Multi-domain review data 7114 6952 3557 3476 21099 表 3 NLPCC评测数据集不同模型情感分类准确率(A)
Table 3 Result comparison by different models on NLPCC data(A)
模型 sigmoid relu tanh 积极 消极 积极 消极 积极 消极 LSTM 0.6664 0.7560 0.6116 0.6928 0.6368 0.7412 GRU 0.7392 0.7608 0.7392 0.7456 0.7032 0.7048 CNN2 0.7336 0.7009 0.7305 0.7376 0.7029 0.6731 CNN3 0.7601 0.7536 0.7500 0.7368 0.6876 0.6715 CNN2+CNN3 0.7026 0.7259 0.7373 0.7254 0.7306 0.6842 LSTM+CNN2 0.7040 0.7432 0.7360 0.7280 0.6896 0.6992 LSTM+CNN3 0.7248 0.7664 0.6864 0.6784 0.7288 0.6864 LSTM+CNN2+CNN3 0.7616 0.7792 0.7184 0.6864 0.7352 0.7176 表 4 Movie review data不同模型情感分类准确率(A)
Table 4 Result comparison by different models on Movie review data(A)
模型 sigmoid relu tanh 积极 消极 积极 消极 积极 消极 LSTM 0.7565 0.6839 0.6982 0.6711 0.7459 0.7614 GRU 0.7848 0.7774 0.7249 0.8163 0.7249 0.7284 CNN2 0.7523 0.7548 0.7725 0.7717 0.7714 0.7636 CNN3 0.7586 0.7892 0.7898 0.7854 0.7943 0.7729 CNN2+CNN3 0.7468 0.7795 0.7902 0.7831 0.7991 0.7726 LSTM+CNN2 0.7532 0.7648 0.7652 0.7716 0.7736 0.7680 LSTM+CNN3 0.7493 0.7575 0.7543 0.8004 0.7961 0.7721 LSTM+CNN2+CNN3 0.7992 0.8091 0.7080 0.7654 0.8110 0.7765 表 5 Multi-domain review data不同模型情感分类准确率(A)
Table 5 Result comparison by different models on Multi-domain review data(A)
模型 sigmoid relu tanh LSTM 0.8870 0.8783 0.8864 GRU 0.8880 0.8874 0.8901 CNN2 0.8801 0.8771 0.8629 CNN3 0.8807 0.8765 0.8770 CNN2+CNN3 0.8752 0.8833 0.8739 LSTM+CNN2 0.8763 0.8697 0.8676 LSTM+CNN3 0.8681 0.8723 0.8814 LSTM+CNN2+CNN3 0.8931 0.8752 0.8904 表 6 本文方法与NLPCC2014_Task2评测性能对比
Table 6 Comparison result with NLPCC2014_Task2
模型 积极 消极 P R F1 P R F1 LSTM+CNN2+CNN3 0.7616 0.7752 0.7683 0.7792 0.7657 0.7724 NLPCC2014_Task2_Medium(F1) 0.7225 0.6835 0.7025 0.6785 0.7265 0.7016 NLPCC2014_Task2_Best(F1) 0.7580 0.7890 0.7730 0.7800 0.7480 0.7640 表 7 t-test结果(NLPCC数据集)
Table 7 t-test result(NLPCC data)
模型对比 KNN & LSTM+CNN2+CNN3 SVM & LSTM+CNN2+CNN3 LSTM & LSTM+CNN2+CNN3 CNN2+CNN3& LSTM+CNN2+CNN3 精确率 t=10.20 t=9.15 t=2.12 t=3.25 p=3.29×10-9 p=1.73×10-8 p=0.02 p=0.002 表 8 t-test结果(Multi-domain review data)
Table 8 t-test result(Multi-domain review data)
模型对比 KNN & LSTM+CNN2+CNN3 SVM & LSTM+CNN2+CNN3 LSTM & LSTM+CNN2+CNN3 CNN2+CNN3& LSTM+CNN2+CNN3 精确率 t=14.48 t=22.64 t=3.05 t=1.76 p=7.68×10-8 p=1.52×10-9 p=0.02 p=0.04 召回率 t=18.29 t=27.6 t=0.53 t=1.71 p=9.96×10-9 p=2.61×10-10 p=0.28 p=0.05 F1值 t=17.78 t=31.56 t=2.31 t=1.98 p=1.28×10-8 p=7.91×10-11 p=0.03 p=0.03 -
[1] 赵妍妍, 秦兵, 石秋慧, 等.大规模情感词典的构建及其在情感分类中的应用[J].中文信息学报, 2017, 31(2):187-193. http://d.old.wanfangdata.com.cn/Periodical/zwxxxb201702025 ZHAO Y Y, QIN B, SHI Q H, et al. Large-scale sentiment lexicon collection and its application in sentiment classification[J]. Journal of Chinese Information Processing, 2017, 31(2):187-193. (in Chinese) http://d.old.wanfangdata.com.cn/Periodical/zwxxxb201702025
[2] CHO H, KIM S, LEE J, et al. Data-driven integration of multiple sentiment dictionaries for lexicon-based sentiment classification of product reviews[J]. Knowledge-Based Systems, 2014, 71(1):61-71. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=01aaf0b2f61c4ce1f9595a5d07a767f5
[3] 乌达巴拉, 汪增福.一种基于组合语义的文本情绪分析模型[J].自动化学报, 2015, 41(12):2125-2137. http://cdmd.cnki.com.cn/Article/CDMD-10358-1017295537.htm ODBAL, WANG Z F. Emotion analysis model using compositional semantics[J]. Acta Automatica Sinica, 2015, 41(12):2125-2137. (in Chinese) http://cdmd.cnki.com.cn/Article/CDMD-10358-1017295537.htm
[4] 冀俊忠, 张玲玲, 吴晨生, 等.基于知识语义权重特征的朴素贝叶斯情感分类算法[J].北京工业大学学报, 2014, 40(12):1884-1890. doi: 10.11936/bjutxb2014121884 JI J Z, ZHANG L L, WU C S, et al. Semantic weight-based naive bayesian algorithm for text sentiment classification[J]. Journal of Beijing University of Technology, 2014, 40(12):1884-1890. (in Chinese) doi: 10.11936/bjutxb2014121884
[5] LI P J, XU W Q, MA C L, et al. IOA: Improving SVM based sentiment classification through post processing[C]//Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015). Denver: Association for Computational Linguistics, 2015: 545-550.
[6] 李超, 柴玉梅, 南晓斐, 等.基于深度学习的问题分类方法研究[J].计算机科学, 2016, 43(12):115-119. doi: 10.11896/j.issn.1002-137X.2016.12.020 LI C, CHAI Y M, NAN X F, et al. Research on problem classification method based on deep learning[J]. Computer Science, 2016, 43(12):115-119. (in Chinese) doi: 10.11896/j.issn.1002-137X.2016.12.020
[7] 刘龙飞, 杨亮, 张绍武, 等.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报, 2015, 29(6):159-165. doi: 10.3969/j.issn.1003-0077.2015.06.021 LIU L F, YANG L, ZHANG S W, et al. Convolutional neural networks for Chinese micro-blog sentiment analysis[J]. Journal of Chinese Information Processing, 2015, 29(6):159-165. (in Chinese) doi: 10.3969/j.issn.1003-0077.2015.06.021
[8] ATTARDI G, SARTIANO D. Unipi at semeval-2016 task 4: convolutional neural networks for sentiment classification[C]//Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016). San Diego: Association for Computational Linguistics, 2016: 220-224.
[9] DERIU J, GONZENBACH M, UZDILLI F, et al. Swisscheese at semeval-2016 task 4: sentiment classification using an ensemble of convolutional neural networks with distant supervision[C]//Proceedings of the 10th International Workshop on Semantic Evaluation. San Diego: Association for Computational Linguistics, 2016: 1124-1128.
[10] 贾熹滨, 李宁, 靳亚.用于文本情感极性分析的动态卷积神经网络超限学习算法[J].北京工业大学学报, 2017, 43(1):28-35. http://www.bjutxuebao.com/bjgydx/CN/Y2017/V43/I1/28 JIA X B, LI N, JIN Y. Dynamic convolutional neural network extreme learning machine for text sentiment classification[J]. Journal of Beijing University of Technology, 2017, 43(1):28-35. (in Chinese) http://www.bjutxuebao.com/bjgydx/CN/Y2017/V43/I1/28
[11] XU J C, CHEN D L, QIU X P, et al. Cached long short-term memory neural networks for document-level sentiment classification[C]//Proceedings of the 2016 Conference on Empicial Methods in Natural Language Processing. Ausin: Association for Compatational Linguistics, 2016: 1660-1669.
[12] TANG D Y, QIN B, FENG X C, et al. Effective LSTMs for target-dependent sentiment classification[C]//Proceedings of COLING 2016, the 26th International Conference on Computational Lingnistics.[s.l.]: ICCL 2016: 3298-3307.
[13] 尹宝才, 王文通, 王立春.深度学习研究综述[J].北京工业大学学报, 2015, 41(1):48-59. http://www.bjutxuebao.com/bjgydx/CN/abstract/abstract431.shtml YIN B C, WANG W T, WANG L C. Review of deep learning[J]. Journal of Beijing University of Technology, 2015, 41(1):48-59. (in Chinese) http://www.bjutxuebao.com/bjgydx/CN/abstract/abstract431.shtml
[14] FENG M W, XIANG B, GLASS M R, et al. Applying deep learning to answer selection: a study and an open task[C]//2015 IEEE Workshop on Automatic Speech Recognition and Understonding (ASRV). New York: IEEE, 2015: 813-820.
[15] ZHOU X J, WAN X J, XIAO J G. Attention-based LSTM network for cross-lingual sentiment classification[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin: Association for Computational Linguistics, 2016: 247-256.
[16] SUNDERMEYER M, ALKHOULI T, WUEBKER J, et al. Translation modeling with bidirectional recurrent neural networks[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha: Association for Computational Linguistics, 2014: 14-25.
[17] 陈思.微博文本情感分类研究[D].长春: 吉林大学, 2016. http://cdmd.cnki.com.cn/Article/CDMD-10183-1016090073.htm CHEN S. Research on micro-blog sentiment classification[D]. Changchun: Jilin University, 2016. (in Chinese) http://cdmd.cnki.com.cn/Article/CDMD-10183-1016090073.htm
[18] WANG Y, LI Z H, LIU J, et al. Word vector modeling for sentiment analysis of product reviews[C]//Natural Language Processing and Chinese Computing 2014. Berlin: Springer-Verlag, 2014: 168-180.