基于深度学习的网络舆情情感倾向性研究
本文主要研究的内容是基于深度学习的网络舆情情感倾向性分析,在当前的社会中,舆情信息的快速传播会对当前社会稳定造成一定的影响,因此研究网络中的舆情信息情感倾向性有利于对社会舆论状态的实时掌控。因此本文主要从舆情信息提取、本文表示方法、特征提取以及情感倾向性计算这四个方面来做出相应的研究。概括起来本文研究的主要内容如下所示:(1)本文通过采用了解网站、用户代理、网站地图、爬取时延以及各种爬取策略来进行网站链接收集。采用正则表达式、Beautiful Soup和lxml这三种方式进行数据抓取,对爬取的数据进行清理后最终可以得到舆情分类文本。(2)针对词向量表示技术,本文采用CBOW和CWE两种词向量表示模型进行对比实验,这两种模型属于向量空间模型,向量空间模型可以将字词转换为连续值的向量表达,同时可以从大量未标注的普通文本数据中无监督地学习出词向量,并解决矩阵稀疏度过大的问题。(3)针对特征提取技术,本文提出两种改进的语言模型,分别为基于双向变型长短时记忆神经网络的语言模型,基于深度简化门控单元的语言模型。其中基于双向变型长短时记忆神经网络的语言模型采用三种变型的长短时记忆神经网络结构,分别为窥孔记忆结构、动态皮层记忆结构以及双门耦合连接结构。通过实验分析对比出一种能够更好地优化传统长短时记忆神经网络结构,同时结合双向神经网络结构来解决长程依赖问题。基于深度简化门控单元的语言模型,能够简化参数的同时运用记忆结构来存储上下文的信息。本文中为了加深对结构的训练采用深度循环网络结构,在保证参数优化的同时能够提取较好的特征值。(4)针对最终情感倾向性计算,转化为特征向量分类的问题。本文在分类器的选择中使用了基于反向无关自编码器的分类方法和基于栈式自编码神经网络的分类方法。实验结果表明:在五种对比实验中基于双向双门控记忆语言模型和基于深度简化门控单语言模型能取得最好的分类效果。CWE模型通过利用内部字符和外部上下文相结合的优点,并且可以很容易地集成到字嵌入模型中,双向循环网络则可以利用时序数据中某个输入的过去及未来数据,CWE比CBOW能够取得更好的词向量表示效果。三种变型的长短时记忆结构可以通过实验得到双门控结构可以在实现结构优化的同时
达到较好的特征提取效果。双向循环网络可以解决长程依赖的问题,优于传统的单项循环网络结构。
因篇幅问题不能全部显示,请点此查看更多更全内容