信息与电脑2018年第21期China Computer&Communication软件开发与应用基于深度学习的话题流行度预测徐华韫 龚泽阳 何正杰 朱 政 尚锦浩(国际关系学院信息科技学院,北京 100091)摘 要:新浪微博是当下社会中使用最为广泛的网络社交平台,其中的话题模块涵盖了当下社会的关注点。本文通过使用网络爬虫获得的微博话题数据,结合话题主持人、类别及标题内容等进行特征提取,构建两层分类器,使用FastText和GBDT的架构,对微博话题能否成为热门话题进行预测,预测在实验中可以达到85.27%的准确率。关键词:数据分析;神经网络;自然语言处理中图分类号:TP393.092 文献标识码:A 文章编号:1003-9767(2018)21-057-03Deep Learning Based Topic Popularity PredictionXu Huayun,Gong Zeyang,He Zhengjie,Zhu Zheng,Shang JinhaoAbstract: (School of Information Science and Technology, University of International Relations,Beijing 100091,China)social focus. This article uses the microblogging topic data obtained by the Internet crawler, combines the topic host, category, and Sina Weibo is the most widely used online social platform in the current society. The topic module covers the current title content to extract features, builds a two-layer classifier, and uses the structures of FastText and GBDT to predict whether the microblogging topic can become a hot topic. The accuracy of the prediction can reach 85.27 % in the experiment.Key words: data analysis; neural network; natural language processing随着互联网的不断发展,微博热点话题的研究成为了研1.1 特征爬取究社会舆情方向的重要手段。微博热点话题的种类有直接性等特点,其影响巨大。通过对微博热点话题的预测可以了解新浪微博提供的热门话题榜单,可以基本涵盖社会中人网民兴趣点的变化态势。们所有的关注点。本次实验所获得的数据集均由爬取该榜单微博热点话题的预测主要采用传统的机器学习方法,如获得。为了方便构建特征工程,爬取目标为每个话题的标题、SVM[1]、K近邻[2]、贝叶斯网络[3]等,也有采用数据挖掘技术[4]导语、话题主持人、话题类别和标签等数据。与此同时,将解决此问题的尝试。以上的尝试大都基于话题热度的时间变爬取话题阅读量作为话题热门度的参考。化进行分析预测,所需周期长。而目前火爆的深度学习方法1.2 网络爬虫使用的频率却不高,如BP神经网络,而且效果不显著。运用requests库等模块编写爬虫程序,从新浪微博WAP为了获得理想的微博热点话题预测结果,笔者提出基于端侵入获取数据,批量获取话题数据。为了应对可能出现的FastText和GBDT的微博热点话题预测模型,通过该模型对反爬虫机制,采取设置headers以及ip代理的伪装方式保证微博话题的某些文本特征进行预测,而不用考虑其随时间演爬虫的顺利进行。化而形成的特征,具有实时性。结果表明,本文模型提高了微博热点话题的预测精度。2 特征构建及模型1 数据集获取本文选取3个话题属性,即话题主持人认证状况,话题类别,话题标题和导语,作为输入,转换成向量形式嵌测试的数据集来源于新浪微博话题榜单中的话题,包括入模型中。而使用的模型包含两层分类器,第一层是文本财经、体育、文娱等板块。采用网络爬虫技术,爬取微博话题,分类器,第二层是话题分类器,最后获得对于该话题热门数据时间跨度为2018年2月至2018年8月。度的预测。作者简介:徐华韫(1997-),男,江苏南京人,本科在读。研究方向:数据科学与工程。龚泽阳(1997-),男,湖北十堰人,本科在读。研究方向:智能信息处理。— 57 —软件开发与应用信息与电脑China Computer&Communication2018年第21期2.1 主持人认证状况、类别特征归纳、提取,所以CNN在目前的分类任务中被广泛运用。新浪微博话题主持人主要负责该话题的传播、讨论等方在本文中使用的卷积神经网络结构为双层CNN。对于输入面事项。通常话题主持人影响力与话题的影响力呈正比,而的词向量进行特征提取,通过不断的卷积,最后完成分类认证情况则是体现话题主持人影响力的一大因素。现有的认任务。此外,为了优化该网络,本文使用了改进模型,包括证包括微博官方认证、微博个人认证、微博达人和无认证等TextCnn[8]和CNN-BiLSTM模型,以提升性能。4个类别。而话题的类别同样对于话题热门度有着相当重要2.3 热门话题分类器的影响。通常而言,文体类别下的话题会更受群众的关注。本次实验的数据共覆盖214个类别。以主持人认证状况、类别特征、话题文本特征作为输入,考虑到认证类别和话题类别总数有限,因此分别使用判定该话题是否为热门话题的分类器。本文中使用了BP神one-hot编码形式来表示,将认证情况与话题类别分别转换成经网络、SVM[9]和GBDT[10]分类器。本段主要介绍GBDT向量形式。有时出现一个话题分属多个类别的情况,例如话分类器。题“湖南卫视歌手”属于两个类别:“综艺”“内地节目”。决策树可以认为是if-then规则的集合,易于理解,预此时就将这两个类别的one-hot编码相加。测速度快。但是,单独使用决策树算法时,有易过拟合的缺点。GBDT是一种用于回归、分类和排序的机器学习技术,2.2 话题文本特征可将弱学习器提升为强学习器,以构建最终的模型。而且,提取话题的标题和话题导语组成话题内容特征。使用自GBDT可以通过抑制决策树的复杂性,降低单颗决策树的拟然语言处理算法,根据文本对话题未来的流行度进行预测,合能力,再通过梯度提升的方法集成多个决策树,从而解决预测其成为热门话题的可能性,即为话题文本内容这一特征过拟合的问题。另外,GBDT通过加入正则项等方法能够有的影响因子,也是文本分类器的输出。借助Word2Vec等工具,效地抵御噪音,具有更好的健壮性,微博文字散漫无序的特将文本中的词语向量化,作为词语级别的嵌入,输入到文本点在微博热点话题预测中具有关键作用。分类器中。具体采用的模型如下。算法可以看作是由K棵树组成的加法模型:2.2.1 FastText=ˆKi∑k=1fk(xFastText[5] yi),fk∈F (1)是一个构架简单、基于浅层神经网络的高其中F为所有树组成的函数空间,该模型的参数为θ={ 效率分类器,其训练速度相较于n-gram等深度学习模型而f1, f2,…, fk}。与一般的机器学习算法不同的是,加法模型不言,十分优异。FastText网络结构其模型架构十分类似于是学习多维空间中的权重,而是直接学习决策树集合。Word2Vec[6]中的Cbow模型,只有三层:输入层、隐藏层、模型的损失函数为:softmax层,如图1所示。 =Loss∑nK=i1l=(yi,ˆyl,)+∑k1Ω(fk) (2)其中Ω表示决策树的复杂度,比如树的叶子节点数量、树的深度等。在笔者提出的模型中,笔者将话题主持人的微博认证情况和话题涉及的类别转化成的向量,W1和W2与文本分类器,例如FastText输出的评分Score进行拼接后,连接形成的向量作为GBDT模型的输入,最终输出得到此话题是否可以成为热点话题的预测结果。整体模型如图2所示。图1 FastText架构在FastText的输入端,每一个节点的输入经过词向量矩阵的转换后获得1×n的向量,n即为设定的词向量维度。在隐藏层经过平均池化后,通过softmax层获得各个标签的概率。FastText独特之处在于,输入端的特征是n-gram特征,此外与普通的偏平的softmax层不同,FastText中使用哈夫曼树构建的层次softmax,对结果进行预测。2.2.2 CNN及相关网络卷积神经网络(CNN)[7]一般用于图像识别、分类等领域,由于其特有的卷积层和池化层可以对图像中的信息进行图2 FastText-GBDT话题分类器架构图— 58 —信息与电脑2018年第21期China Computer&Communication软件开发与应用3 实验确的判断,并且提供了提升模型准确度的方法。然而话题主3.1 实验数据集持人影响力并不能完全由认证情况反映,且该模型对于之前未出现的陌生节目、人名,并不能及时跟进进行准确预测,本文中使用的数据集为使用爬虫获取的新浪微博话题数所以,该模型还有待改善。据集,共13 457条。以阅读量1亿为分界线,阅读量超过1表2 不同话题分类器和文本分类器组合的性能比较亿的话题被定义为热门话题,反之则为非热门话题。数据集文本分类器话题分类器准确率中,共有3 590个热门话题,占总数据集的26.67%。首先对BP神经网络75.97%FastTextSVM83.27%于文本分类器,使用8 277个话题训练文本分类器,训练结LGBT85.27%束后使用剩下5 180个话题进行测试,给每一个话题的文本BP神经网络73.93%特征给予评分。之后对于5 180个话题再进行一次划分,4 双层CNNSVM80.21%148个话题作为训练集,1 032个话题作为测试集,训练话题LGBT83.49%分类器。3.2 文本分类器参考文献构建文本分类器,将话题标题和话题导语拼接之后,经[1]杨俊成.基于支持向量机的网络热点话题预测[J].微型电分词、去停用词等操作后,转换为词向量,作为网络输入。脑应用,2017,33(7):30-32,36.实验中,笔者采用FastText、CNN、TextCNN等模型进行测[2]聂恩伦,陈黎,王亚强,等.基于K近邻的新话题热度预试,结果表明,FastText在话题文本分类中表现最为出色,测算法[J].计算机科学,2012,39(6):257-260.而LSTM并未对测试结果有产生显著提升。[3]张一文,齐佳音,方滨兴,等.基于贝叶斯网络建模的非常表1 不同文本分类器性能比较规危机事件网络舆情预警研究[J].图书情报工作,2012,56(2):76-80.文本分类器准确率[4]张贵红,李中华.基于数据挖掘技术的微博热点话题预测FastText80.21%双层CNN76.83%[J].现代电子技术,2017,40(15):52-55.CNN-BiLSTM76.44%[5]A Joulin,E Grave,P Bojanowski,et al. Bag of Tricks for TextCNN76.81%Efficient Text Classification[J].ARXIV,2016.3.3 话题分类器[6]T Mikolov,K Chen,G Corrado,et al.Efficient Estimation of 将one-hot表示的认证情况和话题类别,与通过文本分Word Representations in Vector Space[J].Computer Science,2013.类器得到的文本内容评分,三个部分拼接起来形成一个一维[7]A Krizhevsky,I Sutskever,GE. Hinton.ImageNet Classification 向量,作为话题分类器的输入。在此阶段,主要采用BP神with Deep Convolutional Neural Networks[J].2012,60(2):1097-1105.s经网络、SVM支持向量机和LGBT三种结构分别搭建话题[8]Y Kim.Convolutional Neural Networks for Sentence 分类器。文本分类器选用之前表现良好的FastText和双层Classification[J].Eprint Arxiv,2014.CNN。具体的测试结果如表2所示。[9]C Corinna,V Vapnik.Support-Vector Networks.Machine Learning,1195,20(3):273-297.4 结 语[10]JH Friedman.Greedy Function Approximation: A Gradient 对于新浪微博话题的热门度预测,本模型可以做到较准Boosting Machine[J].Annals of Statistics,2001,29(5):1189-1232.(上接第56页)联算法[J].宇航学报,2011,32(3):560-566.[8]刘根旺,刘永信,纪永刚,等.基于模糊双门限的高频地波[13]Tian Wei,Wang Yue,Shan Xiu-ming,et al.Track-to-track 雷达与AIS目标航迹关联方法[J].系统工程与电子技术,2016,38(3):5 Association for Biased Data Based on the Reference Topology Feature[J].57-562.IEEE Signal Processing Letters,2014,21(4):449-453.[9]高峰,谢小平,熊伟.基于广义绝对灰关联度的航迹关联[14]Tian Wei,Wang Yue,Shan Xiu-ming,et al.Analytic Performance 算法[J].雷达科学与技术,2016,14(6):642-647.Prediction of Track-to-Track Association with Biased Data in Multi-sensor [10]何友,宋强,熊伟.基于相位相关的目标航迹对准关联Multi-target Tracking Scenarios[J].Sensors,2013,13(9):12244-12265.技术[J].电子学报,2010,38(12):2718-2723.[15]杨哲,韩崇昭,李晨,等.基于目标之间拓扑信息的数据[11]何友,宋强,熊伟.基于傅里叶变换的航迹对准关联算关联方法[J].系统仿真学报,2008,20(9):2357-2360.法[J].航空学报,2010,31(2):356-362.[16]齐林,崔亚奇,熊伟,等.基于距离检测的自动识别系统和[12]宋强,熊伟,何友.基于复数域拓扑描述的航迹对准关对海雷达航迹抗差关联算法.电子与信息学报,2015,37(8):1855-1861.— 59 —