您的当前位置:首页正文

基于微博信息热度评价与预测分析

2022-11-18 来源:好走旅游网
基于微博信息热度评价与预测分析

基于微博的信息热度评价与预测分析摘要微博已成为时下非常热门的社交媒体平台,是一个庞大的关于信息分享和话题交流的平台,在人们线上社交活动中发挥着不可替代的作用,由于网络信息鱼龙混杂,所以本文通过了解微博的热度机制进而研究微博热度和预测微博的热门程度,本文研究内容对于监控预测微博舆情有重要的借鉴意义。

本文主要以新浪微博作为研究对象,首先进行爬取工具的选取,随后通过分析信息传播特征,从微博的用户、内容与传播三个方面提炼影响微博热度的主要因素,并提取关键指标建立热度体系评价指标,运用因子分析法建立微博热度评估模型,得到各微博信息维度表达式以及热度计算公式,对数据进行整理分析,最终对其结果进行排序和对比,发现模型比较符合实际情况,表明本模型具有较高的准确性。

随后又提出了基于PSO优化BP神经网络的话题热门程度预测模型。构建出话题热门程度的时间序列模型作为预测模型的输入,依照优化后的预测模型,完成了对话题热门程度值的预测。实验结果表明基于PSO优化BP神经网络的话题热门程度预测模型能够很好的模拟话题热门程度的变化趋势,对现实具有一定的指导意义。

在微博平台中,任何用户都可以自由发布内容,还可以对其他用户发送的内容发表自己的评论并转发,另外由于近些年视频信息传播愈发火热,图像处理技术也变得更加成熟,传播信息鱼龙混杂,可靠程度有待考量,于是了解微博的热度机制并对微博热度进行评估与预测,对于监控预测微博舆情,推动传播真实有效信息,营造活跃健康的社交平台具有重要作用。

1.1.2研究意义在微博信息热度评估中,曝光度高、阅读数量或者互动数较高的内容信息比较容易成为热门微博,平台中包括“热搜排行榜”和“热门话题”等对每位用户进行推送,还会根据热度大小对热门微博的内容进行排序。本文在分析了影响热门微博传播的一些因素之后,拟建立热度评价模型与热门微博预测模型,通过计算热门微博的热度与热门程度的变化趋势,来对话题热度的监控与预测,从而可以更加有效的缩小平台的负面信息与虚假信息的传播范围,使大众浏览到更多真实可靠的时政信息。

本文结合微博信息内容和用户行为,主要运用因子分析法建立微博热度评估模型,对微博热度进行量化处理,随后利用BP神经网络学习建立了热门微博预测模型,来判断微博内容能否成为热点微博,并判断热门程度的变化趋势。本文研究在促进真实的时政信息传播,研究平台商品营销推送以及推动政府对舆情监测与预警等方面,提供了可以借鉴的理论与实践依据。

衡量微博热度,研究重心应该放在微博内容与用户行为两个方面,其中用户不仅指发布者,还指该用户所面向的粉丝群体。尽管平台会根据内部的排序机制对所有微博按大小进行排序,包括首页热搜以及指定话题搜索排名等,但缺点是其并不知道其排序时热度的计算原理以及热度差距产生的原因,基于此,本文运用因子分析法建立了微博热度评估模型,得出热度的计算公式,将热度进行量化,并得出了新的排序结果与原排序进行对比。

1.2.2热门话题预测现状分析对于各类热门话题的预测,学术界一般主要采取以下两种预测方法,第一种是指比较典型的线性预测方法,但仅仅适合对平稳曲线进行预测,不适合预测多种类型的热门话题。第二种是指基于非线性理论建立预测模型,该种分析方法更具系统性与智能性,如支持向量机,可以对数据进行广义线性分类,大致实现非线性拟合,不足之处是会经常陷入局部最优,无法得到全局最优解[11-12]。Suh等人选取了话题类型、粉丝人数等属性,基于主成分分析法提炼了影响用户互动行为的主要因素,并建立了精确度较高的因子图模型,对用户行为进行了合理预测[13-14]。刘功申等人通过定量计算用户对微博的影响,对已有算法进行优化,可以凭借微博发出者的用户属性预测该微博是否会被大量转发,进而给出舆情预警[15]。张敬基于话题热度,提出微博热度预测算法,结合多维度数据建立回归预测模型,实现对话题热度的预测[17]。F.D.Sahneh,C.Scoglio根据传染模型的多层网络传播原理建立预测模型,预测话题的未来走向,并详细地阐述了信息扩散时的传播规律以及信息的相互作用。因为BP神经网络在面对比较错综复杂的问题上,收敛速度慢,处理时间长,而且很容易收敛到局部最优值,不能达到全局最优[18]。

对于上述问题,许多研究者提出了相关改进方法。颜文俊等基于遗传算法优化BP神经网络的预测模型,利用光伏输出等原理,提高了算法的收敛速度,进而提高了预测的效率与精度,但并未改进结果局部最优这一缺陷[19]。

丁硕与巫庆辉通过对比多种经典的优化算法的渐近函数,分析各改进算法对不同数据规模的分析效果,发现每种算法都有适用范围,在各自适用范围内逼近效果接近良好。周爱武等通过利用最优样本集相关原理,改进了原始算法,缩短了算法的运行时间,迭代次数也大大降低,但算法自身仍然有局限性[20]。

1.3研究内容研究基于微博客户端,运用爬虫软件python中的Selenium爬取工具,采集5个话题热门微博的相关数据,就内容、用户、传播三个角度运用因子分析法建立微博热度评估模型,并验证模型准确性。随后利用BP神经网络研究基于PSO算法的热门微博预测算法,最后通过实例验证热点话题预测结果的可靠性。

1.4组织结构本文共包括四章,下面介绍每章的主要内容:

第一章绪论本章简要从微博热度评价与热门程度预测的选题背景、研究意义进行了简要阐述,对话题热度评价与预测的国内外研究现状以及课题研究内容与流程进行了概括。

第二章预备知识本部分阐述了研究开始前需要了解的预备知识,包括爬取工具的选取,热度评价与热门预测等方面的理论知识,奠定了全文的理论基础。

第三章热度评价模型的建立,本章基于爬取的热门微博数据,运用因子分析法提取重要因素建立热度体系评级指标,就内容、用户、传播三个角度运用因子分析法建立微博热度评估模型,基于该模型对内容热度进行排序对比,实行热度评估模型的验证。

第四章本章建立了结合PSO算法,基于BP神经网络的热门微博预测模型,首先分析热门话题的表现形式,运用算法原理,将进行预测的微博信息作为模型的输入,来完成对微博热门程度与趋势的预测,最终进行了实际检验。

第2章预备知识在进行实际操作之前,首先对涉及到的基础理论知识进行简单介绍。

2.1爬取工具的选取微博相较于其他网站,涉及功能比较齐全,所以对微博页面内容进行爬取并非易事,除此之外其反爬虫技术更为先进,一半的爬虫工具无法快速获取到目标信息,但总的来说其数据格式比较统一,综上我们基于微博网站的运行机制,借助python中的技术与手段,可以快捷地爬取到微博中的指定内容及相关数据。

网络爬虫原理是基于爬虫语句对目标网站的信息进行获取,而近年来反爬虫技术发展迅速,由此获取网站信息也变得没那么容易。。在爬取数据时往往会遇到各种各样的拦截,比如常见的“403Forbidden“错误,它表示服务器已经识别出爬虫并拒绝处理用户的请求。而

SeleniumPythonAPI技术,是以一种非常直观的方式来访问浏览器的技术,包括定位元素、自动操作键盘鼠标提交页面表单、抓取所需信息。Selenium的爬虫原理是先识别所需爬取内容的HTML源码,通过其所提供的方法定位到所需信息的结点位置,并获取其文本内容。本文利用python中的pip工具来安装selenium和对应的浏览器驱动,以便进行后续的数据爬取。

用户关注度也是衡量话题热度的关键因素。用户关注度中的用户,是指各类时事报道的阅读者。一条微博信息包括了用户阅读量,转发数,评论数等数据,可以反映用户对该信息或者该话题的关注程度,还可以间接反映话题在用户中的影响范围与程度。

2.2.2媒体影响力媒体影响力是决定微博热度的第二个要素,一般来说,自媒体指每个独立且普遍的信息传播者,他们以各种类型的线上方式,向粉丝用户推送时下信息或推广商品的信息。同一事件相关的微博内容会有很多自媒体平台进行转发评论,但是不同的自媒体其传播范围与影响力都不尽相同。一般来说,微博信息的传播呈树状传递,一些加v用户的微博发出后通过粉丝的阅读和互动不断扩大影响力,而且粉丝数量越多,传播范围就会越广,阅读量与互动数也会越高,会比较容易成为热点话题。

一般来说,媒体是指通过现代和电子手段向大多数人或特定的个人传递规范性和非规范性信息的私人、公共、普遍和独立的传播者。同一事件相关的微博内容会在不同的自媒体用户之间复制传播,但不同个体媒体的传播能力和影响程度不同。

2.2.3内容的丰富程度在微博平台上,用户发布信息几乎没有限制,很多用户发布的内容比较随意,有的是对日常生活的记录,有的是倾诉悲喜遭遇,有的是对时事的思考评论。根据互联网上的随机调查报告显示,42.52%的“加V用户”会发布新锐观点、时事评论等,37.47%会在微博上分享日常,13.69%的“加V用户”会经常发布一些专业领域的知识,而仅仅只是转发不加以任何评论的用户较少,只有7.69%,并且越是可以表达自己思想的微博用户,越会引起人们的评论转发与关注。

2.2.4话题的时效性话题的热度衡量依据是各类媒体报道数量与用户关注程度,若某话题被评为热门话题,该话题下必定有许多关于该话题的内容信息。一般情况下,热门话题里面所讨论的事件都是最近的或者时下发生的事件,用户或者表达自己的立场或者发表自己的见解。因此最新发布的新信息的热度比之前发布的信息的热度要高,随着描述的事件慢慢过时,人们对事件的讨论的热度会逐渐下降。

热点话题是收集大量已发表的信息,热点话题是收集的每一篇新闻报道的热点之和。一般来说,热门话题下的用户描述当前事件并报告最近的事件2.3热门预测算法2.3.1预测依据新浪微博近年来已经成为被人们广泛使用的社交媒体平台,话题经过形成与不断传播,最终可成为热门话题。对于平台上的每一条微博信息都包括以下七个部分:用户ID、发送时间、内容(包括图片与视频)、评论数、转发数和点赞数以及阅读量。微博,粉丝与发布者的互动行为(包括主观性评论、转发与点赞)都可以反映用户对该话题的兴趣程度。这些互动行为对预测微博传播趋势有重要意义,它可以衡量某条微博的热门程度。因此,新浪微博为了提高用户的阅读效率,使用户快速获取到热门信息,按照一定标准对所有热门微博按规律进行排序,该标准是综合考虑微博的所有内容信息得到的,包括热搜榜与热门话题等,根据其是否在排行榜或热搜话题内,所有微博可以分为非热门微博与热门微博。

显而易见,要判断某条微博是否热门,就要分析微博的所有信息特征,所以可以依据信息增益原理,按照微博所有信息特征衡量其热门程度,预测微博能否成为热门,或者判断热门微博的变化趋势。

2.3.2基于PSO算法的BP神经网络上世纪八十年代,McCelland与Rumelhart提出BP神经网络这一概念,该算法拥有非线性映射能力等优势,只要在输入层输入信号,经过隐含层处理,由输出节点产出输出信号,若输出信号并未达到预期期望,就会通过转入误差,调整权值,将误差分摊给每个隐含单元,及时进行参数修正重新计算结果,直到得到期望的输出结果。BP神经网络可以求解复杂非线性函数的全局最优值,算法本身采用局部搜索优化策略,缺点是算法容易陷入局部最优。而粒子群优化算法(简称PSO)具有良好的局部开采能力,通过改变粒子学习模式,提高迭代速度,

快速更新粒子的位置,从而确立可使全局最优的粒子,且操作简单,收敛速度快,获取结果效果与精度俱佳。可以将BP神经网络嵌入到PSO算法中去,提升局部搜索能力,实现与BP神经算法的优势互补,最终完成BP神经网络预测模型的构建。

2.4本章小结本文首先对全文涉及到的基础理论知识进行了简单介绍。对于爬取工具的选取,本文选择运用SeleniumPythonAPI技术爬取热门微博,还分析了影响话题热门程度的一些因素,对预测方法的依据与实现方法也做了基本阐述。

第3章热度评价模型的建立3.1微博登录与信息爬取通过使用pathon中的Selenium自动化工具,在Firefox浏览器通过定位审查元素,通过无头模式找到用户名,密码的HTML源码,调用selenium来定位按钮节点,最后进行登录。

3.2建立热度评价模型本文基于抓取的五种类型热门微博的数据,从用户、内容与传播三个角度,提炼了建立热度评价模型的7个参考指标,根据原始数据进行相关性分析,建立基于因子分析法的热度评价模型,得出热度值的计算公式,并对计算结果进行整理分析,对各类热门微博结果按热度值大小进行排序和对比,分析模型的准确性。

表3-1微博热度评价模型参考指标微博热度评价体系热度影响因素考量因素指标含义内容热度影响力图片充实度微博图片数量字数充实度微博文字数量与100相比发布时长从发出到记录数据之间的时间间隔发布者热度影响力粉丝数量记录数据时的粉丝数量互动数近30天发布的内容产生互动行为数据统计指标发博率发博数量和活跃天数的比值传播热度影响力转发数某条微博的转发数量评论数某条微博的评论数量点赞数某条微博的点赞数量由表3-1,本文首先围绕内容热度影响力、发布者热度影响力、传播热度影响力三个维度结合爬取微博的原始数据信息,提出了包括阅读量、转发数、点赞数、评论数、博主粉丝数、发博次数、发布时长、文字与图片数量等参考因素。

考虑到转发数、评论数、点赞数这三个原始数据数值较大,不利于数据的处理与分析,本文拟通过互动数与重度传播率来反映微博传播热度,互动数综合考察了点赞数、被转发数、被评论数和博文曝光数等信息,可以直接反映发博带来的网友互动与传播情况,此外重度传播率主要结合转发评论数与阅读量,其数值含义为转发并评论数/阅读量,可以有效地考量传播热度。

由此,我们确立了七个因子指标,针对内容热度,选取的参考指标为文字充实度、图片充实度以及传播时长;

针对发布者热度,选取的参考指标为粉丝数与发博率; 针对传播热度,选取的参考指标为重度传播率与互动数。

下面进行数据预处理,根据获得相对应的各个微博因子数据,初步建立微博热度评价体系。从2022年4月21日在新浪微博平台用python分别爬取了关于新闻、体育、学习、情感、娱乐五个热门话题的前五条微博,并将参考指标进行处理加工,由此初步形成了比较完善的微博热度体系的的评级体系,如下3-2为七个因子指标的记录与处理结果:

表3-2五种话题类型的热门微博指标数据话题类型热门微博粉丝数(万) 传播时长(h)文字充实度图片充实度发博率重度传播率互动数(万) 新闻183962.51.12452.50.0753.73新闻264332.10.78944.80.0841.06新闻345542.30.96338.50.0726.29新闻452121.90.72134.80.0612.80新闻536151.90.81232.60.0510.05体育120649.61.04964.2.0.0411.94体育

220258.40.98954.20.038.46体育310367.21.23344.30.046.74体育45467.80.72232.20.026.19体育53155.20.89121.70.025.39学习1169020.50.38924.10.0113.22学习

217613.80.49926.80.0211.54续表3-2五种话题类型的热门微博指标数据话题类型热门微博粉丝数(万)

传播时长(h)文字充实度图片充实度发博率重度传播率互动数(万) 学习314614.80.51920.50.019.23学习41428.90.14914.60.0010.48学习

5466.70.24912.90.007.24情感1291618.20.63325.30.0426.93情感2114519.70.28125.60.0224.72情感366613.81.24318.30.0318.84情感422612.41.08217.60.0120.27情感

512415.40.44121.70.0114.62娱乐126688.20.8142.40.0746.39娱乐27327.30.35438.60.0537.21娱乐35747.50.48232.50.0336.42娱乐43965.20.64934.10.0324.73娱乐

52174.30.96928.50.0217.55由表3-2,我们计算得到了了25条热门微博七个因子指标的具体数据,

对五种话题类型的五条热门微博按照出现的次序进行计算,基于以上七个指标的详细数据,开始进行因子分析。

进行因子分析之前首先要确定变量间的相关性,因此需要先进行KMO与Bartlett的检验。其中KMO检验统计量是通过比较变量间简单相关系数和偏相关系数来反映变量间的相关性,其取值越接近1越说明变量相关性较强。当KMO>0.9时说明表示非常适合进行因子分析,0.7<KMO<0.9则说明比较适合进行因子分析,KMO<0.6则说明相关性较弱,因子分析法失效。

Bartlett球状检验原理为判断相关阵中变量的独立性,若变量相互独立,就无法在变量中提取公因子,也就无法利用因子分析法建立模型。其数值越大,且伴随概率<0.01时,就说明数据集适合使用因子分析法建立模型。

首先在SPSS软件中选择分析工具栏中的降维选项进行KMO与Bartlett的检验,检验结果如表3-3表3-3KMO和巴特利特检验KMO取样适切性量数0.824巴特利特球形度检验近似卡方532.972自由度21显著性0.003由SPSS检验结果得到KMO值为0.824,Bartlett检验统计量的观测值为532.974,显示p值<0.05,说明各变量间具有相关性,可以说明因子分析适合用于建立模型。下表3-4为方差解释结果,图3-2为碎石图:

表3-4方差解释结果成分初始特征值提取载荷平方和总计方差百分比累积%总计方差百分比累积%13.65452.20352.2033.65452.20352.20321.61623.07975.2821.61623.07975.2823.79111.30486.586.79111.30486.5864.4806.85293.4385.3124.45597.8936.0941.34599.2387.053.762100.000提取方法:主成分分析法。

图3-2碎石图本文按照累计方差百分比不少于80%和特征值不少于1为标准,提取了3个公因子,由表3-4可以得到3个公因子可以累计解释信息的86.586%,各因子分别解释信息的52.203%,23.079%和11.304%。根据碎石图,前面三个因子特征值均不小于1,所以提取了三个因子,即微博信息维度F1、F2、F3,分别代表微博内容信息,微博博主信息,微博传播信息。

我们已经得到三个维度的权重,再根据各个维度的数据,就可以通过以下公式计算热度: (3-1)

如公式(3-1),I表示提取因子的数量,代表第i个因子其相关数据,则代表第i个因子所占的权重。

为计算热度指数,我们需要根据成分得分矩阵分析每一公因子的成分构成。下表3-5为成分得分系数矩阵结果表3-5成分得分系数矩阵成分123粉丝数(万) .257.046-.100互动数(万)

.164-.392.166发博率.087.443.738文字充实度.195.280.110图片充实度-.232.223.038传播时长(h)-.138-.343.807重度传播率.250-.146.134提取方法:主成分分析法。

表3-5中通过比较每行的相关系数,可以直观看出公因子与哪些指标的相关性较高。表中展示了7个指标的成分系数得分,分别代表三个微博信息维度、、。本文中代表第一微博信息维度,指代博主信息,包括粉丝数量、互动数量、发博率;

代表第二微博信息维度,指代微博内容信息,包括文字与图片充实度;

代表第三微博信息维度,用于指代微博传播信息,包括传播时长、重度传播率等。于是我们得到各微博信息维度的计算公式: 第一微博信息维度: (3-2)

第二微博信息维度: (3-3)

第三微博信息维度: (3-4)

最后根据三个公因子的方差贡献率和各个公因子指标体系维度的表达式,根据公式(3-1),得到微博热度的计算公式(3-5): (3-5)

3.3通过热度排序对模型进行检验由上式(3-5)可以得到每条热门微博的综合热度结果,此外本文根据热度大小对五种类型热门话题的5条微博进行了重新排名,如下表3-6。

表3-6热门微博热度计算结果与重新排名话题类型热度初始排名新排名F1F2F3F新闻114321.3229.72-0.281256.78新闻233654.0730.53-0.261130.56新闻323261.5431.47-0.521148.12新闻442407.7132.24-0.341081.36新闻552864.8234.35-0.17930.25体育

112181.3825.85-0.69706.89体育221774.5626.74-1.01657.15体育331861.3815.96-1.33604.74体育451447.4424.41-1.05521.71体育541328.6728.52-1.24538.94学习111291.2538.63-0.57273.85学习221147.6237.12-0.61246.36学习331233.4438.45-0.42241.47学习

441225.5135.56-0.58196.26学习55905.8923.78-0.65183.84情感112071.8922.15-0.43736.93情感221671.4521.59-0.59646.77情感341215.3221.75-0.66471.23情感43971.7117.53-0.24496.75情感55815.2821.97-0.38351.88娱乐113770.0628.64-0.721075.56娱乐222966.6523.31-0.56864.19娱乐332770.3233.17-0.65775.22娱乐441466.4737.28-0.47624.57娱乐

551770.5925.39-0.53563.95从表3-6得出本文基于新浪微博热门按顺序截取的五类热门话题,又经过热度计算得出了五类话题热门微博的真实热度排序,经过对比,发现与截取的微博热度排序大致相同。从信息维度来看,新闻类与娱乐类微博第一信息维度F值较大,即博主影响力较大,导致计算得出的热度值较高,与实际情况也是相符的。新闻类、学习类、娱乐类第二信息维度F值较大,说明这几类热门微博内容表示都比较充实。总体热度值比较结果为,新闻类>娱乐类>体育类>情感类>学习类,与实际情况基本相符,由此可以看出建立的模型可以比较准确的反映微博真实热度问题。

3.4本章小结本章基于爬取的热门微博数据,通过分析信息传播特征,提炼影响微博热度的主要因素,并提取重要因素建立热度体系评级指标,运用因子分析法提取重要因素建立热度体系评级指标,就内容、用户、传播三个角度运用因子分析法建立微博热度评估模型,得到各微博信息维度表达式以及热度计算公式,对数据进行整理分析,最终对其结果进行排序和对比,发现模型比较符合实际情况,表明本模型具有较高的准确性。

第4章预测模型的建立4.1热门微博判断指标形成热门话题需要用户对此类事件进行大量转发与评论,且内容观点需要集中。由此可以根据微博的内容和博主特征对微博的传播特征来预测转发数,评论数,以及点赞数,进而判别其能否成为热门微博。

由于微博内容和博主特征的复杂性,以及对于微博传播影响的非线性和不确定性,BP神经网络算法拥有非线性映射能力等优势,只要在输入层输入信号,经过隐含层处理,就可以在输出节点产出输出信号,应用范围十分广泛。其拓扑结构包括输入层、隐层和输出层,本文拟采用典型的三层BP网络结构,如图4-1。

图4-1进行预测的拓扑结构对于微博的点赞行为,其可以反映用户对话题的关注程度和对内容的认可程度,而转发行为可以说明此条微博的传播范围,评论行为则可以反映用户对话题的参与度,这些用户行为都可以说明此条微博的热门程度。因此,本文选取热门微博的平均讨论数量、平均转发量、平均评论数、平均点赞数来衡量微博热门程度。各指标通过以下公式进行计算: (4-1)

其中分别为转发量,评论数,点赞数,由选取的各项指标综合构建出反映内容热度的度量公式,公式如下: ++++++=(4-2)

根据式(4-2)我们得到了内容热门的度量值,随后将该度量值根据时间先后存储在时间序列中,代表在第i个时间间隔内的热门度量值,序列中的,与前个观测值的关系诶非线性映射,如公式(4-3): -(4-3)

4.2结合PSO算法的BP神经网络的热门预测模型BP神经网络算法目的是求解全局最优值,但BP神经网络算法是在局部进行优化策略的调整,其缺点是算法容易陷入局部最优。而PSO算法具有良好的局部开采能力,通过改变粒子学习模式,提高迭代速度,快速更新粒子的位置,从而确立可使全局最优的粒子,效果与精度俱佳。如果将BP神经网络嵌入到PSO算法中去,就可以提升局部搜索能力,优化原算法的初始权值和与阈值,基于训练集对BP神经网络实行训练,从而实现与BP神经算法的优势互补,从而完成预测模型的构建,故本文结合PSO算法建立了BP神经网络的热门预测模型。

4.2.1算法原理结合PSO算法建立BP神经网络的热门预测模型步骤如下:

步骤1:由上一章提到的微博热度评价指标,根据公式(4-5)计算微博热门度量值,将该度量值根

据时间先后存储在时间序列中,由此来构建模型的数据训练集。输入层中将作为输入值,以作为神经网络的输出值。

步骤2:对粒子的位置与速度进行初始化,同时设置函数自变量个数,粒子种群的规模,迭代次数,粒子搜索空间与位置信息。

步骤3:定义适应度函数,并计算得到全部粒子的适应度值。 步骤4:判断Vi和Xi是否超出设定的范围。

步骤5:及时更新粒子的速度与位置,当达到设定的最大迭代次数或差值满足最小界限时,输出输出本次全局最优解,如果未达到条件则重复进行步骤4。

步骤6:从每个粒子找到的最优解中寻找全局最优解。将输出的作为参考,在BP神经网络输入层输入权值与初始阈值。

步骤7:基于上述数据训练集,建立BP神经网络预测模型,计算的预测误差,通过不断迭代修正权值,直到可以进行输出。

步骤8:按照热度顺序,预测下一阶段的预测值Sl+1。

通过不断调整位置与参数,多次迭代后可以找到全局最优解,从而获取BP神经网络输入层输入权值与初始阈值,就可以结合PSO算法构建BP神经网络预测模型,实现对话题热度的预测。

4.2.2模型的实验环境与数据获取本章是在第三章的研究基础上,基于matlab的仿真工具来建立预测模型,根据上一章中通过爬虫技术获取的五种类型热点话题的微博信息,由于时间原因,对每种类型的前两条微博按照公式(4-2),得到时间序列,构建结合PSO算法BP神经网络预测模型,对进行预测分析,然并对这些热门微博变化的趋势与变化程度进行分析。

4.2.3预测模型的参数设置本算法通过不断调整位置与参数,多次迭代后可以找到全局最优解,并确定最终参数,从而获取输入层输入权值与初始阈值。本文中在选取适应度函数时采用了matlab中的Ackley函数,使用该函数时首先要进行参数设置,我们将粒子的种群规模确定为20,加速常数设定为,粒子最大运动速度限制在5之内,最大迭代次数为100,将粒子位置限定在。图4-2是

随粒子迭代次数增加,适应度值的变化:

图4-2粒子适应度值由图可以看出随着迭代次数的增加,粒子的适应度值首先是迅速下降的,到第十五代时适应度值趋于稳定,这说明迭代次数越高,粒子适应度值越小,性能会越好。

本文将BP神经网络的结构设置为,将粒子学习速率设置为默认最优值,按照精度最大化原理选择合理的训练数据集规模。BP神经网络中的隐含层节点数大小会对预测结果产生比较大的影响,一般来说,隐含节点数越大,误差首先会降低,到达最优值后,误差又会随节点数增长变大,所以要从实际研究目的出发选取对预测结果产生误差最小的隐含节点数,本文拟通过结合文献经验与具体实验操作来决定隐含层节点数目,以使误差最小化。

首先进行仿真实验时,先将隐含层节点数的初始值设定成1,观测区间设定为,节点数累次增大1个,观察平均误差值的变化情况。每取一个隐含层节点书都要进行多组独立试验,来提高实验准确性,降低偶然因素的影响。实验结果表明,隐含层节点个数不同,平均相对误差也在随之波动,如下图4-3。

图4-3不同隐含层节点个数的MSE值变化图根据图4-3,隐含层节点数取5时,预测结果的平均相对误差最小。

4.2.4预测结果与分析本文根据平均相对误差(简称MSE)来判断预测模型的准确性,通过以下公式求得: (4-4)

式(4-4)中,代表热度指数的预测值,为热度指数的实际值。由于时间关系,本章对第三章中的五类话题的前两个热门微博使用BP神经网络模型模拟话题热度的变化,预测下一时间阶段的热度指数。

我们根据上一章的热门话题相关信息,结合PSO算法建立了BP神经网络热门微博预测模型,基于该模型,本文对五种话题下一时间阶段的热度变化趋势进行预测,并计算得到预测值,根据公式(4-5)得到每条微博的热门程度增长率,从而可以分析得到微博热门指数的变化趋势与变化程度,结合实际情况,进行对比分析,得出相应结论。如下表4-1,我们基于预测模型记录了热门微博趋势预测的如下数据信息。

4.3本章小结本章利用PSO算法较优的全局搜索特点提出了结合PSO算法的BP神经网络的微博热门预测模型。通过熟练掌握PSO算法与BP神经网络算法步骤,基于matlab仿真工具,完成实验参数的设置与隐含层节点数的选取,构建时间序列模型确定模型的输入值,最终得到了微博热门指数的变化趋势、变化程度以及热门程度指数的预测值。经过时间验证,发现预测结果与实际相符合,可以反映本文建立的预测模型,可以比较准确的预测热门程度变化趋势。

结论本文研究内容主要是以新浪微博为背景展开的,微博己经成为我们日常生活中必不可少的社交工具,已经成为了一个信息传播的大平台。在微博热搜之中,曝光度高、阅读数量或者互动数较高的内容信息比较容易成为热门微博,平台中包括“热搜排行榜”和“热门话题”等对每位用户进行推送,还会根据热度大小对热门微博的内容进行排序,本文分析了影响热门微博传播的一些因素之后,拟建立热度评价模型与热门微博预测模型,通过计算热门微博的热度与热门程度的变化趋势,来对话题热度的监控与预测。本文的主要成果有:

(1)运用爬虫工具爬取了五类话题的热门微博,结合用户影响力、内容影响力、传播影响力并基于因子分析法,建立了微博热度评价模型。在选择因子指标时,我们还另外增加了重度传播率、互动数两个指标,建立了比较完善的符合当前微博热度体系的的评级指标,从2022年4月21日在新浪微博平台用python分别爬取了关于新闻、体育、学习、情感、娱乐五个热门话题的前五条微博,并将参考指标进行处理加工,获得了相对应的各个微博因子数据,通过SPSS的因子分析得到各微博信息维度表达式以及热度计算公式,对数据进行整理分析,最终对其结果进行排序和对比,表明本热度评估模型模型具有较高的可信度。

(2)为弥补BO神经网路算法容易陷入局部最优的缺陷,提出了结合PSO算法的BP神经网络的微博热门预测模型。在分析了热门微博的判断指标之后,确定了通过熟练掌握PSO算法与BP神经网络算法步骤,基于matlab仿真工具,完成实验参数的设置与隐含层节点数的选取,构建时间序列模型确定模型的输入值,最终得到了微博热门指数的变化趋势、变化程度以及热门程度指数的预测值。经过时间验证,发现预测结果与实际相符合,可以反映本文建立的预测模型,可以比较准确的预测热门程度变化趋势,本次研究对现实情况的预判具有一定的指导意义。

因篇幅问题不能全部显示,请点此查看更多更全内容