您的当前位置:首页正文

网络舆情监测系统框架研究

2023-04-06 来源:好走旅游网
龙源期刊网 http://www.qikan.com.cn

网络舆情监测系统框架研究

作者:李振江

来源:《中国管理信息化》2015年第13期

[摘 要] 在网络时代,互联网舆情迅速形成并发展,对网络舆情进行监测是信息时代政府工作的一个重要方面。本文研究了网络舆情的发展过程,提出了一个互联网舆情监测系统的框架,该框架将网络舆情监测系统分为数据获取、数据预处理、数据分析以及结果呈现模块,并对每个模块的功能以及实现时所需的关键技术进行了阐述。 [关键词] 舆情监测;网络爬虫;中文分词;文本聚类 doi : 10 . 3969 / j . issn . 1673 - 0194 . 2015 . 13. 116

[中图分类号] TP391.1 [文献标识码] A [文章编号] 1673 - 0194(2015)13- 0193- 03 1 引 言

根据中国互联网络信息中心于2014年7月发布的“第34次中国互联网络发展状况统计报告”显示,截至2014年6月,我国网民规模达 6.32亿人,互联网普及率为46.9%,中国已经成为世界上网民人数最多的国家[1]。

不同于传统媒体,网络媒体会在第一时间呈现各种突发重大事件,人们在获取最新资讯的同时,也通过新型的媒体平台(论坛、博客、微博、各种社交圈)发表自己的意见看法,相互评论,使得互联网舆情迅速形成。

同时,互联网是一个开放自由的平台,在普通网民正常表达自己观点的同时,还有一部分散播各种色情、暴力、恐怖等不良信息。很多邪教、反动组织也利用网络散布各种谣言,甚至公然与国家为敌。在互联网上还存在大量水军利用网络进行造谣、炒作。因此对互联网舆情进行监测,对我国新时期政府政的策制订、网络安全防范以及网络文明建设有重大意义。 2 研究现状

舆情监测工作由来已久,最早的网络舆情监测手段也是基于传统的手工模式。通过雇佣大量工作人员对指定的监测页面进行监测,使用人工方式,对某些重点监测词汇进行频率统计来寻找舆情动向。然而随着互联网的蓬勃发展,传统的方式已经落伍,要对网络舆情进行监测,就必然要依托于一个功能强大的互联网舆情监测系统进行。

龙源期刊网 http://www.qikan.com.cn

伴随着网络的发展,国内外已有一系列的网络舆情监测系统正式投入使用,这些系统通常是依托于政府部门、学术机构以及企业媒体建设的,分别基于不同的需求(行政决策的、学术研究的、商业开发的),从不同的角度对网络舆情进行监测。

最早的相关研究始于TDT(Topic Detection and Tracking)项目[2],它是美国国防高级研究计划局主导的,旨在从新闻网页中找到未知话题并对话题进行追踪。该项目历经多年发展演变,其核心研究内容分为报道切分、话题追踪、话题监测、首次话题报告以及关联监测这5个方面的内容[3]。

在我国,由于中西文在文本挖掘、分词方面的巨大差异,以及社会经济等方面的差异,基于汉语的网络舆情监测研究起步较晚[4]。目前,学院型的舆情研究机构主要有北京大学中国国情研究中心、中国人民大学舆论研究所、上海交通大学舆情研究实验室等[5]。 3 网络舆情监测系统框架

从过程上看,网络舆情监测的本质是从网络上获取数据、分析数据以及按用户需求呈现分析结果的过程,因此在系统实现时,从数据流向的角度,可以把一个网络舆情监测系统划分为数据获取模块、数据预处理模块、数据分析模块以及结果呈现模块,整个系统的结构如图1所示。

3.1 数据获取模块

数据获取模块的主要功能是全天候的、自动的从整个网络上,或者某些特定网络上获取进行舆情分析的原始数据。在自动获取数据的过程中,有两方面的要求。一方面,是获取的相关舆情数据相对于整个数据的覆盖率的要求,即要尽可能地获取尽量全面的原始数据;另一方面,则是对数据准确率的要求,即所需数据要尽可能贴近用户关心的舆情热点。只有在覆盖率和准确率全部达标的情况下,才能更好地对网络舆情进行分析预测。目前,常见的数据获取方式有两种:

(1)网络爬虫方式。互联网的一项基本协议是HTML协议,基于该协议,网络中大量资源以统一资源定位符(URL)相互联系,构成一个有机整体。网络爬虫从一个预先定义好的URL列表开始,依次访问该列表上的所有页面进行数据抓取,并分析当前访问页面中的其他URL,选择符合要求的URL加入待访问队列,试图以深度或者广度的方式对限定范围的网络进行遍历式的访问,以获取该网络的所有信息。

(2)元搜索采集技术。搜索引擎是大多数网民访问网络的入口,目前有众多的搜索引擎服务提供商,其检索过程有不同的侧重方向,检索结果也各不相同。可以在若干不同的搜索引擎上部署元搜索引擎,通过对下层引擎的调用返回多个搜索结果,并基于一定的算法对不同结果进行选择。使用该方法能够有效地提高数据获取的覆盖率和准确率,且系统构建较为简单。

龙源期刊网 http://www.qikan.com.cn

3.2 数据预处理模块

Web页面的数据有其自身特点,它是一种半结构化的数据,整个数据包括内容和描述两个部分,且两者混杂在一起。直接通过数据获取模块抓取的页面内容复杂,存在大量噪音,文本内容非结构化,无法直接进行下一步的分析工作,对这些原始页面必须进行一次数据预处理。预处理的过程大体上分为两步:

(1)进行网页内容提取。将用户关心的内容(例如新闻的内容、对主题的讨论等)从噪音(如页面上的广告、导航以及其他超链接)中找出。将页面转化为一个HTML标签树,根据已有知识建立提取规则,最后依据规则对页面内容进行提取。如何建立一个合适的规则是提取工作的核心,可以针对某类特定的网站建立专属规则,也可以针对一般页面的结构特点建立一些通用规则。

(2)进行中文文本分词。自然语言中,词是最小的独立活动的语言成分。要对页面提取获得的非结构化连续文本进行处理,首要的工作就是对其进行分词。分词是将输入的一段文本分解为符合逻辑的一组单词的过程,例如输入“羽毛球拍”时,依照某种分词算法就可以初步将其分解为羽毛、羽毛球、球拍3个单词。

最简单的分词算法以词典为基础,通过对字符串匹配完成初步工作,之后辅以少量词法、语法和语义规则;另一种思路是基于统计进行分词,统计文本中相邻字同时出现的频率,频率越高就越可能构成一个词;还有一些基于规则的分词算法,通过模拟人对句子的理解过程,对当前句子的语法、句法、词法进行分析推理,能够自动补全未登录词条。 3.3 数据分析模块

数据分析模块是整个网络舆情监测系统的智能核心,在本质上是一个数据挖掘的过程。它负责将前期获得的网页内容进行深度挖掘,发现新的舆情热点,并对原有的舆情趋势进行分析。一个典型的系统应具备以下几方面的功能:

(1)主题聚类。聚类可以很直观地从海量数据中发现新的主题。将处理过后的网页内容归一化到某个特征空间中,在这个特征空间中以某种方式,将特征接近的页面内容划分为不同的类别,相应类别的聚类中心就可以认为是新的主题。

(2)热点发现。在当今网络时代,每天产生的舆情主题众多,其中有些主题能够迅速成为当下的舆情热点,舆情监测系统需要将这些舆情热点从众多主题中筛选出来,推送给舆情分析人员。筛选的时候应该注意“热点”一词不同方面的含义,最直观的含义就是某主题在某段时间内出现的频次;再有一方面的含义就是某主题除频次以外的权重,例如该主题来源页面的影响力、该主题的发展速度等。

龙源期刊网 http://www.qikan.com.cn

(3)话题追踪。网络话题的生命周期从最初的事件主题开始,经过一段时间的发展演化成为舆情热点,又经历一段时间的发展变化逐渐热度降低,最后消散。还有,在这个过程中话题的变异分支过程,都是在基于网络舆情进行决策分析时可以纳入考虑的影响因素。在分析大量话题生命周期后,可以从中总结一定的规律,对当前某话题的下个阶段进行一定的预测。 (4)情感识别。网络话题除了对某个发生事件的客观描述外,还有一定的情感倾向,尤其是在网民对该话题的回复中,这种情感倾向会更加明显地体现出来。从整体上看,这种情感倾向会分为赞成、反对以及中立这3种大的方向。将人们对某个舆情热点的情感倾向进行直观体现,有助于更好地进行分析决策。这种分析不光要对舆情的当前状态进行情感识别,还要对该话题的发展过程中某个阶段的情感同时进行分析,以掌握舆论对该话题情感倾向的变化过程。

3.4 结果呈现模块

网络舆情分析的目的是为相关的决策提供支撑依据,其分析结果需要简单直观地提供给决策分析人员,并在初步分析的基础上对整个结果进行二次挖掘。这就需要结果呈现模块能够动态图形化地展示分析结果,并对某些舆情热点、舆情的重大拐点进行主动推送警告。根据一般化的网络舆情分析需求,必须实现的功能有: (1)针对所有主题的查询。 (2)新主题的推送。 (3)舆情热点、拐点的警告。 (4)舆情发展态势图。 4 总结展望

总的来说,一个舆情监测系统,无论具体实现细节上有多大差异,其运转流程总是按照数据获取、预处理、数据分析、结果呈现这4个步骤进行。在革命性技术手段出现之前,要对系统进行进一步的提高和完善,就需要从两个方面开展工作。一方面在数据采集部分,需要扩充监控网页的类型,如加入论坛、社区网页的搜集,或采用多种形式搜集策略相结合的方式,如聚焦爬虫、网站监控等策略,收集最广泛专业的舆情基础数据;另一方面在舆情的智能分析决策方面,以自然语言处理技术与数据挖掘技术为基础,融入包括智能检索、自动摘要、热点事件自动发现、热点词发现等高级需求,对舆情报警以及统计报表等功能进行扩展。 主要参考文献

龙源期刊网 http://www.qikan.com.cn

[1]中国互联网络信息中心.第34次中国互联网络发展状况统计报告[EB/OL].(2014-07-21)[2014-11-16]. http:

//www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201407/P020140721507223212132.pdf. [2]L S AlSumait. Online Topic Detection, Tracking and Significance Ranking Using Generative Topic Models[D]. Fairfax,VA:Georage Mason University, 2009.

[3]王旭.互联网舆情监控系统中聚焦爬虫的设计与实现[D].北京:北京邮电大学,2011. [4]毛立鹏.互联网舆情监控分析系统的设计与实现[D].西安:西安电子科技大学,2014. [5]郑广嘉,陈玮. 我国网络舆情研究述评 (2000-2013)[J]. 新媒体与社会,2014(1):106-134.

因篇幅问题不能全部显示,请点此查看更多更全内容