摘要
舆情研究是国家了解和研究社会现状的热点之一。通过舆情研究,国家能很好的把握社会动态,对制定国家的大政方针有着很好的参考作用。采用计算机技术自动地对网络舆情语料进行分析整理,能够建立起全面、有效、快速的舆情监控预警机制。通过实行网络舆情监控,能够了解舆论动向,引导舆论发展,从而制定正确的应对策略,并及时采取措施。网络舆情监控对于了解社情民意,缓解舆论压力,建设和谐社会具有重要作用和意义。
本文正是为加强互联网信息监管,组织力量开展信息汇集整理和分析而作出了一套互联网舆情监控系统设计,它根据互联网的发展现状,引入近几年来针对互联网信息监控方面进行系统建设的过程中出现的问题以及解决具体问题的思路,全面分析了设计建设的目标和原则。网络舆情主要由信息采集,信息检索,信息分析及服务三大部分构成。网络舆情信息管理系统由舆情分析工具、舆情展示子系统、舆情采集子系统(信息雷达)和舆情检索引擎四部分组成。通过该系统的建设,能使市公安局实现对新闻网页、论坛、博客、新闻评论等网络资源的精确采集和解析,提供舆情信息检索、热点信息的发现、热点跟踪定位、敏感信息监控、辅助决策支持、舆情实时预警、舆情监管等多层次、多维度的舆情信息服务。
通过系统的建设,将有利于东川区公安局全面、及时、准确地掌握舆论动向,制定正确的策略方针,采取有效的措施对负面信息进行干预,正面引导舆论发展,不断提高我局对相关敏感信息、事件的处理及控制能力,进一步加强我局互联网新闻宣传和信息安全管理工作。
关键字:舆情监控;数据采集;数据挖掘;J2EE;MVC
Email:greenvc@gmail.com http://www.kmdin.com 第 I 页,共 88 页
互联网舆情监控系统分析与设计
Abstract
Public opinion research is to understand and study the social status of the hot spots.Through public opinion research, a good grasp of the social state can be dynamic, the formulation of major policies the country has a good reference. Automatically usingcomputer technology to analyze the network of public opinion corpus order, to establish a comprehensive, effective and fast public opinion, monitoring and warning mechanism.Public opinion through the implementation of network monitoring, to understand trends in public opinion and guide the development of public opinion, so as to formulate a correct response strategy and to take timely measures. Network Monitoring for
understanding
the social
conditions
and public
opinion, public opinion, relieve the pressure of public opinion, has an important role in building a harmonious society and meaning.
This article is to strengthen supervision of Internet information, the organization brings together the power of information collation and analysis of public opinion to make a set of Internet monitoring system, which according to the Internet's development status, the introduction of surveillance information for the Internet in recent years, a systematicprocess of building Emerging issues and ideas to solve specific problems, a comprehensive analysis of the objectives and principles of design and construction.Internet public opinion mainly by information collection, information
retrieval, information
analysis and
service the
three major
parts. Network information management system by the public opinion, public opinion analysis tools, display subsystem of
public
opinion,public
opinion,
the acquisition
subsystem (Information radar), and public opinion, thesearch engine of four parts. Through the construction of the system, can achieve theMunicipal Public Security Bureau news pages, forums,
blog,
news reviews and
other
network resources, accurate collection
retrieval, information found hot,
and analysis, providing public opinioninformation
hot tracking, monitoring of sensitive information, the auxiliary Decision support, real-time early warning of
public
opinion,public
opinion supervision multi-level, multi-dimensional public
opinion information services.
The construction of the system will help City Public Security Bureau comprehensive,
Email:greenvc@gmail.com http://www.kmdin.com 第 II 页,共 88 页
互联网舆情监控系统分析与设计
timely and accurate grasp of public opinion trends, develop the right strategic direction, to take effective measures to intervene on the negative information, positivedevelopment guide public
opinion,
and
constantly improve
and control, to
my sensitive further
information on
the
relevant Council , incident handling strengthen our bureaupublic
information and Internet information security management.
Key Words: Monitoring public opinion; Data Acquisition; Data Mining;J2EE;MVC
Email:greenvc@gmail.com http://www.kmdin.com 第 III 页,共 88 页
互联网舆情监控系统分析与设计
目 录
第一章、引言 .................................................................................................................. 1
1.1、研究背景和现状 ............................................................................................. 1 1.2、研究目的和意义 ............................................................................................. 2 1.3、本文的组织 ..................................................................................................... 4 第二章、相关技术概述 .................................................................................................. 5
2.1、统一建模语言 ................................................................................................. 5
2.1.1、开发UML的设计工具 ....................................................................... 5 2.1.2、UML核心概念和基本表示法 ............................................................ 6 2.2、数据库技术 ..................................................................................................... 9
2.2.1、数据库概述 .......................................................................................... 9 2.2.2、SQL Server.......................................................................................... 10 2.3、Java技术 ....................................................................................................... 10
2.3.1、J2EE概述 ........................................................................................... 10 2.3.2、J2EE组件和层次 ................................................................................11 2.3.3、MVC模式 .......................................................................................... 15 2.4、XML技术 ..................................................................................................... 18
2.4.1、XML的核心技术 .............................................................................. 18 2.4.2、XML相关的标准和规范 .................................................................. 18 2.4.3、XML在电子政务中的应用 .............................................................. 20 2.5、数据挖掘技术 ............................................................................................... 22
2.5.1、数据挖掘的过程 ................................................................................ 22 2.5.2、数据挖掘的方法 ................................................................................ 23 2.5.3、数据挖掘模型与算法 ........................................................................ 25 2.5.4、数据挖掘过程中存在的问题 ............................................................ 26
第三章、系统需求分析 ................................................................................................ 28
3.1、系统概述 ....................................................................................................... 28
3.1.1、主要功能需求 .................................................................................... 28 3.1.2、目标 .................................................................................................... 29
Email:greenvc@gmail.com http://www.kmdin.com 第 IV 页,共 88 页
互联网舆情监控系统分析与设计
3.1.3、用户特点 ............................................................................................ 29 3.2、系统功能要求 ............................................................................................... 29
3.2.1、系统功能结构 .................................................................................... 29 3.2.2、舆情采集功能 .................................................................................... 30 3.2.3、舆情检索功能 .................................................................................... 33 3.2.4、舆情分析功能 .................................................................................... 34 3.2.5、舆情干预功能 .................................................................................... 37 3.2.6、其它功能 ............................................................................................ 38 3.3、系统性能要求 ............................................................................................... 40
3.3.1、对时间特性的要求 ............................................................................ 40 3.3.2、安全性要求 ........................................................................................ 41
第四章、系统设计 ........................................................................................................ 42
4.1、系统架构 ....................................................................................................... 42
4.1.1、系统架构 ............................................................................................ 42 4.1.2、技术架构 ............................................................................................ 43 4.1.3、系统构成 ............................................................................................ 45 4.2、数据库设计 ................................................................................................... 46
4.2.1、数据库设计原则 ................................................................................ 46 4.2.2、数据库关系设计 ................................................................................ 47 4.2.3、表结构设计 ........................................................................................ 48 4.3、系统功能设计 ............................................................................................... 50
4.3.1、统一应用平台 .................................................................................... 50 4.3.2、系统主要模块设计 ............................................................................ 51 4.3.3、系统管理 ............................................................................................ 54 4.3.4、舆情采集管理 .................................................................................... 56 4.3.5、舆情分析管理 .................................................................................... 60 4.4、安全考虑 ....................................................................................................... 62 第五章、系统实现 ........................................................................................................ 64
5.1、开发环境 ....................................................................................................... 64
5.1.1、开发工具 ............................................................................................ 64
Email:greenvc@gmail.com http://www.kmdin.com 第 V 页,共 88 页
互联网舆情监控系统分析与设计
5.1.2、系统界面 ............................................................................................ 64 5.2、系统使用的关键技术 ................................................................................... 65
5.2.1、XML技术使用 .................................................................................. 65 5.2.2、数据采集及数据挖掘实现 ................................................................ 68 5.3、系统部分实现 ............................................................................................... 71
5.3.1、数据库代码 ........................................................................................ 71 5.3.2、系统管理 ............................................................................................ 73 5.3.3、舆情采集管理 .................................................................................... 75 5.3.4、舆情分析管理 .................................................................................... 76
第六章、结束语 ............................................................................................................ 79
6.1、总结 ............................................................................................................... 79 6.2、展望 ............................................................................................................... 79 参考文献 ........................................................................................................................ 80 致谢 .................................................................................................. 错误!未定义书签。
Email:greenvc@gmail.com http://www.kmdin.com 第 VI 页,共 88 页
互联网舆情监控系统分析与设计
第一章、引言
1.1、研究背景和现状
随着互联网的飞速发展,网络新闻媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。由于网络新闻媒体与传统新闻媒体在传播载体和传播方式上的不同,媒体信息的正确性及传播范围都无法得到有效控制,网络舆论热点焦点层出不穷。网络舆情形成迅速,对社会影响巨大,网络舆论成为社会舆论的一种重要表现形式。由于我国互联网发展迅速,网民不成熟,网络监管缺失和相关法律不健全,所以在网络上更容易出现庸俗、灰色、暴力、虚假的言论。
国家社科院发布《2008年中国互联网舆情分析报告》指出:2008年中国互联网继续快速发展和普及应用,网民规模跃居世界第一位。网民对网络的运用,已由初期偏于娱乐与交友发生转向,网络新闻使用率大幅攀升,第23次中国互联网络发展状况统计报告指出:网民对“重大新闻我一般都首先从互联网上看到”的总体认同度高达62%。网络已成为社会舆论重要发源地。上述报告同样指出:网民对“互联网是我发表意见的主要渠道”的总体认同度高达43%。[47]
网络还是社会舆论的扩音器,网友关注焦点及公共事务、讨论议题广泛,言论彰显出民众意识;而网络又具有传播速度快、传播面广、不受时间空间限制、参与度高等特性,网友众说纷纭、言论扑朔迷离,使得地方性、局部性事件在一夜间被成倍放大,演变为全国关注话题,像城管打死人事件、华南虎事件、周久耕天价烟事件、李刚门,网络让草根阶层不再处江湖之远,将政府部门推向风口浪尖,矛头直指政府执政为民。众口铄金、积毁销骨,严重破坏政府形象、降低政府公信力,甚至导致政府信任危机。
舆情管理古已有之,互联网技术发展使舆情工作开展迎来了新的挑战。信息时代带来的具有隐匿性、交互性、及时性、参与度广、影响面宽的网络舆情给舆情部门工作带来了新情况、广外延,舆情工作更具有突发性、破坏力。
网络舆情是广大民众关于民声、民愿、民意的汇集,党和政府充分认识到网络舆论的重要性。2008年6月20日,胡锦涛总书记在人民日报社考察工作时指出:“互联网已成为思想文化信息的集散地和社会舆论的放大器,我们要充分认
Email:greenvc@gmail.com http://www.kmdin.com 第 1 页,共 88 页
互联网舆情监控系统分析与设计
识以互联网为代表的新兴媒体的社会影响力”、“通过互联网来了解民情、汇聚民智,是一个重要的渠道”。中央和国务院设有专门机构搜集网络重要信息,以“互联网舆情”形式提供给领导人参考,网络舆论成为一种“公开的内参”。互联网已成为党和各级政府治国理政的新平台。[47]
1. 如何为领导决策在第一时间提供网络信息支持,为领导化解危机争取时间? 2. 如何在广阔的网络空间里建立“网络民意直通车”?
3. 如何让舆情工作人员从每天大量重复、枯燥的搜索中解放出来? 4. 如何解决搜索平台收录信息不及时、不深入的问题? 5. 如何在数百万个网站中发现相关信息,开展舆情研判工作?
6. 如何以有限的资源(硬件、资金、人力等)投入,进行大规模数据处理? 7. 如何透过互联网了解民情,获取最真实的民众诉求?
8. 如何从海量杂乱的信息中挖掘舆情隐藏的固有规律,发现热点舆情、突发事
件和重大公共事件?
9. 如何在研判过程中平衡舆情准确性与全面性的矛盾? 10. 如何自动危机预警?
11. 如何实现多人协作,有效开展网络舆情工作? 12. 如何突破时间和空间的局限,随时掌握舆情动态?
13. 如何解决操作系统、数据库、硬件、兼容性等的采购和部署
1.2、研究目的和意义
根据东川区公安局电子政务建设总体规划的部署,经过多年的建设,已经初步形成“四个统一平台”,为东川区网络舆情信息管理系统及其他业务管理系统的建设提供了坚实的基础。
一是统一网络平台,已高标准建成中心机房和备用机房,建成统一高速办公网络,实现与大楼外单位、各分局以及各政府机构的互联互通。逐步完善统一网络管理系统和统一网络安全体系,基本形成安全可信的电子政务网络平台。
二是统一数据平台,已建成全局数据中心环境,形成基于大规模的双机热备、磁盘阵列和高端数据库系统的大容量、高规格、安全的数据中心,为全局数据集中管理与信息资源整合提供可靠的软硬件基础环境。
Email:greenvc@gmail.com http://www.kmdin.com 第 2 页,共 88 页
互联网舆情监控系统分析与设计
三是统一应用平台,初步建立全局统一的应用支撑平台,为业务系统提供通用的基础服务,有效促进业务系统整合。建成协同政务平台、窗口办文系统、内部应用管理系统等一批全局性、跨部门业务应用系统,有效促进全局信息资源的整合。
四是统一信息发布平台,建成全局统一的网站群,初步形成“政务公开、在线办事、政民互动”三大功能结构,为各种业务的网上接入及信息交互提供了良好的基础。
目前东川区公安局从未开发与该局业务相关的网络舆情信息管理系统,不能针对网络上相关业务信息进行搜索、分析和监控,基本上由信息管理人员利用通用的搜索引擎等工具进行信息的定期收集和监管,主要存在以下问题:
1、网络舆情信息采集手段单一。目前对于相关热点主题、事件的信息收集主要通过网络搜索引擎对关键词进行检索,或者定期对关注度高的房地产相关网站或信息频道进行浏览来获得信息,面对海量的网站和信息,信息采集的覆盖面和准确度都难以满足需求;
2、缺乏有效的内容检索和分析工具。目前只能通过人工方式对关注度高的信息内容进行浏览和判断,缺乏对信息内容筛选、分析的工具,对于信息之间的关联性不能有效的判断,对于热点事件不能进行全面跟踪和有效分析。
3、信息监控的实效性差。通过人工方式进行信息的搜集、分析和跟踪,基本上只能对网络上已发布的信息进行定期的局部跟踪,难以实现系统性的实时监控和事前监管。
4、舆情监控及分析工作量和有效性问题。虽然东川区公安局已投入专门的信息管理人员负责网络舆情监控工作,但人工方式存在工作量庞大,信息源覆盖面和深度不足,监控效率低等问题。
通过本系统的建设,能使东川区公安局实现对新闻网页、论坛、博客、新闻评论等网络资源的精确采集和解析,提供舆情信息检索、热点信息的发现、热点跟踪定位、敏感信息监控、辅助决策支持、舆情实时预警、舆情监管等多层次、多维度的舆情信息服务。因此,系统的建设是必要的和迫切的。
Email:greenvc@gmail.com http://www.kmdin.com 第 3 页,共 88 页
互联网舆情监控系统分析与设计
1.3、本文的组织
本文按软件工程一般方法,分六章介绍系统分析设计的过程:
第一章:为论文的引言,阐述了系统开发的背景、课题来源和研究意义,并对舆情监控系统的现状进行对比与分析。
第二章:介绍系统开发的相关理论技术,简要介绍UML工具、数据库库技术、Java开发技术、XML技术,在此基础上对涉及到的相关问题进行了分析。
第三章:系统需求分析,根据系统特点,分别介绍了系统的目标、主要功能构成,对舆情采集、舆情检索、舆情分析、舆情干预等功能模块进行分析,对系统性能提出具体的要求。
第四章:系统设计,介绍系统网络应用模型,系统技术架构构成,系统功能的主要模块类图和数据库设计中的数据库关系与表结构设计。
第五章:系统实现,介绍系统实现的主要关键技术XML和数据挖掘技术,系统实现效果的部分界面截图。
第六章:结束语,介绍系统的可扩展方向和未来发展趋势。
Email:greenvc@gmail.com http://www.kmdin.com 第 4 页,共 88 页
互联网舆情监控系统分析与设计
第二章、相关技术概述
2.1、统一建模语言
面向对象建模是一种抽象的思维方式,研究的是系统所涉及的对象及对象间的联系。面向对象建模的方法中,对象是用于描述系统的客观事物的实体,这种实体构成了该系统的基本单元;而类是将这些对象相同的属性和行为抽象而生成的。面向对象建模的方法引入了数据封装的概念,即将数据和相关的代码包装在一起,这样就减少了各部分代码的耦合度:类通过继承的方式来重用代码;多态性还使相同的属性或行为对不同的类具有不同的语义。封装、继承和多态的体制机制使系统具有更大的灵活性,可以在需求的变化发生时迅速作出反应。面向对象的建模先从事物中提取出对象,将对象进行一般化处理,抽象出类,然后建立类之间的关系[1]。
面向对象分析与设计(Object-Oriented Analysis and Design简称OOA&D或OOAD)方法的发展在20世纪80年代末至90年代中期出现了一个高潮,而UML就是这个高潮的产物。UML不仅统一了James Rumbaugh、Grady Booch和Ivar Jacobson所提出的面向对象方法中的符号表示,而且在其基础上进一步发展,并最终被统一为被开发者所接受的标准建模语一言[ [1]。
UML不局限于一个单一的平台或编程语言,从而不同的系统网络适合使用它作为的理想的沟通桥梁。UML基本上是与流程没有关系的“以用例驱动“和“以结构为中心“的,它是迭代的、增量式开发的过程。该建模语言的最大用途是用图形方法来描述现实世界中每个对象的符号表示,使得所有的系统设计人员设计出从流程分析、系统需求、系统对象模型定义、对象设计定义乃至整个开发过程都完全标准化。不因系统设计人员使用不同的编程语言而有所不同,因此可以说使用UML的目的是建立一个从系统的需求分析、程序设计到整体开发都有标准规范的表示方式。
2.1.1、开发UML的设计工具
UML是目前规划和设计中使用最常见的设计工具,用户最常用的有如下几种:
Email:greenvc@gmail.com http://www.kmdin.com 第 5 页,共 88 页
互联网舆情监控系统分析与设计
1、Microsoft Visio for Enterprise Architect
它与Visual Studio. NET (Enterprise Architect版本)绑定在一起,无需付额外的代价就可以得到它。它支持UML表示法和其他Visio图类型的支持目录(back-catalogue)。它支持代码生成、逆向工程、模型语义检查和文档制作,而且还与Visual Studio.NET IDE相结合。所有的这一切并不只是由绘图工具来完成,或者更为准确地说,应该不再只是由绘图工具来完成。 2、IBM和Rational的Rose XDE
Rational Rose 是一个完全的,具有能满足所有建模环境(Web开发,数据建模,Visual Studio 和 C++ )需求能力和灵活性的一套解决方案。Rose允许开发人员,项目经理,系统工程师和分析人员在软件开发周期内在将需求和系统的体系架构转换成代码,消除浪费的消耗,对需求和系统的体系架构进行可视 化,理解和精练。通过在软件开发周期内使用同一种建模工具可以确保更快更好的创建满足客户需求的可扩展的、灵活的并且可靠的应用系统。
3、Borland的Together
Borland Together 技术通过以设计为中心的解决方案,加速更高质量应用的开发。以设计为中心的解决方案支持可视化建模、衡量设计与代码的质量,从而提高开发团队生产力。作为最终用户、构架师与开发者之间的可视化桥梁,Together技术能够提高开发的速度,通过自动化处理冗长烦闷的工作,避免开发团队为这些工作分心,让他 们专注于编码。Together技术也有助于在开发初期识别性能问题,在这个阶段解决这些问题更简单、代价更低。
2.1.2、UML核心概念和基本表示法
作为一种建模语言,UML的定义包括语义和表示方法两部分。UML的语义描述的是精确元模型的UML定义的基础。元模型为UML的所有元素的语法和语义上提供了一个简单,一致和共同的定义说明,使得开发人员能在语义上取得一致,消除因人而异的表达方法所造成的影响。
UML表示方法定义UML符号表示,它为开发或使用这些图形符号和文字的人员提供了一个标准的语法。这些图形符号和文字的应用级模型表达的语义是UML元模型的实例。标准建模语言UML以下九种图形组成,可以定义为:
Email:greenvc@gmail.com http://www.kmdin.com 第 6 页,共 88 页
互联网舆情监控系统分析与设计
1、用例图(Use Case)
使用用例图从用户的角度出发描述系统的功能、需求,展示系统外部的各类角色与系统内部的各种使用用例之间的关系。主要用于系统的需求分析阶段.使用用例图包括角色、用例、关系。角色是与所建系统交互的人或物;描述系统范围外的一切;分为二类:系统用户、与所建系统交互的其它系统、时间。用例是系统的高级功能模块,描述系统范围内的一切;关系描述角色与用例之间的交互情况。关系包括通信关系、使用关系、扩展关系、角色一般化关系。通信关系描述角色与用例之间的关系;使用关系使一个使用用例可以利用另一使用用例提供的功能;扩展关系允许一个使用用例扩展另一使用用例提供的功能。角色一般化的关系指角色之间的关系。
2.类图(class diagram)
类图展示了系统中类的静态结构,即类与类之间的相互联系。类之间有多种联系方式,如关联(相互连接)、依赖(一个类依赖或使用另一个类)、泛化(一个类是另一个类的特殊情况)或包(把若干个相关的类包装在一起作为一个单元,相当于一个子系统)等。一个系统可以有多张类图,一个类也可以出现在几张类图中。[1]
3.对象图(object diagram)
对象图是类图的实例,它展示了系统执行在某一时间点上的一个可能的快照。对象图使用与类图相同的符号,只是在对象名下面加上下划线,同时它还显示了对象间的所有实例链接关系。[1]
4.状态图(state diagram)
状态图通常是对类描述的补充,它说明该类的对象所有可能的状态以及哪些事件将导致状态的改变。一个事件可以是另一个对象向它发送的一条消息,或者是满足了某些条件。状态的改变称为迁移(transition)。一个状态迁移还可以有与这相关的动作,该动作指出状态迁移时应该做什么。[1]
并不是所有类都要画状态图,有些类有一些意义明确的状态,并且其行为受不同状态所影响和改变,这些类才需要画状态图。
5.时序图(sequence diagram)
Email:greenvc@gmail.com http://www.kmdin.com 第 7 页,共 88 页
互联网舆情监控系统分析与设计
时序图展示了几个对象之间的动态协作关系。它主要是用来显示对象之间发送消息的顺序,它还显示了对象之间的交互,即系统执行的某一特定时间点所发生的事。[1]
6.协作图(collaboration diagram)
与时序图一样,协作图也展示对象间的动态协作关系。它除了说明消息的交互外,还显示对象及其间的关系,有时视为周境(context)。通常可在时序图或协作图选择一个来表示协作关系。如果强调时间和顺序,则使用时序图;如果强调周境,则选择协作图。
协作图画成对象图,图中的消息箭头表示对象间的消息流。消息箭头上可以附加标记,说明消息发送的顺序,还可显示条件、重复和回送值等。[1]
7.活动图(activity diagram)
活动图展示了连续的活动流。活动图通常用来描述完成一个操作所需要的活动。当然它还能用于描述其他活动流,如描述用例。活动图由动作状态组成,它包含完成一个动作的活动的规约(即规格说明)。当一个动作完成时,将离开该动作状态。活动图中的动作部分还可以包括消息发送和接收的规约。[1]
8.构件图(component diagram)
构件图以代码为单位展示了代码的物理结构。UML中的构件可以是源代码构件、二进制构件或可执行构件。构件图显示了构件之间的依赖,它用以分析当一个构件变化时如何影响其他构件。构件还应展示它们的接口(如OLE/COM接口)。构件图用于程序设计工作。[1]
9.部署图(deloyment diagram)
部署图展示了系统中硬件和软件的物理结构,计算机和设备用结点表示,图中显示它们间的相互连接以及连接的方式,在结点内部可分配可执行构件和对象,并表示这些构件和对象在这个结点上运行。[1]
这些图提供系统分析和发布的多个视角,其中各图之间的关系如图2-1所示:
Email:greenvc@gmail.com http://www.kmdin.com 第 8 页,共 88 页
互联网舆情监控系统分析与设计
图2-1 UML各图之间的关系
2.2、数据库技术 2.2.1、数据库概述
1、基本概念
数据:数据是数据库中存储的基本对象。
数据库:数据库(DB)是储存在计算机内的、有组织的、可共享的数据集合。数据库中的数据按照一定的数据模型存储、组织和描述,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。
数据库系统:数据库系统(DBS)是一个带有数据库的计算机系统,它能按照数据库的方式存储和维护数据,并且能够向应用程序提供数据。
2、数据模型及关系数据模型
数据模型是对客观事物及其联系的数据化描述。在数据库系统中,对现实世界中数据的抽象、描述以及处理等都是通过数据模型来实现的。数据模型是数据库系统设计中用于提供信息表示和操作手段的形式构架,是数据库系统实现的基础。
在实际数据库系统中支持的数据模型主要有:层次模型、网状模型和关系模型。关系模型是三种数据模型中最重要的模型,目前市面上推出的数据库系统几乎都支持关系模型。
在关系模型中基本数据结构是二维表格,每一个关系就是一张二维表。它建立在严格的数学概念基础上、数据结构单一,概念简单、清晰、易懂、易用,简
Email:greenvc@gmail.com http://www.kmdin.com 第 9 页,共 88 页
互联网舆情监控系统分析与设计
化了程序开发及数据库建立的工作量,得到了广泛的应用,并在数据库系统中占据了统治地位。
3、数据库系统的组成
数据库系统通常由数据库、数据库管理系统、软件和硬件以及管理人员组成。
2.2.2、SQL Server
SQL Server最初是由Microsfot、Sybase和Ashton-Tate 3家公司共同开发的关系数据库管理系统,并于1988年推出了第一个OS/2版本。在Windows NT 推出后Microsoft与Sybase 在SQL Server 的开发上就分道扬镳了,Microsoft 将SQL Server 移植到Windows NT系统上专注于开发推广SQL Server 的Windows NT 版本,Sybase 则较专注于SQL Server在UNIX 操作系统上的应用。SQL Server 2000是Microsoft公司于2000年推出的关系型网络数据库管理系统,它使用Transact-SQL语言在客户机与SQL Server数据库服务器之间发送请求,它是基于C/S模式的数据库系统,它采用图形化界面,使数据库管理更加简洁、灵活,同时又具有丰富的编程接口,为用户从事程序开发提供了更多的方便。它拥有的种种新特性使它在客户/服务器应用程序和Web应用程序开发中得到越来越广泛的应用,是目前应用最广泛的数据库系统之一。
[5]
2.3、Java技术 2.3.1、J2EE概述
Java技术从本质上说提供了一个可以移植的面向对象的环境。它的JVM(Java virtual Machine),是用Java语言写的程序并且具有WORA(write once,Run Anywhere)特性,因此Java技术具有得天独厚的可移植性。
为了更好的满足Java开发人员的不同需要,SUN公司将Java2分为三个版本; 企业版J2EE(Java 2 Platform Enterprise Edition),是面向企业环境的开发应用程序的解决方案;标准版J2SE(Java 2 Platform stand Edition)。是为桌面开发和低端设备应用提供了可行的解决方案;小型版J2ME(Java 2 Platform Edition)是致力于消费产品和嵌入式设备的最佳解决方案,如图2-2所示。每个版本都由四个部分组成:
Email:greenvc@gmail.com http://www.kmdin.com 第 10 页,共 88 页
互联网舆情监控系统分析与设计
针对相应特定产品的Java虚拟机,针对相应特定产品的API;针对相应特定产品的设备配置(Configuration)和实用工具,针对相应特定产品的框架(Profile)。
服务器和企业计算机桌面和个人计算机高端消费类设备UJ选包可选包低端消费类设备个人描述Java2企业版(J2EE)Java2标准版(J2SE)智能卡基本描述MIDPCDCCLDCJava卡APIJava虚拟机KVMCardVW图2-2 Java2平台的版本结构
J2EE的设计目的是提供对服务端的支持从而推动企业及企业中多层应用程序的发展,J2EE提供了一个多层分布式应用程序模型。这表明应用程序的各个部分能够运行在不同的设备上。J2EE结构中分别定义了客户层(Client tier)、中间层(middle tier,由一个或多个子层组成)和用来提供现存信息系统的各种服务的后端系统层。客户层可以支持各种客户类型,即包括公司防火墙内部和外部的用户。中间层通过Web层的Web容器来支持客户服务,并通过EJB(Enterprise JavaBeans)层的EJB容器支持商务逻辑组件服务。企业信息系统(EIS)层能够通过标准API的方法来支持对现存信息系统的访问。
构建在Java编程语言和Java技术基础之上的J2EE是最适合于采用多层企业级分布式环境的软件体系架构。J2EE给IT机构、应用开发者和产品供应商都带来了巨大的好处,能够很好的适应在现代软件开发。
2.3.2、J2EE组件和层次
组件[5](component)是一个应用程序级的软件单元。除了作为J2SE平台一部分的Java Bean组件外,J2EE还支持以下几种组件:applet、应用程序客户端、EJB组件和web组件。Applet和应用程序客户端运行在客户平台上,而EJB和web
Email:greenvc@gmail.com http://www.kmdin.com 第 11 页,共 88 页
互联网舆情监控系统分析与设计
组件运行在服务器平台上。所有J2EE组件需要一种叫做容器的系统级实体来支持。容器可以为组件提供如生命周期管理、安全、部署以及线程之类的服务。由于容器管理这些服务,所以在容器中使用组件时,许多组件的行为可以定制。
J2EE使用多层的分布式应用模型,应用逻辑按功能划分为不同组件,各应用组件根据所在的层分布在不同的机器上,如图2-3所示是J2EE规范的四个层次及相应的组件。
图2-3 J2EE组件和层次
这四层分别是运行在客户端机器上的客户层、运行在Web服务器上的web层、运行在EJB服务器上的业务层和运行在EIS服务器上企业信息系统层(Enterprise Information System Tier),其中Web层和业务层共同组成了J2EE应用的中间层。一般情况下,许多开发商把Web服务器和EJB服务器产品结合在一起发布,称为应用服务器或J2EE服务器。J2EE规范也定义了相应层的组件。
1、客户层
客户层用来与用户交互,并把来自系统的信息显示给用户。J2EE支持不同类型的用户,包括HTML用户、Java applets和Java应用等。客户的许多特征是由
Email:greenvc@gmail.com http://www.kmdin.com 第 12 页,共 88 页
互联网舆情监控系统分析与设计
客户连接到企业级应用程序的层所决定的。按照客户与之交互的层,可以把客户分成三大类:
1) 连接到Web层的客户。他们在Web浏览器或浏览器插件中的桌面或其他
宿主上执行。应用程序的商务逻辑和表示逻辑可以在服务器或客户上运行。
2) 连接到EJB层的客户。他们通常是运行在台式计算机上的GUI程序。EJB
客户可以访问J2EE EJB层的所有实用程序。应用程序的表示逻辑在EJB客户上运行,而商务逻辑在服务器上运行。
3) 企业信息系统客户直接访问企业信息系统资源。通常这些程序为后端系
统提供管理功能。表示逻辑和商务逻辑都包含在客户上。 2、Web层
Web层产生表示逻辑,并接受来自客户端的用户反馈,这些表示客户端通常为HTML客户端、Java Applets和其他的Web客户端。在所接收的客户端请求(可能采用某些Java Bean对象来处理用户输入)的基础上,表示层将用户请求发送到业务层中运行的企业Bean来处理,然后将业务层处理的结果采用一定的形式(HTML、PDF、WDL等)反馈给用户。J2EE中,是通过Web容器内的servlet和JSP来实现这一层的。但是,按照J2EE规范,静态的HTML页面和Applets不算是web层组件。
Web容器是Web层应用程序运行时的环境;Web应用程序在Web服务器的Web容器中运行。Web容器提供带有命名背景和生命周期管理的Web组件。一些Web服务器也可以提供更多的服务,例如:安全、并发和事务服务等。Web服务器可以和EJB服务器一起工作来提供这些服务,并且不需要位于同一台机器上。在有些情况下,一个Web容器可以和其它Web容器通信。
3、业务层(EJB层)
这一层处理应用的核心业务逻辑。业务层为低层业务服务组件提供必要的接口。业务组件通常被实现为EJB容器内的EJB组件。其中,EJB容器提供组件生命周期、管理持久性、事务和资源分配等服务。
一个企业bean从客户程序处接收数据,对数据进行处理(如果需要),再将数据发送到企业信息系统层存储。一个企业bean还从存储中检索数据,并将数
Email:greenvc@gmail.com http://www.kmdin.com 第 13 页,共 88 页
互联网舆情监控系统分析与设计
据送回客户程序。运行在业务层的企业beans依赖于容器来为诸如事务、生命期、状态管理、多线程及资源存储池提供通常非常复杂的系统级代码。
4、企业信息系统层
这一层为企业的信息系统服务,包括数据库系统、主机事务处理系统(Mainframe Transaction Processing)、遗产系统和企业资源计划系统(ERP)等。企业信息系统层是J2EE应用与非J2EE应用或遗产系统集成的连接点。
作为一个企业的应用系统往往需要一些基本的服务,例如事务服务、命名与目录服务、消息服务等。提供这些服务将简化分布式企业应用系统的建设,同时还可以更加有效地利用企业的可用资源。J2EE规范提供这些服务,但它仅仅定义的是提供这些服务的客户接口,而不是服务的具体实现。J2EE规范定义的服务接口有5种。
(1)数据存储服务接口:
J2EE规范把JDBC(Java Database Connection)作为它向应向用系统提供的数据存取服务的接口。通过JDBC接口和JDBC驱动程序,客户可以完成数据库的各种操作。
(2)事务服务接口(JTA:Java Transaction Interface):
J2EE规范通过定义这个接口向应用系统提供分布式事务处理服务。J2EE的事务服务(JTS:Java Transaction Service)采用了OMG的事务服务规范OTS(object Transaction Service),保证在分布式的环境下(如跨组件、跨主机、跨数据库)事务处理的ACID特性。
(3)命名与目录服务接口(JNDI:Java Naming and Diroctory Interface): J2EE上的应用系统通过这个接口完成与命名和目录有关的标准操作,如对象命名、对象与属性的绑定与检索等。JNDI作为一个接口定义,独立与特定的命名与对象服务。J2EE的具体实现可以选择任意的命名与目录服务,如LDAP、NDS、DNS、NIS等。
(4)安全服务接口:
J2EE上的应用系统通过这个接口使用J2EE提供的各种安全服务。J2EE提供的安全服务采用身份认证(Authentication)和资源授权访问(Authorization)的模式
Email:greenvc@gmail.com http://www.kmdin.com 第 14 页,共 88 页
互联网舆情监控系统分析与设计
来保证企业内资源的安全。其中身份认证机制包括基本认证法(用户名与密码)以及证书(Certificate)认证方法:授权访问则采用基于角色的授权访问控制。
(5)消息服务接口:
J2EE上的应用系统通过这个接口向应用系统提供消息服务(JMS:Java Message Service)。J2EE定义的消息服务提供T一种异步的处理请求、报告和事件的方法。它同时提供了点对点(Point_to_Point)的消息处理方式和基本主题(Topics)的发布_征订(Publish_Subscribe)方式的消息处理。此外,J2EE还通过Java Mail和JAF( Java Activation Framework)接口提供对电子邮件系统的操作支持。
2.3.3、MVC模式
MVC(Model-View-Controller,模型-视图-控制器)是Xerox PARC在八十年代为编程语言Smalltalk-80所发明的一种软件设计模式,至今已被广泛使用,并被推荐为Sun公司J2EE的设计模式,其为开发交互式应用系统提供了一个优秀的设计模式,受到越来越多开发者的欢迎[10]。
● MVC模式体系结构
MVC模式是专为交互式系统应用开发所设计的一种设计模式。正是由于MVC模式在交互式系统开发中所体现的强大优势,MVC模式被开发人员逐步引入J2EE体系之中,成为J2EE进行交互式应用开发时,特别是Web应用开发时一个非常重要的设计模式。随着网络技术的不断发展,基于Web的应用程序已经成为当前企业应用程序开发的主流,在应用J2EE技术开发Web应用程序之时,JSP Model1曾经广为流行。
模型视图控制器(MVC,Model View Controller)模式是一个将表示逻辑和业务逻辑分开表示的设计模式。MVC引入视图(表示层)、模型(数据)和协调两者的控制器。在其出现之前,用户界面设计通常把这些层合并在一起,而MVC模式则把它们分离开来,以提高灵活性与复用性。MVC架构如图2-4所示。
Email:greenvc@gmail.com http://www.kmdin.com 第 15 页,共 88 页
互联网舆情监控系统分析与设计
控制器Servlet客户HTML视图JSP模型Bean数据库或文件系统或其他后台系统 图2-4 MVC架构图
模型(Model): 模型包含了应用程序的核心,它封装了应用程序的数据结构和事物逻辑,集中体现了应用程序的状态。有时候它仅包含状态信息,因为它并不了解视图和控制器的信息。在J2EE中,Java Bean很适合这样一个角色,因为它能够处理绝大部分的事物逻辑和数据结构,能够与数据库和文件系统进行交互,承担维护应用程序数据的责任。在MVC的三个部件中,模型拥有最多的处理任务。被模型返回的数据是中立的,就是说模型与数据格式无关,这样一个模型能为多个视图提供数据。由于应用于模型的代码只需写一次就可以被多个视图重用,所以减少了代码的重复性,提高了系统设计的可重用性。属于业务逻辑模块,表示应用领域有关的类别、物体、数据结构以及企业业务逻辑等。通常,模型是企业业务流程的软件近似模型,所以,在定义模型时只需对企业业务流程中的对象进行合理抽象、封装其属性和隐含的业务逻辑即可。
视图(View): 视图是实现模块的外观,它是应用程序的外在表现。它可以访问模型的数据,却不了解模型的情况,同时也不了解控制器的情况。当模型发生改变是,视图会得到通知,它可以访问模型的数据,但不能改变这些数据。一个模型可以由多个视图,而一个视图理论上也可以同不同的模型关联起来。对老式的Web应用程序来说,视图就是由HTML元素组成的界面,在新式的Web应用程序中,HTML依旧在视图中扮演着重要的角色,但一些新的技术已层出不穷,它们包括Macromedia Flash和以及XHTML,XML/XSL,WML等一些标识语言和Web Services。如何处理应用程序的界面变得越来越有挑战性。MVC一个大的好处是它能为应用程序处理很多不同的视图。在视图中其实没有真正的处理发生,不管这些数据是联机存储的还是一个雇员列表,作为视图来讲,它只是作为一种输出数据并允许用户操纵的方式。有两种方式:Push(推)模式,让视图在模型处注
Email:greenvc@gmail.com http://www.kmdin.com 第 16 页,共 88 页
互联网舆情监控系统分析与设计
册,以便在模型变化时获得提醒;Pull(拉)模式,视图在需要获得最新数据时调用模型。本系统基本采用推模式。
控制器(Controller): 控制器封装的是外界作用于模型的操作。通常,这些操作会转发到模型上,并调用模型中相应的一个或者多个方法。一般控制器在模型和视图之间起到了沟通的作用,处理用户在视图上的输入,并转发给模型处理。这样模型和视图两者之间可以做到松散耦合,甚至可以彼此不知道对方,而由控制器连接起这两个部分。在MVC的处理过程中,首先控制器接收用户的请求,并决定应该调用哪个模型来进行处理,然后模型用业务逻辑来处理用户的请求并返回数据,最后控制器用相应的视图格式化模型返回的数据,并通过表示层呈现给用户。J2EE体系中一个典型的MVC模式处理流程如图2-5所示:
1控制器(Servlet)2354模型(bean)视图(JSP) 图2-5 MVC模式处理流程图
多个视图能共享一个模型,现在一个应用程序需要用越来越多的方式访问。在MVC设计模式之中,无论用户想要Flash界面或是WAP界面;用一个模型就能处理它们。因为MVC已经将数据和业务规则从表示层分开,模型返回的数据没有进行格式化,同样的构件能被不同界面使用,这当然包含HTML的表现方式,也有Flash和WAP的表示处理界面。同时模型也有状态管理和数据持久性处理的功能,例如,基于会话的购物车和电子商务过程也能被Flash网站或者无线联网的应用程序所重用。因而在MVC设计模式中应用开发人员可以最大化的重用他的代码。
因为模型是自包含的,并且与控制器和视图相分离,所以很容易改变应用程序的数据层和业务规则。如果需要数据库从MySQL移植到Oracle,或者改变的基于RDBMS数据源到LDAP,开发人员只需改变他的应用模型即可。一旦开发人员正确的实现了模型,不管数据来自数据库或是LDAP服务器,视图将会正确的
Email:greenvc@gmail.com http://www.kmdin.com 第 17 页,共 88 页
互联网舆情监控系统分析与设计
显示它们。由于运用MVC的应用程序的三个部件是相互对立,改变其中一个不会影响其它两个,所以依据这种设计思想开发者能构造良好的松耦合的构件。
同时控制器也提供了一个好处,就是可以使用控制器来联接不同的模型和视图去完成用户的需求,这样控制器可以为构造应用程序提供强有力的手段。给定一些可重用的模型和视图,控制器可以根据用户的需求选择模型进行处理,然后选择视图将处理结果显示给用户。
2.4、XML技术 2.4.1、XML的核心技术
XML是一种描述数据的功能,具有高度的结构和可验证的标记语言。XML允许用户定义他们自己的标签和属性,并定义按照语法标签和属性及开发应用,XML标签来描述数据,或者跟物业援助在描述数据,XML可以利用XML验证规则来规范文档的内容和结构,适用于政府机关、政府与企业之间,政府和表现形式之间数据交换的格式。[13]其核心技术体系如图2-6所示。
XML amespaceXML BaseXML Information SetCanonical XMLXML InclusionsXML SchemaDTDXPointerXLinkXPathSAXDOMXQueryXSLTXSLCSSXSL-FOXForms图2-6 XML核心技术体系
2.4.2、XML相关的标准和规范
1、SOAP
SOAP定义了应用程序和其他应用程序之间交换数据的标准通信协议。 SOAP是应用层协议,所以可以在传输协议TCP上工作。一个作为HTTP请求和响应SOAP消息的一部分,并可以发送任何通讯网络允许HTTP通信。为了实现平台无关性和最大的互操作性,SOAP使用XML来表达客户端和WEB服务之间的消息。通过使用HTTP和XML,SOAP提供的任何应用程序之间的通信平台运行在现有的互联
Email:greenvc@gmail.com http://www.kmdin.com 第 18 页,共 88 页
互联网舆情监控系统分析与设计
网架构。[14]
SOAP消息结构是由一个信封构成,包含一个可选的header以及必须的body,如图2-7所示:
SOAP信封SOAP头Header partsSOAP体Body parts(Payload)SOAP Fault 图2-7 SOAP消息结构
2、Web Service与WSDL
WebService是可以在网络上进行公布,定位和触发功能,这些功能都可以从简单的组装要求的任何复杂的业务流程。一旦WebService被发布,其他的软件可以在任何时间发现并激活服务。 WebService可以使用任何语言,不管是什么工具,用什么语言,写出来的,只是通过HTTP使用SOAP协议可以调用。[14]调用框架如图2-8所示。
WEB客户SOAP请求请求处理器WEB服务WEB服务WEB服务WEB客户SOAP响应WEB客户WEB服务器 图2-8 Web Service调用框架
WSDL是基于XML格式,用来描述Web Service的接口、Web Service所支持的协议以及Web Service的位置。
3、UDDI
对于UDDI的Web服务供应商,使用提供服务。 UDDI的成员运行Web服务,打电话给朋友的UDDI启用(UBR),是一个全球性的,共同的商业服务目录。网
Email:greenvc@gmail.com http://www.kmdin.com 第 19 页,共 88 页
互联网舆情监控系统分析与设计
络服务提供者可以登记自己的服务,Web服务使用方可以查询他们需要的服务和业务合作的必要性等信息。使用SOAP消息的UDDI的Web服务在注册表编辑器,搜索,发布,浏览。[14]
4、XML Encryption
W3C和IETF提出了对XML文档中的数据和标签进行加密的标准——XML 加密(Xenc)。允许对文档的部分内容进行加密,可根据业务的需求对敏感信息进行加密,用不同的密钥对文档的部分进行加密,允许将相同的文档发送给不同的接收者,而接收者仅仅能将与自己相关的部分进行解密。
5、XML Signature
XML签名与XML加密是密切相关的,与安全证书签名的概念类似,XML签名用来确保XML文档的完整性、授权性以及不可否认性。
6、JAXP
JAXP中可以使Java应用程序,运行和生成XML文件,JAXP是Java语言的XML文档的标准API,支持DOM,SAX,XSLT的标准处理。JAXP可以和具体实现DOM API、SAX API的各种XML解析器(XML解析器)联合工作,以及谁可以和具体的XSLT标准的XSLT处理器(XML处理器)联合工作。只需要与JAXP的定义,熟悉各种编程接口可以,而不需要在特定的XML解析工具的需要,XSLT处理器有很深入的了解。
7、JDOM
JDOM是一个新的API,用来提供处理XML的Java编程能力,是专为Java开发人员处理XML API,与广大程序员的期待,符合设计习惯和希望。 JDOM是由于对JAVA的核心API,因此它不喜欢的维护节点列表,绘图和定义接口,JDOM的使用Java集合API的DOM。作为不同于DOM的克隆和测试两个节点是否是相同的和独立的语言机制的定义。 JDOM的API还支持JAVA对象序列化机制。由于已在JAVA JDOM的优化,因此它的性能可媲美SAX。JDOM是作为一种轻量级API被定制的,是以JAVA为中心的。JDOM最终将成为JAVA的自身(JSR 104)的一部分。[14]
2.4.3、XML在电子政务中的应用
XML及构筑其上的各类相关技术,依赖于其本身的技术特点,能有效地运用
Email:greenvc@gmail.com http://www.kmdin.com 第 20 页,共 88 页
互联网舆情监控系统分析与设计
在电子政务框架体系的各个层次中。同时,在电子政务框架体系的各个层次中,通过对XML技术的恰当运用,能有效解决目前电子政务中面临的资源共享、安全控制、业务协同和业务集成等系列核心问题,并能为其他领域(如电子商务等)的业务互通、互连提供适当的技术基础。[13]
在电子政务中与XML技术相关的信息交换应用可分为三大类:政府部门之间的信息交换、政府部门内部的信息交换、政府与企业和个人的信息交换。XML适合作为信息交换的数据格式技术标准,作为数据中介,实现异构数据的集成和交换。
业务流程控制将相互独立的不同业务部门按照一定饿流程关系相互联系在一起。业务流程定义是流程控制的基础。业务流程引擎是进行流程控制的执行体,它是按照业务流程的定义来执行的。XML在流程控制中的主要应用是对业务流程定义的规范,以解决不同的业务流程引擎之间的业务流程之间的相互协调,以及业务流程在更高一级的集成和整合。目前,基于XML的业务流程标准正在不断发展,出现了很多基于XML的业务流程定义语言标准,如WPDL、XPDL、BPML、ebXML BPSS、WSFL、XLANG、BPEL4WS等,为电子政务领域的业务流程控制提供了广泛的参考标准。[13]
在事务处理领域,XML技术可应用于解决政府部门内部信息集成事务问题,政府部门之间异构的事务管理、长事务管理等问题。
公文处理是电子政务中常见的特定业务领域。公文处理涉及公文的生成、表示、存储、更新、交换、检索和流程处理控制等。它是在应用支撑层提供的各项支撑服务的基础上,一个涉及比较全面技术领域的综合性的具体业务应用。XML数据访问技术、流程控制技术、事务处理技术、信息交换技术等对解决公文处理领域的各类技术问题,提供了比较合适的技术标准。
信息发布是政府部门对外提供服务的重要形式。XML技术的出现,为信息发布的实现提供了灵活的技术手段。
信息采集是电子政务系统的重要组成部分。基于XML的XForms的出现,很好地满足了交互式信息采集的技术需要。
为解决政府部门间业务资源共享互用、政府机构之间相互服务以及政府机构一站式的对外服务问题,引入服务调用机制,进行规范化的服务描述。基于XML
Email:greenvc@gmail.com http://www.kmdin.com 第 21 页,共 88 页
互联网舆情监控系统分析与设计
的Web services技术提供了比较完善的服务体系结构。
2.5、数据挖掘技术
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。知识发现被认为是从数据中发现有用知识的整个过程。其过程定义为:在数据中鉴别出有用模式的非平凡过程,该模式是新的,可能有用的和最终可理解的。KDD过程可用图2-9表示。而数据挖掘被认为是知识认知过程中的一个特定步骤,它用专门算法从数据中抽取模式。
选择预处理转换源数据目标数据预处理数据转换数据知识解释评价模式识别数据挖掘
图2-9 知识发现(KDD)过程
数据挖掘的任务是从数据中发现模式。其模式有很多种,按功能可分有两大类:预测型(Predictive)模式和描述型(Descriptive)模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组,描述型模式不能直接用于预测。[21]
2.5.1、数据挖掘的过程
数据挖掘的基本步骤包括:定义商业问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型、实施。
1、定义商业问题:要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义。有效的问题定义还应该包含一个知识发现项目得到结果进行衡量的标准。
2、建立数据挖掘库:首先把数据从数据仓库中拿到数据挖掘库或数据集市中。建立数据挖掘库的过程可以分成下面几个部分:数据收集、数据描述、选择、
Email:greenvc@gmail.com http://www.kmdin.com 第 22 页,共 88 页
互联网舆情监控系统分析与设计
数据质量评估和数据清理、合并与整合、构建元数据、加载数据挖掘库、维护数据挖掘库。
3、分析数据:分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常费时耗力的事情,需要选择一个具有好的界面和功能强大的工具软件来协助。
4、准备数据:这是建立模型之前的最后一步数据准备工作。可以把此步骤划分成选择变量、选择记录、创建新变量、转换变量、选择变量。
5、建立模型:为了保证得到的模型具有较好的精确度和健壮性,需要一个定义完善的训练—验证协议。
6、评价、解释和验证:模型建立好之后,必须评价他的结果、解释他的价值。先在小范围内应用,取得测试数据,觉得满意之后再向大范围推广。
7、实施:模型应用到不同的数据集上,选择符合特定要求的记录,以用OLAP工具做进一步的分析。
2.5.2、数据挖掘的方法
数据挖掘的应用中,最终的目标都是发现有价值的知识和信息,有共同的思路和步骤,但也存在很大的差异和区别。由于各种方法都有自身的功能特点以及应用领域,数据挖掘技术的选择将影响最后结果的质量和效果,通常是将多种技术结合使用,形成优势互补。本系统采用的技术方法主要有以下几种。[23]
1、描述型数据挖掘 (1)统计和可视化
建立一个好的预言模型,必须了解自己的数据。最基本的方法是计算各种统计变量(平均值、方差等)和察看数据的分布情况。也可以用数据透视表察看多维数据。要看的是车贷险业务的风险与年龄、性别、婚姻状况、区域等的关系。因此,可视化工具必须用比较巧妙的方法在二维空间内展示n维空间的数据。
(2)聚类
聚类是把一组个体按照相似性归成若干类别。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类
Email:greenvc@gmail.com http://www.kmdin.com 第 23 页,共 88 页
互联网舆情监控系统分析与设计
方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。
(3)关联和序列模式分析
关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性,比如在车贷险业务中所购买的不同附加险的相关性。关联规则是形式如下的一种规则,“在购买全车盗抢险和玻璃单独破碎险的客户有70的人同时也买了车辆停驶损失险”:(全车盗抢险+玻璃单独破碎险)一(车辆停驶损失险)。用于关联规则发现的主要对象是事务型数据库,其中针对的应用主要是销售数据,也称为“货篮数据”。序列模式与此类似,它寻找的是事件之间时间上的相关性,如对机动车辆出险率变化的分析。[23]
2、预言型数据挖掘
数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界的模型。建立这个模型可能需要各种各样的源数据,包括交易记录、顾客历史数据、人口统计信息、进程控制数据和市场相关的外部数据等。模型是模式和数据间相关性的形式化描述。
(1)分类(Classification)
分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类要解决的问题是为一个事件或对象归类。预测的目的是从利用历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。
分类包括决策树法和规则归纳法,前者对应的表示为决策树或判别树,后者则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。另外,最近又兴起了一种新的方法:粗糙集(Rough Set),其知识表示是产生式规则。
(2)回归(Regression)
回归是通过具有己知值的变量来预测其他变量的值。在最简单的情况下,回归采用的是像线性回归这样的标准统计技术。
(3)时间序列(Time series)
时间序列是用变量过去的值来预测未来的值。与回归一样,它也是用已知的
Email:greenvc@gmail.com http://www.kmdin.com 第 24 页,共 88 页
互联网舆情监控系统分析与设计
值来预测未来的值,只不过这些值的区别是变量所处时间的不同。时间序列采用的方法一般是在连续的时间流中截取一个时间窗口(一个时间段),窗口内的数据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以获得建立模型所需要的训练集。
2.5.3、数据挖掘模型与算法
决策树和神经网络算法是数据挖掘中最常见的和应用最广泛的模型与算法,大部分算法都不是专为解决某个问题而特制的,算法之间也并不互相排斥。一般来说并不存在所谓的最好的算法,在最终决定选取那种模型或算法之前,可能各种模型都试一下,然后再选取一个较好的。
1、决策树(Decision Tree)
基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树。决策树所表示的分类知识可以被抽取出来并可用IF-THEN分类规则形式加以表示。
决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。建立决策树的过程,即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的 “差异”最大。建立一颗决策树可能只要对数据库进行几遍扫描之后就能完成,这也意味着需要的计算资源较少,而且可以很容易的处理包含很多预测变量的情况,因此决策树模型可以建立得很快,并适合应用到大量的数据上。
决策树很擅长处理非数值型数据,这与神经网络只能处理数值型数据比起来,就免去了很多数据预处理工作。甚至有些决策树算法专为处理非数值型数据而设计,因此当采用此种方法建立决策树同时又要处理数值型数据时,反而要做把数值型数据映射到非数值型数据的预处理
2、神经网络(Neutral Network)
神经网络是一种最复杂的分类和回归算法。常被称作“黑箱”。神经网络需要很多数据来训练,因而很费时间,但是一旦训练完毕,它能快速的对新的案例做出预测,甚至是实时的。另外,神经网络能针对多个同时发生的预测提供多个结果。神经网络的一个关键特点是它只直接在数字上运行。因此,任何非数字的
Email:greenvc@gmail.com http://www.kmdin.com 第 25 页,共 88 页
互联网舆情监控系统分析与设计
数据无论是自变量或是因变量都要转换成数字。
神经网络可以很容易的解决具有上百个参数的问题。神经网络常用于两类问题:分类和回归。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层(对神经网络使用者来说不可见),隐含层的层数和每层节点的个数决定了神经网络的复杂度,如图2-10所示。
1w12w13w26w456442w255图2-10 带权重的神经元网络
决定神经网络拓扑结构的是隐含层及其所含节点的个数,以及节点之间的连接方式。要从头开始设计一个神经网络,必须要决定隐含层和节点的数目,活动函数的形式,以及对权重做哪些限制等。
由于神经网络隐含层中的可变参数太多,如果训练时间足够长的话,神经网络很可能把训练集的所有细节信息都“记”下来,而不是建立一个忽略细节只具有规律性的模型,我们称这种情况为训练过度。显然这种“模型”对训练集会有很高的准确率,而一旦离开训练集应用到其他数据,很可能准确度急剧下降。
2.5.4、数据挖掘过程中存在的问题
在数据挖掘技术的应用中,人们存在两种不正确的认识,一是认为数据挖掘毫无用处,结果不可靠;另一则是认为数据挖掘是万能的,从数据中可以发现想要的任何知识和信息。在实际应用中,应该注意数据质量、算法选取、结果评价和保护客户的个人隐私等问题。
Email:greenvc@gmail.com http://www.kmdin.com 第 26 页,共 88 页
w15w56
互联网舆情监控系统分析与设计
1、数据质量的问题
数据挖掘中涉及到大量的数据,不可避免地会出现一些错误的、冗余的数据,给数据挖掘带来一定的困难。在对数据进行取样时,应该根据用户挖掘的主题,选择有效的数据集,并对数据进行清理、归并和转换等操作,保证数据的代表性和客观性。
2、技术方法的选取问题
在数据挖掘的应用中,由于各种技术方法具有不同的特点和功能,应该针对挖掘的主题和目标,选择合适的技术和算法。选择市场化的数据挖掘工具时,应该了解系统的功能特点和使用的技术算法。
3、结果的验证与评价问题
结果的验证和评价是数据挖掘中不可缺少的环节。这是一个反复实验的过程,运用其他的样品进行验证,也可以选择新的样品集进行评价,直到得出用户满意的挖掘结果为止。
4、保护客户的个人隐私问题
目前出现了越来越多的商业信息。特别是客户在使用投保或理赔环节,客户的工资、职业和年龄等个人信息可能被企业采集到。因此,如何保护个人隐私的问题,以及数据安全性问题等,引起了人们的普遍关注。在数据挖掘应用中,这是企业应该必须考虑到的问题。
同时,要保证数据挖掘成功的还有两个关键要素:一是准确的定义所要解决的问题,定位准确的问题通常会带来最好的回报。二是使用正确的数据,选定了所能得到的数据,也许还要从外部购买数据,需要对这些数据做有效的数据整合和转换。
Email:greenvc@gmail.com http://www.kmdin.com 第 27 页,共 88 页
互联网舆情监控系统分析与设计
第三章、系统需求分析
需求分析就是通过与用户、业务操作人员的广泛交流,得到未来系统必须具备的功能,即了解未来系统必须做什么以及系统必须具备什么样的性能,定义系统功能和用户界面,使用户了解系统,开发人员了解系统需求,作为制定项目计划的基础,同时也是系统测试和项目验收的依据。
3.1、系统概述 3.1.1、主要功能需求
东川区舆情监控系统的主要需求如下: 1、舆情采集功能
东川区舆情采集工具在支持传统网页采集功能的基础上,还应实现对论坛、微博、博客、新闻评论等舆情信息的精准和全面采集,为东川区的舆情分析提供丰富的数据资源。
2、舆情检索功能
通过全文数据库提供全文检索功能,可以对海量舆情数据进行高效、准确、实时的搜索。
3、舆情分析功能
东川区的网络舆情分析方面,可以综合运用关系数据库技术、全文索引技术、大规模文本智能挖掘技术,实现对海量舆情信息的准确、高效分析和管理,对舆情分类和预警,对群众关注的热点敏感信息进行监控;自动识别东川区区域网络上的热点新闻事件和热点领域,发现东川区网民的关注焦点和热点;对热点新闻和事件发展趋势进行图形化显示并能自动生成简报。
4、舆情展示功能
系统可以提供灵活的个性化定制功能,使用户根据自己喜好配置首页的显示内容、样式、摆放的位置、信息条数、是否滚动等,方便用户对系统的使用。按照权限分配栏目,不同权限级别看到的栏目信息、简报信息不同。
Email:greenvc@gmail.com http://www.kmdin.com 第 28 页,共 88 页
互联网舆情监控系统分析与设计
3.1.2、目标
东川区公安局网络舆情信息管理系统建设项目(即:东川区网络舆情监控系统建设项目)的建设目标是:通过系统的建设,将有利于东川区公安局全面、及时、准确地掌握舆论动向,制定正确的策略方针,采取有效的措施对负面信息进行干预,正面引导舆论发展,不断提高我局对相关敏感信息、事件的处理及控制能力,进一步加强东川区互联网新闻宣传和信息安全管理工作。
3.1.3、用户特点
本项目的用户主要是东川区公安局机关及下属单位、区局的工作人员,其中大部分人具有使用办公软件系统和上网的经验,按其对计算机操作的熟练程度可分为几类:
第一类:普通用户,主要是业务经办人员,他们对业务工作比较熟悉,但对计算机应用了解不多,能利用图形界面完成简单的计算机操作;
第二类:各个部门部分具有熟练操作计算机的人员,经培训后可完成部分简单的系统管理工作;
第三类:东川区公安局信息中心的部分计算机专业技术人员,能参与系统开发、维护、管理等工作。
3.2、系统功能要求 3.2.1、系统功能结构
系统功能如图3-1所示:
Email:greenvc@gmail.com http://www.kmdin.com 第 29 页,共 88 页
互联网舆情监控系统分析与设计
图3-1系统功能结构
3.2.2、舆情采集功能
网络舆情是指通过互联网表达和传播的各种情绪、态度、意见、意愿交叉的总和,东川区网络舆情信息的主要来源有:新闻、论坛、博客、聚合新闻(RSS)等。网络舆情形成如3-2图所示:
Email:greenvc@gmail.com http://www.kmdin.com 第 30 页,共 88 页
互联网舆情监控系统分析与设计
图3-2 网络舆情形成
东川区舆情形成的动力模型如图3-3所示:
内部动力外部动力利益需求心理作用力社会作用力舆情空间作用力个人心理作用力群体心理作用力经济发展暗示模仿感染政治体制科技文化体制固有成见知识结构信仰习俗群体压力从众心理劝说宣传公共事务舆情的形成与表达图3-3 舆情形成动力模型
东川区网络舆情生命周期如图3-4所示:
Email:greenvc@gmail.com http://www.kmdin.com 第 31 页,共 88 页
互联网舆情监控系统分析与设计
图3-4 网络舆情生命周期
1、自定义URL来源及采集频率
东川区舆情采集模块系统用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。
2、支持多种网页格式
东川区舆情采集系统可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/ASPX/PHP/JSP),还可以采集网页中包含的图片信息。 3、支持多种字符集编码
东川区舆情采集系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。 4、支持内容抽取识别
东川区舆情采集系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
5、基于内容相似性去重
纵横采集系统通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。
东川区舆情采集时序图如图3-5所示:
Email:greenvc@gmail.com http://www.kmdin.com 第 32 页,共 88 页
互联网舆情监控系统分析与设计
图3-5 舆情采集时序图
3.2.3、舆情检索功能
在东川区的舆情管理平台中可对新闻、论坛、博客等群众关心的热点问题进行分类检索,也可对正文、来源、作者和标题进行相关检索。需要达到以下功能:
(1)实时动态索引:数据增删改时快速同步更新索引,无需重建整个索引,也无需局部重建索引。即数据维护(增删改)后马上能够检索出来。
(2)支持GB18030和UTF8大字符集:便于对中文偏僻字和世界各国文字的支持。
(3)多种检索入口:属性字段检索(例如分类检索)、关键词检索、多字段“与或非”组合检索、二次检索(渐进检索)、中文简繁体扩展检索等。
(4)支持检索结果的分类统计和浏览:显示检索结果的分布情况,报告各类别的命中记录数。
(5)支持对检索结果的各种排序:相关度、时间、热度等。 (6)检索结果自动按分类导航展现。
(7)为实现对舆情的全面掌握,提供对百度、google和雅虎等主流搜索引擎进行元搜索,系统要能够对元搜索结果自动聚类,快速把分析结果展现出来。
Email:greenvc@gmail.com http://www.kmdin.com 第 33 页,共 88 页
互联网舆情监控系统分析与设计
3.2.4、舆情分析功能
1、信息自动分类与敏感信息监控
本系统要提供舆情自动分类,可以对东川区公安局关注的敏感信息和警民业务的各个重点领域进行监控,减少人工分类工作量,提高工作效率。在系统使用过程中,可以对分类进行不断调优,并要求支持多维度分类。系统要求提供褒贬分析技术,以便自动发现负面信息,实现对敏感信息的有效监控。
2、舆情趋势分析与预警
本系统要求能提供单个舆情的趋势分析,多个舆情信息的趋势对比分析,舆情信息传播链分析,以及同比环比分析、二维分析等,帮助用户及时准确地把握宏观舆情走势,辅助相关人员对舆情进行干预和引导。
3、热点自动发现
系统要能根据舆情文章的内容语义发现热点信息,进行自动聚类、关联,而非简单的重复信息数量的统计。系统可以自动推送最近的网络热点信息,用户可以定制热点信息来源渠道,热点信息分类方式,从而在第一时间将用户关心的热点信息推送给用户。针对用户的行业及区域特点,系统可以定制详细的行业热点信息和区域热点信息。热点信息分析时序图如图3-6所示:
图3-6 热点信息分析时序图
Email:greenvc@gmail.com http://www.kmdin.com 第 34 页,共 88 页
互联网舆情监控系统分析与设计
4、智能关联功能:
系统要求根据文章内容语义,把一条新闻和相关的新闻、BBS、评论、Blog等各类舆情信息关联到一起,以便多方位地了解新闻事件的进展情况,以及相关的网民评论等信息,全面地掌握各种相关信息。
5、热点词语发现与关联
系统要求可以自动提取人名、地名、机构名及主题词语,并将相关舆情关联在一起。主题过滤功能通过配置关注信息规则和系统自学习功能,对新闻、论坛网站中的信息内容进行自动过滤以及提示预警。在信息情报采集、分析的基础上为编辑和用户提供所需的信息资讯。应用系统将在最短的时间把最相关的信息提供给最需要的人。关注信息的时序图如图3-7所示:
图3-7 关注信息时序图
6、舆情跟踪
Email:greenvc@gmail.com http://www.kmdin.com 第 35 页,共 88 页
互联网舆情监控系统分析与设计
系统要求提供舆情跟踪功能,用户可以设置在一段时间内需要重点监控的舆情,系统能够提供相关的舆情参考。
7、舆情简报功能
系统要提供简报撰写和管理功能。简报要求能够生成doc、docx和pdf格式进行导出、打印。简报的内容可编辑修改,报告模版可灵活定制。系统具备舆情信息的统计分析功能,生成报表和分析图,分析结果支持复制和粘贴至Office文档。舆情报告生成的时序图如图3-8所示:
图3-8舆情报告生成时序图
8、统计分析
系统支持统计分析引擎,根据需要生成信息地域统计,网站来源统计等。统计分析时序图如图3-9所示:
Email:greenvc@gmail.com http://www.kmdin.com 第 36 页,共 88 页
互联网舆情监控系统分析与设计
图3-9 统计分析时序图
3.2.5、舆情干预功能
(1)网站备案信息管理
东川区网站备案信息是网络管理的基础数据,系统提供对网站备案信息的查询、添加、修改、删除等功能;东川区网站备案信息内容除包含工业和信息化部的域名信息备案的内容外,还应有网站主办人所在地区、服务器所在地区、管理员联系方式、网站主要内容、类别、备注等信息;对尚未正式备案的网站也能加入到系统里以备查询,系统提供按不同地区的分类显示查询功能。
(2)有害信息处置
对各类确认的有害信息(系统自动监测、即时搜索、人工输入),由人工设置其处理方式,系统自动抓取并保留网页快照;确认后的有害信息进入待处理状态,系统自动定期探测目标网站上的有害信息是否已经删除,并及时修改状态信息。
Email:greenvc@gmail.com http://www.kmdin.com 第 37 页,共 88 页
互联网舆情监控系统分析与设计
(3)舆情通知功能
在东川区舆情信息涉及设定的重点关键词,或新闻评论、论坛主帖、跟帖、跟帖数及点击率达到或超过设定标准时,系统要能支持窗口弹出、短信发送、邮件通知等方式向工作人员通知示警。
(4)自动发帖功能
系统管理员可以对需要进行人工引导的论坛舆情信息进行自动回帖,有效地干预和引导舆情的发展。
3.2.6、其它功能
1、个性化功能
系统用户可以定义不同的首页,并根据自己爱好配置首页的显示内容、导航栏目的位置、信息显示条数等,方便用户对系统的使用。
2、用户及权限管理
系统应提供完善的用户和权限管理机制,充分保证信息内容的安全性;用户分组、分类,权限分级;在可视界面的管理环境下,可以实现对信息资源库的访问权限的分配,对用户权限定制;通过多层次的权限控制可以达到对用户的身份识别,对内部资源的安全保护与利用,用户信息要求与现有东川区的统一应用管理平台保持同步。
登录的时序图如图3-10所示,访问人员启动系统,身份验证模块被调用,启动身份验证功能,验证用户名和密码是否正确,若正确,读取相应的权限数据,同时写入系统日志,返回数据给界面,启动相应的系统模块,创建系统主界面;若不正确,显示无法登录提示信息,显示相应的界面。
Email:greenvc@gmail.com http://www.kmdin.com 第 38 页,共 88 页
互联网舆情监控系统分析与设计
图3-10 登录时序图
找回密码的时序图如图3-11所示,访问人员通过正确的回答密码提示问题找回密码,同时写入系统日志,返回数据给界面,显示相应的界面。
图3-11找回密码时序图
Email:greenvc@gmail.com http://www.kmdin.com 第 39 页,共 88 页
互联网舆情监控系统分析与设计
3、数据维护
系统提供用户维护数据的功能;对每类数据,可设定数据保留时间,由系统自动删除过期的数据,也可由用户即时选择性删除;对重要数据,系统应提供数据备份和恢复的功能。
4、日志管理
保存所有登陆系统人员的浏览和操作历史记录,对用户的行为进行实时跟踪、统计,供需要参考时调用。
5、统计分析
为便于系统的优化以及工作绩效的评估,本系统要求提供完善的统计分析功能,包括站点采集、热词、预警、栏目访问、用户活跃度、检索、日志、报告等的统计分析。
3.3、系统性能要求
东川区舆情监控系统应能保证数据输入、输出及远程数据传输的100%准确率。
3.3.1、对时间特性的要求
系统响应速度应达到:
1、对本地局域网(东川区办公大楼网络环境):
(1)打开(可对该界面上的按钮操作)任何一个浏览界面的响应时间不能超过3秒;
(2)对10万条纪录查询并显示100条符合条件的数据响应时间不超过5秒; (3)对10万条记录进行组合统计并显示统计结果的响应时间不超过5秒; (4)以分页形式打开扫描文档或附件文件显示第一页的响应时间不超过5秒。
(5)在10M网络带宽环境下,每小时可以采集5万个网页。 2、对远程用户:
(1)打开(可对该界面上的按钮操作)任何一个浏览界面的响应时间不能超过10秒;
Email:greenvc@gmail.com http://www.kmdin.com 第 40 页,共 88 页
互联网舆情监控系统分析与设计
(2)10万条中查询并显示100条符合条件的数据响应时间不超过10秒; (3)10万条中进行组合统计并显示统计结果的响应时间不超过10秒; (4)以分页形式打开扫描文档或附件文件显示第一页的响应时间不超过10秒。
3.3.2、安全性要求
系统须结合东川区公安局安全体系的建设方案,提供足够的安全措施保障系统的安全性:
1、数据访问的安全:需与东川区公安局CA认证系统衔接,用户须经过CA认证,确定用户身份才能访问本系统。登录本系统的用户还应经过权限核查,只能访问本人权限范围内的数据。由于本系统提供在互联网上的联网申请、受理、审批,因此应充分保证数据库不被非法访问,开发方须针对这一要求提出完整的安全性保证方案。
2、数据传输的安全:需与东川区公安局基础安全体系结合,保证数据传输过程中的安全性。
3、数据库的安全:系统应提供应用级的数据库安全保障。
Email:greenvc@gmail.com http://www.kmdin.com 第 41 页,共 88 页
互联网舆情监控系统分析与设计
第四章、系统设计
4.1、系统架构 4.1.1、系统架构
东川区舆情监控管理系统结合了C/S、B/S两种不同的应用模式,并形成了优势互补,系统网络拓扑如图4-1所示:
图4-1 网络拓扑图
东川区舆情信息采集服务器个数根据所需监控的站点数量来决定,采用主流服务器,Linux操作系统。部署其他应用或模块的服务器建议为主流PC服务器,使用Linux操作系统,如图4-2所示,所需机器的数量没有硬性要求,可以根据实际情况进行调整,可以在多台机器上分开部署。
Email:greenvc@gmail.com http://www.kmdin.com 第 42 页,共 88 页
互联网舆情监控系统分析与设计
舆舆舆舆舆舆舆舆舆舆舆舆舆舆舆舆舆舆舆舆舆舆舆...舆舆舆舆舆舆舆舆舆
图4-2 舆情采集服务器部署
4.1.2、技术架构
东川区舆情系统采用B/S架构,面向对象的JAVA语言开发,系统配置通过XML技术完成;数据库采用关系型数据库Sql Server,系统通过http服务连接数据库,使用连接池、对象缓存等多种技术提高系统性能;通信协议采用HTTP、TCP/IP,调用接口采用Web Service协议格式,系统通过内嵌浏览器技术与扩展对象插件接口集成,桌面布局通过Html和AJAX(采用Jquery框架)技术集成,东川区舆情监控系统的技术架构如图4-3所示。
Email:greenvc@gmail.com http://www.kmdin.com 第 43 页,共 88 页
互联网舆情监控系统分析与设计
图4-3 技术架构
东川区舆情监控系统形成过程的技术架构如图4-4所示:
Email:greenvc@gmail.com http://www.kmdin.com 第 44 页,共 88 页
互联网舆情监控系统分析与设计
图4-4 系统形成技术架构
4.1.3、系统构成
东川区互联网舆情信息管理系统由舆情分析工具、舆情展示子系统、舆情采集子系统(信息雷达)和舆情检索引擎四部分组成。系统架构如图4-5所示:
网络信息采集子系统全文检索数据库及检索引擎舆情展示子系统舆情分析工具
图4-5 系统构成
东川区互联舆情监控系统基于东川区公安局统一应用平台之上建立,通过统
Email:greenvc@gmail.com http://www.kmdin.com 第 45 页,共 88 页
互联网舆情监控系统分析与设计
一应用平台实现与局内其他相关信息系统的对接以及数据共享,应遵循相关技术规范和接口标准,采用SOA架构建立;系统的基础功能如用户管理、权限管理、信息发布以及与其它系统的数据交互等应通过东川区的统一应用平台提供的通用基础服务进行。系统本身业务逻辑所需的各项管理功能则通过构建符合统一应用平台技术规范的服务来实现,这些服务可被注册到平台上,以Web Services协议方式提供接口给其他系统使用。
4.2、数据库设计 4.2.1、数据库设计原则
数据库的设计就是从用户需求出发,设计数据库的结构(主要是逻辑结构和物理结构),再装载初始数据的过程。数据库技术是信息资源管理最有效的手段。在数据库的设计中主要采用逐步求精和分而治之的设计策略。数据库不是独立存在的,它总是与具体的应用相关的。在设计数据库时必须时刻考虑用户需求,数
[18]据库与具体应用之间是相辅相成的关系。数据库的设计过程一般包括以下几个
步骤:
1、确立目标和收集数据
确立数据库的目标亦称为需求分析。需求分析就是通过详细调查用户的管理对象来明确用户的各种管理需求,通过收集和分析管理信息,了解在数据库中需要存储哪些数据,要完成什么样的数据处理功能。确定目标之后就需要根据目标收集有用的数据,然后分析与表达这些数据;通过充分交流,了解他们平时是如何使用数据库的,以及对当前信息的要求,进而设计满足用户需求的字段,并根据设计的字段收集数据。[18]
2、概念设计
设计概念模型时,根据应用的需求,画出能反映每个应用需求的E-R图,其中包括确定实体、属性和联系的类型。在E-R方法中,局部概念结构又称为局部E-R模式,全局概念结构又称为全局E-R模式,其图形表示为E-R图。然后优化初始的E-R图,消除冗余和可能存在的矛盾,这一阶段是整个数据库设计的关键,概念模型是对用户需求的客观反映,并不涉及具体的计算机软、硬件环境。[18]
Email:greenvc@gmail.com http://www.kmdin.com 第 46 页,共 88 页
互联网舆情监控系统分析与设计
3、建立数据模型
完成上述工作就可以建立数据库模型了,这是数据库设计过程的第三个阶段。我们采用了实体联系(E-R)方法来进行数据库的概念设计,就是将概念模型中得到的E-R图转换成具体的数据模型。目前比较常用的是关系数据模型,我们通常将E-R图转换成关系数据模型,就是要把实体、实体的属性和实体之间的联系转换为关系模式。[18]
4、数据库实施与维护
完成数据模型后是实施与维护数据库,包括对字段进行命名,确定字段的类型和宽度,并利用数据库管理系统或数据库语言创建数据库结构、输入数据和运行等,因此数据库的实施是数据库设计过程的最终实现。以后的重点就是数据库的维护工作,包括做好备份工作、数据库的安全性和完整性调整、改善数据库性能等。数据库的设计在管理信息系统系统的开发中占有核心的地位。[18]
4.2.2、数据库关系设计
限于篇幅和系统保密性的要求,本文仅给出部分数据库的设计关系,如图4-6所示:
Email:greenvc@gmail.com http://www.kmdin.com 第 47 页,共 88 页
互联网舆情监控系统分析与设计
内容信息编号标题内容分类增加时间修改时间点击次数增加者修改者删除标识varchar(30) 图4-6 用户逻辑关系 4.2.3、表结构设计 限于篇幅,本文仅给出部分模块的数据库表结构设计。分别如下表所示: 表4-1 用户信息 字段名称 UsersID LoginID Pwd UserName Depict Del 表4-2 用户权限 字段名称 UserPurviewID LoginID RelativeCode 中文名称 编号 登录代码 关联功能数据类型 int varchar(50) varchar(50) 是否为空 否 否 否 备注 主键,自动增长 中文名称 编号 登录代码 密码 用户名称 描述 删除标识 数据类型 int varchar(50) varchar(200) nvarchar(50) ntext int 是否为空 否 否 否 否 是 否 备注 主键,自动增长 Email:greenvc@gmail.com http://www.kmdin.com 第 48 页,共 88 页 互联网舆情监控系统分析与设计 Category Sort Del 编号 功能级别 操作时间 删除标识 int int int 表4-3 功能链接 否 否 否 1表示功能权限,2表示数据权限 字段名称 UrlMenuID ParentID OrderID Category Name URL Depict Del 中文名称 编号 父编码 排序编号 类别编码 名称 链接地址 描述 删除标识 数据类型 int int int int varvchar(50) varvchar(500) ntext int 是否为空 否 否 否 否 否 是 否 备注 主键,自动增长 0表示顶级菜单,其它编码则与UrlMenuID相匹配 表4-4 用户操作日志 字段名称 OperateLogID LoginID AddTime Station Depict 表4-5 附件信息 字段名称 FilesID FileName Depict Category RelativeCode 表4-6 内容信息 字段名称 ContentID Title Content Category 中文名称 编号 标题 内容 分类 数据类型 int nvarchar(100) nvarchar(max) int 是否为空 否 否 否 否 备注 主键,自动增长 值小于100表示单中文名称 编号 文件名称 描述 分类 关联编号 数据类型 int nvarchar(500) nvarchar(500) int Varchar(30) 是否为空 否 否 否 否 否 备注 主键,自动增长 含路径的文件名称 中文名称 编号 登录代码 操作时间 操作位置 操作描述 数据类型 int varchar(50) DateTime varchar(200) ntext 是否为空 否 否 否 否 是 备注 主键,自动增长 默认值为当前时间 Email:greenvc@gmail.com http://www.kmdin.com 第 49 页,共 88 页 互联网舆情监控系统分析与设计 AddTime ModTime AddUser ModUser HotCount 增加时间 修改时间 增加者 修改者 点击次数 datetime datetime varchar(50) varchar(50) int 否 否 否 否 否 项网页,有管理员增加,普通用户只能修改 默认为当前时间 默认为当前时间 记录最后一个修改者 默认值为0 4.3、系统功能设计 4.3.1、统一应用平台 东川区统一应用管理平台是建立在底层软硬件设备和上层业务系统之间的业务支撑层,集成了应用系统管理、统一数据访问、WebService访问接口等运行环境、PKI安全服务接口等服务管理功能,实现一套满足东川区内部业务流程流转的流程引擎。统一应用平台以WebService接口的形式为不同业务系统提供公用及可复用的资源,包括分级权限、用户、日志、统一消息等服务,为东川区业务系统的建设提供统一的业务集成支撑框架,避免业务系统对可复用服务(或功能)的重复开发,同时也规范了业务系统的架构及开发质量,并通过B/S结构的管理控制台实现对整个平台的管理。统一应用平台通过以下具体功能/服务实现上述功能: 1、统一用户、组织机构管理服务:将东川区局内用户及部分分局用户(约1500人)和派出所民警(约800人)纳入统一管理,实现统一的认证信息设置(包括帐号/密码及数字证书等信息),统一登录入口及穿透登录等,为不同业务系统提供统一、有效的用户信息及认证服务,极大提高了整体系统的安全性和信息有效性。 2、应用系统管理:对纳入平台管理的应用系统,可以通过管理员的授权获取平台提供的各种共享资源(如用户、组织、权限)、公共服务(如统一证书认证、穿透登录、统一门户等),实现业务系统在平台登记注册的管理。目前已纳入统一应用平台管理的应用系统有公安警务综合业务管理系统、户籍管理系统、协同办公管理系统、人口信息管理系统等十多个业务系统。 Email:greenvc@gmail.com http://www.kmdin.com 第 50 页,共 88 页 互联网舆情监控系统分析与设计 3、权限管理:通过将业务系统的用户角色统一纳入平台应用域管理,由业务系统管理员通过控制管理平台进行对应角色的用户人员绑定的方式,实现业务系统的业务角色与操作用户管理分离。统一应用平台的应用域管理除了实现应用域之间的树形结构管理及展现外,还可以为应用域设置不同应用系统管理员和对应用域操作设置不同的权限范围(包括只允许绑定用户及可创建和维护应用域等功能)。业务系统可以通过统一应用平台提供的权限服务接口,实现对在统一应用平台上设置的应用域的访问,结合自身的业务逻辑实现分级权限管理。 4、服务管理:统一应用平台服务与普通WebService的区别在于统一应用平台提供了统一的WebService管理接口包(JAR包形式)。业务系统必须在开发WebService的同时集成WebService管理接口包,开发的WebService才能部署在统一应用平台上。通过该种方式开发部署的WebService可以自动被统一应用平台管理和授权,从而成为统一应用平台的一种可授权访问的共享资源。业务系统必须经过统一应用平台的授权才能访问平台服务,否则访问的结果均是空值。 5、统一日志管理:为业务系统提供统一的日志管理接口,实现业务系统将日志按照不同的分类写入统一应用平台,从而使统一应用平台管理员能够通过统一应用平台查看不同业务系统的日志情况,实现统一的监控和管理。 6、统一消息服务:实现了邮件、短消息等消息发送的功能。满足业务系统进行业务办理情况、业务申请、审批信息的发送。 7、窗口受理服务:部署在统一应用平台上的WebService,实现网上预受理各种操作和窗口受理案件信息的获取等功能。为业务系统提供接口与窗口受理系统进行系统集成。 8、业务督办服务: 部署在统一应用平台上的WebService,实现将各种案件办理过程信息向业务督办系统上报的功能,为业务系统提供接口与业务督办系统进行系统集成。 4.3.2、系统主要模块设计 东川区互联网舆情监控系统主要由信息采集,信息检索,信息分析及服务三大部分构成。如图4-7所示: Email:greenvc@gmail.com http://www.kmdin.com 第 51 页,共 88 页 互联网舆情监控系统分析与设计 图4-7 网络舆情构成 东川区舆情监控系统结构功能模块如图4-8所示: 图4-8 网络舆情结构模块 东川区互联网舆情监控系统中的舆情信息采集模块提供了整个系统数据分析的信息源,它采集的是包含大量数据信息的Web 页面。由于半结构化或者非结构化的Web数据特性,以及高速的Web 页面增长速度促使信息的不断更新,所以对动态性极强的Web 页面进行信息采集是比较复杂和困难的。具体的东川区互联网舆情监控系统中的Web 舆情信息采集流程如图4-9所示。 Email:greenvc@gmail.com http://www.kmdin.com 第 52 页,共 88 页 互联网舆情监控系统分析与设计 图4-9 舆情信息采集流程 东川区舆情信息采集是指对 Web网页抓取和相关数据存储,网页抓取类似于搜索引擎中的页面爬行机器人。首先,通过Web信息采集器,从一个初始集出发,将这些 URL全部放到一个有序的待采集队列里,然后按次序取出URL,获取它所指向的页面,返回页面的 HTML 文件,通过页面间的链接关系,获取新的页面的URL,并将它们放到待采集的队列里。重复上述过程,直到整个网站的全部网页都被采集完为止,也可以根据用户的需要下载一定层数的网页,系统采集的数据流程图如图4-10所示。为了提高效率,系统可以设计几个信息采集器并行采集数据,即多线程地爬行多个网页并存储Web网页源码。[44] 图4-10 系统采集数据流程 东川区舆情分析模块是系统中最为关键的处理模块,利用文本分类和聚类等方法对预处理后的舆情素材信息进行分析、挖掘,实现舆情信息的热点发现和跟踪,东川区舆情分析模块的流程如图4-11所示: Email:greenvc@gmail.com http://www.kmdin.com 第 53 页,共 88 页 互联网舆情监控系统分析与设计 图4-11 舆情分析流程 事件生成流程图如图4-12所示: 图4-12 事件生成流程 4.3.3、系统管理 系统管理类图如图4-13所示: Email:greenvc@gmail.com http://www.kmdin.com 第 54 页,共 88 页 互联网舆情监控系统分析与设计 图4-13 系统管理类图 系统管理的主要方法描述如表4-7所示。 表4-7 系统管理主要方法 名称 MemberAccountServicesControl.class Password.Bean ValidateAnswer.Bean Register.Bean MemberInfo.Bean Member.Bean 描述 允许用户连接和使用自己的帐号 提供密码的授权登入服务 提供答案的验证 提供注册服务 从数据库中取得会员信息 提供会员更新的服务和功能 Email:greenvc@gmail.com http://www.kmdin.com 第 55 页,共 88 页 互联网舆情监控系统分析与设计 4.3.4、舆情采集管理 东川区互联网舆情监控系统中的舆情采集工具主要提供对多种网页格式信息的采集和附件内容的采集,并可实现对大量的信息交流平台如:论坛、博客、新闻评论及境外网站的舆情信息进行精准和全面的采集,这些采集信息为舆情分析提供了大量的数据资源;同时东川区的舆情采集具有实时性,它可对目标网站的信息进行实时监控,并及时地采集最新的网页,并且为采集到的信息进行进行内容分析和过滤等操作;东川区舆情采集工具的采集结果形成网页的全息信息集合,完整记录下每个网页的详细信息来,包括网页名称、大小、日期、标题、文字内容、图片和表格信息。 1、基于网页结构的统计分析算法 支持多语言网页的采集,包括中、英、日、韩、俄、法、西、德、阿拉伯语等,支持UTF-8、BIG5、GBK、GB18030编码; 东川区舆情采集系统可以指定对网页的某个区域进行采集;支持对网页的翻页信息采集,并且可以按网址中日期、数字、字符等规则进行精确定位;在采集过程中,东川区舆情采集工具将根据用户选择的数据格式来确定应该采集哪些数据,系统预设对75种文件格式对象的采集,支持HTM、HTML、JS、XML、CSS、ASF、php、notes、txt等多种页面内容;支持jpeg、jpg、jpe、bmp、gif、ico、png、tif、tiff等图片格式;支持DOC、PDF、EXCEL、PPT、DAT、EXE、ISO、ZIP、TAR、JAR、ARJ、FLASH、FLV、AVI、MPEG、WMA、MIDI、MP3等附件格式;管理员还可以新建、修改、删除采集数据格式,具有灵活的扩展性。 对采集信息支持自动过滤网页中新闻的正文内容,剔除垃圾信息,并能采集正文的图片和表格; 系统应支持多线程并发搜索技术,使采集过程高效准确; 2、基于模板的元数据解析 在贴子自动分隔的基础上,东川区舆情采集子系统支持基于模版的元数据解析功能,对于每个贴子可以解析出发贴人、发贴时间、贴子主题、贴子内容、点击数等元数据属性,这些属性是东川区舆情分析的重要数据。可以定义采集网页信息的某些字段,而不是采集全部信息;支持采集数据的个性化输出,采集到的 Email:greenvc@gmail.com http://www.kmdin.com 第 56 页,共 88 页 互联网舆情监控系统分析与设计 网页元数据可以按照用户配置的字段输出,并可输出到用户自定义结构的数据库中。 东川区舆情采集子系统内嵌脚本引擎,能够实现网页中脚本语言的自动解析和执行,从而能够实现对于采用脚本语言的论坛、微博、博客以及新闻评论网站的采集,为东川区舆情分析提供全面的数据保障。 3、支持RSS解析 许多博客、微博、新闻评论采用RSS(Really Simple Syndication或RDF Site Summary,信息聚合技术)实现内容共享,除了网页的基本信息,RSS一般都会包含更丰富的元数据信息,比如标题、作者、发表日期、分类、关键词等,东川区舆情采集子系统实现了对RSS聚合内容的自动解析和采集。 4、信息采集策略管理 东川区舆情采集子系统实现对指定受监控信息源(网站、栏目、论坛、RSS等)进行定时采集,可对采集时间密度、采集内容、采集方式进行配置管理;维护管理人员可方便指定采集的目标站点或页面。 5、采集智能化处理 东川区舆情采集系统应提供基于中文信息处理技术和中文自然语言理解技术的,融合最新的人工智能、信息检索、文本挖掘研究成果的舆情采集智能化处理功能,可对采集的网页进行基于内容的自动分类,不需人工干预,准确率达到85%以上; 提供智能分类训练工具,可根据用户提供的分类语料库进行学习,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板; 机器自动学习和规则分类需无缝集成,两种方式在一个智能分类器中实现,使自动分类的维护更加方便;支持多级分类,包括提供支持多级分类的分类训练器,以及对网页实施多级分类操作;支持基于网页内容的剔重功能,自动生成网页摘要,自动抽取网页中的关键词。 东川区舆情采集分析系统由信息采集模块、自动分类模块、存储发布模块、非结构化信息搜索引擎、相关性引擎和网页快照模块等诸多功能模块组件构成。各模块间通过规范的数据接口相联系,但又相对独立。东川区舆情采集模块构成如图4-14所示: Email:greenvc@gmail.com http://www.kmdin.com 第 57 页,共 88 页 互联网舆情监控系统分析与设计 图4-14 舆情采集模块构成 东川区舆情采集管理模块的主要类图如图4-15所示: Email:greenvc@gmail.com http://www.kmdin.com 第 58 页,共 88 页 互联网舆情监控系统分析与设计 图4-15 舆情采集类图 东川区舆情采集管理的主要方法描述如表4-8所示。 表4-8 舆情采集管理主要方法 名称 描述 FlightInformationServicesControl.class 控制的类提供舆情信息 FlightInstances.Bean ReservationServicesControl.class MemberCreditCard.Bean FlightInstance.Bean Reservation.Bean Waitinglist.Bean 获取舆情息 允许用户实现个性化定制 写入数据库然后舆情信息热度 当前预定义的舆情关键字 预定数据写入数据库存储 采集的关键字信息写入数据库存储 Email:greenvc@gmail.com http://www.kmdin.com 第 59 页,共 88 页 互联网舆情监控系统分析与设计 AirportServicesControl.class 提供相关链接的即时信息 4.3.5、舆情分析管理 舆情采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式,这个过程需要做如下配置工作:下载网页配置,解析网页配置,修正结果配置,数据输出配置。如果数据符合自己要求,修正结果这步可省略。配置完毕后,把配置形成任务(任务以XML格式描述),发布到东川区的舆情采集服务器群组,采集爬虫按照任务的描述开始工作,最终把采集到的结果存储到结果存储服务器,如图4-16所示。然后东川区舆情分析系统的信息处理系统就可以到结果存储服务器上取到数据,作为自己的数据源。 Email:greenvc@gmail.com http://www.kmdin.com 第 60 页,共 88 页 互联网舆情监控系统分析与设计 图4-16 舆情数据形成 东川区舆情分析中数据处理逻辑如图4-17所示: Email:greenvc@gmail.com http://www.kmdin.com 第 61 页,共 88 页 互联网舆情监控系统分析与设计 图4-17 舆情分析逻辑 4.4、安全考虑 现代信息管理中系统和数据是否安全一直是信息化建立的最大问题,不安全的因素可能来源于各种各样:可能是有意的,也可能是无意的;可能是来源于企业外部的, 也可能是内部人员造成的;可能是人为的,也可能是自然力造成的。 总结起来,大致有下面几种主要威胁: 1. 非人为、自然力造成的数据丢失、设备失效、线路阻断。 2. 人为但属于操作人员无意的失误造成的数据丢失。 3. 来自外部和内部人员的恶意攻击和入侵。 前面两种的预防基本相同,可以加强企业内部的管理,可以规范操作来减少这种不必要的损失。 最后一种是目前网络服务应用所面临的最大威胁,是电子商务、政府、企业、个人上网等顺利发展的最大障碍,也是企业网络安全策略最需要解决的问题。 Email:greenvc@gmail.com http://www.kmdin.com 第 62 页,共 88 页 互联网舆情监控系统分析与设计 基于internet技术并布局与可以通过internet访问的系统,安全性的要求很高,应用系统考虑了这些安全的要求,如图4-18所示,支持多级多种安全管理。 图4-18 多级安全管理 通过数据库安全性、系统数据安全性、应用服务器安全性、传输安全性、身份确认逐步保证,同时提供身份认证插件保证客户安全,分析如下: 1. IP控制:通过配置,可以达到限制IP,控制到某个IP,在设定的时间 段登录协同管理系统; 2. 验证码:除用户名和密码支持外,系统将随机产生验证码,一同验证登 录用户; 3. 加密锁:提供用户端加密锁,只有带有加密锁的用户才可以访问应用系 统,适用用于内外网分开控制; 4. 支持CA中心,实现认证证书发放、收回。 Email:greenvc@gmail.com http://www.kmdin.com 第 63 页,共 88 页 互联网舆情监控系统分析与设计 第五章、系统实现 5.1、开发环境 5.1.1、开发工具 东川区舆情监控系统是基于MS的Windows操作系统开发的,操作系统采用Windows Server 2003。数据库模式采用主流关系数据库,使用Microsoft SQL Server 2000作为数据存储管理系统,在表5-1对所涉及的开发工具进行相应说明。 表5-1 开发工具 序号 1 2 3 4 5 6 名称 操作系统 应用服务器 数据库 开发工具 建模工具 浏览器 描述 Windows 2000 Server及其以上版本 Jboss Sql Server 2000及其以上版本 JDK1.6、Eclipse3.3 Rational Rose Enterprise Internet Explorer 5.1.2、系统界面 界面是系统与用户实现交互的部分,它表现了系统的整体感官,能否拥有良好可操作的界面是用户能否快速接受系统的前提,程序系统界面设计时应遵循的原则: 1. 以用户为中心 一方面注意不要使窗口在屏幕中显得拥挤,另一方面,应考虑运用正确友好的交互方式。为了实现有效的人机交互,必须使用用户熟悉和容易理解的术语和概念。例如:用通用的数据命名代替文件名;用尺或米作为距离量算单位,而不用像元、像素或码。有效的指导信息还包括“哪 Email:greenvc@gmail.com http://www.kmdin.com 第 64 页,共 88 页 互联网舆情监控系统分析与设计 些可以做”和“哪些不可以做”等等。当系统需要执行较长时间的任务时,在界面上应立即显示执行进度情况的指示器来向用户表明任务完成的情况。 2. 界面整洁 不要把界面做的杂乱无章,让用户有一种混乱的感官,系统界面必须友好,以满足用户的视觉感受。 3. 菜单、导航栏与工具栏可根据需要进行切换,且使用方便。 4. 系统的整体风格一致,尤其是各类窗口、对话框及信息框的字体大小、 按钮、工具栏摆放位置等。 数据列表显示的界面风格如图5-1所示: 图5-1 数据列表显示界面 5.2、东川区舆情监控系统使用的关键技术 5.2.1、XML技术使用 在东川区舆情监控系统中运行采集爬虫,每台服务器运行10个采集爬虫。每个爬虫负责多个采集任务,任务越多,数据更新的频率就越低。 所以服务器 Email:greenvc@gmail.com http://www.kmdin.com 第 65 页,共 88 页 互联网舆情监控系统分析与设计 越多,分配给每个进程的任务就越少,数据更新的频率就越高,数据采集的效率就越高。东川区舆情监控系统部署如图5-2所示: 图5-2 网络爬虫服务器部署 运行东川区舆情采集管理系统,负责所有采集服务器的管理、监控、统计、分析和任务分配。东川区采集服务器采用HTTP协议发送查询命令,然后返回要 Email:greenvc@gmail.com http://www.kmdin.com 第 66 页,共 88 页 互联网舆情监控系统分析与设计 查询的相关信息。下载网页配置,解析网页配置,修正结果配置,数据输出配置。如果数据符合自己要求,修正结果这步可省略。配置完毕后,把配置形成任务(任务以XML格式描述),发布到采集服务器群组,采集爬虫按照任务的描述开始工作,最终把采集到的信息数据存储到相应的服务器中。然后舆情监控系统的信息处理就可以到存储服务器上取到数据,作为自己的数据源。 在东川区的舆情监控采集中,填写客户端名称、IP地址、客户端接口文件、数据库连接字串,数据库名称,密码等信息,如图5-3所示: 图5-3 采集服务器编辑 系统使用标准的XML格式在文件名为config.xml下处理,其配置为内容如下: // 服务器名或服务器ip $servername='192.168.201.7'; // 数据库用户与密码 $dbusername='sa'; $dbpassword='123'; // 数据库名 $dbname='gooniespider; 在分发监控任务到各监控站点时,东川区舆情监控系统也使用XML配置文件,如图5-4所示。 Email:greenvc@gmail.com http://www.kmdin.com 第 67 页,共 88 页 互联网舆情监控系统分析与设计 图5-4 分发监控配置界面截图 5.2.2、数据采集及数据挖掘实现 在数据上的网站时,主要从两个方面所需的数据挖掘:一个是客户的背景资料,这个信息主要从客户登记表的一部分,而该数据主要来自浏览者点击流的另一部分(点击流),这部分数据主要用于检查客户的行为。但有时,客户的背景资料珍惜自己,拒绝填写此报名表上的信息,这将带来不便,数据分析和挖掘的一部分。在这种情况下,从观众的性能数据推测在客户的背景资料,然后再加以利用。在分析和建模技术和算法,东川区舆情监测系统的数据挖掘和数据挖掘现有的分歧不是特别大,思想和分析方法很多,可以使用。 [22]所不同的是,民意,监测系统是从点击流数据格式的很大一部分,而传统的数据库格式之间的差异。因此,对新闻网站,论坛,微,博客等数据挖掘的主要工作是数据准备。[22] 在数据收集阶段,数据共享技术成熟,互联网或专用网络接入到现有的数据资料媒体的部门是比较容易的,更困难的是,从“虚拟“互联网信息的收集,各种规格从互联网应用程序(如论坛,博客,新闻评论等)信息的收集舆情,主要采用的方法为: 1、明确主题的舆情信息采集,可以采用搜索引擎方法。 由于主题明确的舆情信息具有可描述的特征,如名称等,所以可以借助“类似”日常的搜索引擎进行查找。简单的理解,就同浏览器作为访问工具的传统搜索引擎一样,当用户通过浏览器访问一个搜索引擎时,浏览器就与Web服务器 Email:greenvc@gmail.com http://www.kmdin.com 第 68 页,共 88 页 互联网舆情监控系统分析与设计 建立了连接,用户通过浏览器向搜索引擎提交舆情主题信息检索请求,Web服务器对用户的请求进行预处理和分析后,在索引数据库中查找相匹配的索引项,并通过浏览器把检索结果提供给用户。 舆情分析预警系统不能是一个单纯的搜索引擎,由于担负着收集正确导向和危害社会等舆论信息这样的特定任务,以及向特定用户群体(如公安系统)提供信息服务的职能,所以它应该具有自身的特点,而且由于各个现存搜索引擎索引数据库的构造方法不同,其索引数据不尽完整。所以在东川区舆情分析预警系统中,建立在多个独立搜索引擎上的技术方法值得提倡,以便实现多个单搜索引擎搜索结果的整合、调用、控制和优化。但是又不应该与一般意义上讲的元搜索引擎相同,由于它担负着特殊的职责,以及向特定用户群体服务的职能,所以它必须具有凌驾于普通搜索引擎索引库之上的索引数据库,而且还应该有针对的用户管理功能。[22] 2、对于采集后的明确主题的舆情信息,必须首先整理优化,然后采用海量数据挖掘技术分析。 对于按某一舆情主题查询出的结果,必须要整理优化。首先要做的是重复分析,由于是建立在多个搜索引擎之上,而每个搜索引擎都是在独立、并行执行用户提交的检索请求,对于互联网中存在的某一信息,很有可能被多个搜索引擎索引,在这些搜索引擎返回的结果中必然存在一些重复的结果。但是又不能像传统搜索引擎所采用的方法那样,将这些重复的检索结果删除或合并来减少用户浏览结果的时间。因而成为东川区分析预警系统的目的所在,这些检索结果的重复意味着舆情关注的焦点,所以重复性可以作为各信息主题价值尺度的度量,以及作为数据挖掘预测中的预测系数。[22] 经过整理的信息过滤这一主题还需要采取进一步的挖掘预测挖掘算法,如最常见的分类挖掘算法。分类挖掘要解决的问题是一个事件或对象的分类。在这两个分类模型使用后可整理的信息过滤主语,也可以用它来预测未来的数据。数据挖掘分类技术的工作原理是众所周知的机密信息的历史数据进行分析,总结出预测模型,模型是用来作为训练数据集的数据,通常是已经知道的历史数据,如在过去的数,不同类型的公众舆论,对特征数据集中造成的社会活动,如表5-2所示。 Email:greenvc@gmail.com http://www.kmdin.com 第 69 页,共 88 页 互联网舆情监控系统分析与设计 表5-2不同社会事件的训练集 训练集类别 突发案件舆情信息 刑事案件舆情信息 网络新闻报道、新闻、评论、BBS、经济案件舆情信息 微博、讨论、个人博客评论、及时聊天记自然灾害舆情信息 录、其他 恐怖事件舆情信息 群体事件舆情信息 总之,分类选择了从分好类的训练集的数据挖掘分类算法用于建立分类模型的训练数据集首先,从收集整理的资料,提取有关的信息的类型培训设置的没有分类数据分类。另一个例子是机密资料的分类挖掘民意时间和空间分布特征的情况为例,在此基础上实现正确的舆论和指导。 3、在对公众舆论的结果整理并没有对民意信息的收集,整理主题的信息,并根据这些信息预测的主题应利用数据挖掘技术的充分利用。 信息社会舆论往往难以确定,如人民的民意为主题,对社会的危害类型只知道发生了这种危险的存在。因此,公众舆论的信息通常难以按主题分类,分类是难以确定。如表5-2中列出不属于人为操纵的虚假信息。这使得数据挖掘聚类技术,以发挥其作用。聚类是信息分组,类似的记录一起在集群中,如新闻对网络具有类似色调一致的想法出现,知识产权上的分布集中的意见,那么原因地址,以确定可能的操纵舆论导向。差异聚类和分类的聚类不依赖于预先定义的类,没有训练集,而分类必须事先确定一个良好的分类。例如:看到民意信息发布发放现场,一开始不知道有多少类,其具体分布特征。聚类是揭示被调查对象的性质,“抱团”性质,根据对象的不同类别划分成不同的特点,尽量使同一类的对象之间的差异小,而不是对象同类尽可能大的差异,如在一个没有规则集中的区域发布信息的IP地址没有对象的IP地址的规则,在该地区几乎没有差别。 另外,关联分析数据挖掘技术也可用在舆情分析预警系统中。关联分析决 网络传播渠道 Email:greenvc@gmail.com http://www.kmdin.com 第 70 页,共 88 页 互联网舆情监控系统分析与设计 定哪些事情将一起发生,表明一些事情之间的相互关系。实际生活中一些社会危害事件的舆情信息肯定是有关系的,关联分析描述为X=>Y,解释为“满足X中条件的记录也满足Y中条件”。两种常用的技术是关联规则和序列模式,关联规则是寻找不同项的相关性,例如:某社会危害事件A发生后,常常导致B的发生,即A=>B(关联规则);序列模式与此类似,它寻找的是时间上的相关性,是用过去的信息来预测未来的信息,这些信息的区别是信息所处时间的不同,某群体A在参与社会事件后,隔一段时间还会参与该类事件,即为序列模式。关联分析可应用在某种社会危害事件的动态跟踪预警上,从时空角度发现相关联事件的发展规律与趋势。[22] 预测分类,聚类,关联分析,数据挖掘技术的工作原理,即通过数据挖掘模型,对于未知事件的预测模型得到。其目的是预测未知的未来的预测,这种预测将需要时间来验证,并且它必须经得起时间的考验。 5.3、东川区舆情监控系统部分实现 5.3.1、东川区舆情监控系统的部分数据库代码 东川区舆情监控系统的用户信息表的T-SQL语句如图5-5所示: 图5-5 创建用户信息T-SQL代码 使用上图中所示语句在SQL Server中可以执行用户信息表的创建,以下各图类同。 Email:greenvc@gmail.com http://www.kmdin.com 第 71 页,共 88 页 互联网舆情监控系统分析与设计 东川区舆情监控系统的用户权限表的T-SQL语句如图5-6所示: 图5-6用户权限 东川区舆情监控系统的功能链接表的T-SQL语句如图5-7所示: 图5-7 功能链接 东川区舆情监控系统的用户操作日志表的T-SQL语句如图5-8所示: 图5-8 操作日志 东川区舆情监控系统的附件信息表的T-SQL语句如图5-9所示: Email:greenvc@gmail.com http://www.kmdin.com 第 72 页,共 88 页 互联网舆情监控系统分析与设计 图5-9附件信息 东川区舆情监控系统的内容信息表的T-SQL语句如图5-10所示: 图5-10 内容信息 5.3.2、东川区舆情监控系统管理 东川区互联网舆情监控系统登录的实现洁面效果截图如图5-11所示: Email:greenvc@gmail.com http://www.kmdin.com 第 73 页,共 88 页 互联网舆情监控系统分析与设计 图5-11 系统登录 东川区舆情监控系统的用户管理的实现洁面效果截图如图5-12所示: 图5-12 用户管理 东川区舆情监控系统的关键词搜索的实现界面效果截图如图5-13所示: 图5-13 东川区舆情监控系统关键字搜索 Email:greenvc@gmail.com http://www.kmdin.com 第 74 页,共 88 页 互联网舆情监控系统分析与设计 5.3.3、东川区舆情采集管理 东川区舆情采集管理的实现界面效果截图如图5-14所示: 图5-14 东川区舆情采集管理 东川区舆情采集模块的事件管理的实现界面效果截图如图5-15所示: 图5-15 东川区的舆情采集事件管理 Email:greenvc@gmail.com http://www.kmdin.com 第 75 页,共 88 页 互联网舆情监控系统分析与设计 图5-16 东川区的舆情未处理事件管理 5.3.4、东川区舆情分析管理 在信息情报采集、分析的基础上为编辑和用户提供所需的信息资讯,舆情监控应用系统将在最短的时间把最相关的信息提供给最需要的人。东川区热点舆情分析界面截图如图5-17、5-18所示: 图5-17 东川区舆情分析管理 Email:greenvc@gmail.com http://www.kmdin.com 第 76 页,共 88 页 互联网舆情监控系统分析与设计 图5-18 东川区舆情分析管理 东川区舆情监控系统支持统计分析引擎,由统计分析引擎可以灵活定制数据统计的展现方式,从而实现信息量随时间变化的柱状图,饼状图,折线图等等。根据需要还可以生成信息地域统计,网站来源统计等等。东川区热点舆情界面截图如图5-19所示: 图5-19 热点舆情 用户可以在系统的个人工作区设置自己的个人关注信息,自己定制关注信息规则,规则及规则筛选出的信息只有用户自己能够管理和查看。在此用户还可以管理个人收藏夹,针对收藏夹内的一条或多条信息生成评论或信息报告,提交到系统。个性化工作区如图5-20所示: Email:greenvc@gmail.com http://www.kmdin.com 第 77 页,共 88 页 互联网舆情监控系统分析与设计 图5-20 个人工作区 Email:greenvc@gmail.com http://www.kmdin.com 第 78 页,共 88 页 互联网舆情监控系统分析与设计 第六章、结束语 6.1、总结 东川区舆情监控系统是在经过了大量的调查研究,参阅有关的文献资料后一步步做出来的。东川区舆情监控系统的开发过程经历了立项、调研、需求分析、概要设计、详细设计、编码、调试以及试运行等过程。由于软件工程的内容太多,要想一下子把它们都掌握是一件很不容易的事情,而且软件工程与面向对象程序设计语言的知识还处于不断更新之中。尽管如此,我还是学到了很多非常有益的东西,对开发系统产生了至关重要的作用。 舆情信息系统解决了目前东川区政府机关舆情信息工作人力与物力不足的问题,通过舆情监控信息系统,把相关的舆情工作整合到了一个工作平台上,实现了东川区舆情工作的创新,改变了原来舆情工作要安排专门人员到各区域汇集舆情的弊端;通过舆情信息系统,解决了目前舆情工作还处于手工阶段,信息化、智能化与自动化水平很低的问题,可以提高工作效率。因此,通过舆情信息系统的分析与设计,搭建舆情信息系统,改变了原来需要大量的人力完成舆情汇集与分析工作的现状,实现东川区舆情信息的网上汇集、智能化分析;通过舆情信息系统,政府可以方便快捷地了解社会的思想状况,有利于作出科学决策,正确决策,依法行政,民主管理,构建“和谐社会”。 6.2、展望 首先,东川区舆情信息系统的舆情汇集方式还比较单一,在问题的设计方面还需要深入的研究;其次,东川区舆情信息的分析功能,我们目前只能实现部分功能分析,其他深度的分析,比如,通过舆情信息分析,我们能得出什么问题,用什么方法解决问题,还需要深入的研究。因此,舆情信息系统还需要在实践中不断改进与创新。 Email:greenvc@gmail.com http://www.kmdin.com 第 79 页,共 88 页 互联网舆情监控系统分析与设计 参考文献 [1] 邵维忠、杨芙清编著,《面向对象的系统分析》,清华大学出版社,广西科技 大学出版社. [2] 孙莹,许俊华,张毅等. MVC编程模型在Web程序中的应用及Java实现..计 算机工程与应用,2001,7 [3] 朱三元、钱乐秋、宿为民编著,《软件工程技术概论》,科学出版社,2002.1. [4] 杨一平等著,《现代软件工程技术与CMM的融合》,人民邮电出版社,2002.11. [5] 张友生、钱盛友编著,《异构软件体系结构的设计》,计算机计工程与应用, 2002. [6] 刘润东编著,《UML对象设计与编程》北京希望电子出版社,2001. [7] Elliotte Rusty Harold著,杜大鹏、李善茂译,《XML 实用大全》,中国水利水 电出版社,2000.4. [8] 罗俊,李仁旺,陈立平.用JSP/Servlet构建的三层式产品开发过程管理系统.计 算机工程, 2002,4 [9] [美]Micheal Otlay,Paul Conte编著.陈恩义,吴强,刘鸿波译,《SQL Server 2000 开发指南》,清华大学出版社,2002. [10] [美]Katharine Whitehead编著,王海鹏译,《基于组件开发》,人民邮电出版社, 2003.9. [11] [美]Leszek A.Maciaszek著,金芝译,《需求分析与系统设计》,机械工业出 版社,2003.6. [12] 张友生主编,《系统分析与设计技术》,清华大学出版社,2005. [13] 方美琪, 《XML及其在电子商务中的应用》, 清华大学出版社, 2003.8 [14] 梁爱虎编著,《基于服务总线的Struts+EJB+Web Service整合》,电子工业出 版社,2007.1 [15] [美]Chris Raistrick,Paul Francis著,赵建华、张天等译,《MDA与可执行UML》, 机械工业出版社,2006.4 [16] 冀振燕编著,《UML系统分析设计和应用案例》,人民邮电出版社,2004. [17] 杨一平等,《现代软件工程技术与CMM的融合》,人民邮电出版社,2002.11 [18] (美) W.H.Inmon著,王志海等译,《数据仓库(原书第3版)》,机械工业出 版社,2003.3 [19] (美)Tomsen,E.著,朱建秋等译,《OLAP解决方案:创建多为信息系统:第2 版》,电子工业出版社,2004.9 Email:greenvc@gmail.com http://www.kmdin.com 第 80 页,共 88 页 互联网舆情监控系统分析与设计 [20] (美)Soukup.T. Davidson.I.著;朱建秋等译,《可视化数据挖掘:数据可视 化和数据挖掘的技术与工具》,电子工业出版社,2004.1 [21] 安淑枝等著,《数据仓库与数据挖掘》,清华大学出版社,2005.6 [22] (美)Dorian Pyle著.杨东青等译,《业务建模与数据为挖掘》,机械工业出版 社,2005.4 [23] Jiawei Han, Michelins Kamber著,范明,孟小峰译 ,《数据挖掘:概念与技术》, 机械工业出版社,2001年8月 [24] 赵强,基于开源软件的J2EE企业级应用开发》,电子工业出版社,2005年4 月 [25] 夏昕、曹晓钢、唐勇,《深入浅出HIBERNATE》,电子工业出版社,2005年 6月 [26] 孙卫琴,《精通HIBERNATE:Java对象持久化技术详解》,电子工业出版社, 2005年5月 [27] 计磊、李里、周伟 ,《精通J2EE:Eclipse、Struts、Hibernate及Spring整合 应用案例》,人民邮电出版社,2006年1月 [28] 刘晓华,《J2EE企业级应用开发》,电子工业出版社,2005年3月 [29] 张伟洪著,《Tomcat Web开发及整合应用》,清华大学出版社,2006年2月 [30] [美]George Reese(著),石永鑫、宋隆(译),《JDBC与JAVA数据库编程》,电 子工业出版社,2002年3月 [31] 刘亚滨、杨红,《精通Eclipese》,电子工业出版社,2004年4月 [32] 陈烨、张蓓,《JDK 1.5类库大全》,清华大学出版社,2005年5月 [33] 刘晓华、陈亚强等著,《J2EE应用开发详解》,电子工业出版社,2004年10 月 [34] [美] Richard Monson-Haefel著,崔洪斌、王爱民译,《J2EE Web Services 高 级编程》,清华大学出版社,2005年4月 [35] 钟京馗、唐桓著,《精通Java Web动态图表编程》,电子工业出版社,2005 年9月 [36] 施伟伟、张蓓著,《征服Ajax——Dojo、Prototype、script.aculo.us框架解析与 实例》,人民邮电出版社,2007年3月 [37] 中共中央宣传部舆情信息局,舆情信息工作概论[M],北京:学习出版社,2006 年10月 [38] 中共中央宣传部舆情信息局,舆情信息汇集分析机制研究[M],北京:学习出版 社,2006年10月 [39] 新华网,中共中央关于构建社会主义和谐社会若干重大问题的决定[E], Email:greenvc@gmail.com http://www.kmdin.com 第 81 页,共 88 页 互联网舆情监控系统分析与设计 http://news.xinhuanet.com/politics/2006-10/18/content_5218639.htm,2008年2月 [40] 人民网,中共中央关于加强党的执政能力建设的决定[E], http://www.people.com.cn/GB/40531/40746/2994977.html,2008年2月 [41] 新华网,决定[E], http://news.xinhuanet.com/newscenter/2004-10/08/content_2061716_2.htm,2008年2月 [42] 周旭. BBS热点分析系统研究[D]北京交通大学, 2007. [43] 郑军. 网络舆情监控的热点发现算法研究[D]哈尔滨工程大学, 2007 . [44] 杨梅. 网络舆情热点发现的研究[D]北京交通大学, 2008. [45] 刘尚喜 ,蔡开裕 ,卓琳.内网舆情信息监测系统研究与设计[J ] .电脑应用技 术 ,2009 (1) :32233. [46] 钱爱兵.基于主题的网络舆情分析模型及其实现[J ] .现代图书情报技术 ,2008 (4) :51252. [47] 中国互联网络信息中心.第 24 次中国互联网络发展状况统计报告[ R] . 北 京:CNNIC ,2009. Email:greenvc@gmail.com http://www.kmdin.com 第 82 页,共 88 页 因篇幅问题不能全部显示,请点此查看更多更全内容