您的当前位置:首页正文

面向舆情发现系统的中文语料分词研究

2021-09-17 来源:好走旅游网
第14卷第1l期 2015年11月 软件导刊 Software Guide Vo1.14No.11 NOV.20l5 面向舆情发现系统的中文语料分词研究 高 慧 ,张 涛 ,王付强。,夏 彬s (1.武汉理.T-大学信息工程学院,湖北武汉430070;2.新乡学院网络管理中心,河南新乡453003; 3.中华全国供销合作总社郑州棉麻工程技术设计研究所,河南郑州450000) 摘 要:中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词 方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体 的系统框架。实验结果表明,该方法能够有效识别网络舆情用语,提高了分词准确率,为进一步发现高校网络舆情奠 定了基础。 关键词:舆情系统;语料;中文分词 DOI:10.1l907/rjdk.151904 中图分类号:TP312 文献标识码:A 文章编号:1672—7800(2015)011-0054—03 它的基本处理过程是:针对输入的文字串进行分词、过滤 0 引言 随着互联网的飞速发展,网络媒体已被公认为是继报 纸、广播、电视之后的“第四媒体”,中国互联网络信息中心 (CNNIC)第34次互联网发展状况调查报告指出,截至 处理,输出中文单词、英文单词和数字串等一系列分割好 的字符串。中文分词模块的输入输出如图1所示。 图1分词过程 2014年6月,中国网民规模达到6.32亿人,互联网普及 率达到46.9 ,网民规模较2013年底增加1 442万人。 根据当前技术发展现状及文献记载,现有的中文分 在庞大的互联网信息书籍中,仅依赖人力已经很难去收集 和处理网络中的海量信息。因此,需要加强研究互联网相 词算法可分为3大类:基于字符串匹配的分词方法、基于 理解的分词方法和基于统计的分词方法 ]。 1.1基于字符串匹配的分词方法 关信息技术的发展,形成一整套对网络舆情进行自动化智 能分析的系统,及时快速应对网络中突发的舆情信息,把 被动防堵变为主动的分析与引导。 在舆情发现系统中,对网络爬虫采集到的信息进行预 这种方法又称为机械分词方法,它是按照一定的策略 将待分析的汉字字符串与一个“充分大的”机器词典中的 词条进行匹配,若在词典中找到某个字符串,则匹配成功, 完成对该词的成功识别。常用的几种机械分词方法如下: ①正向最大匹配法(由左到右的方向);②逆向最大匹配法 (由右到左的方向);③最少切分法(使每一句中切出的词 数最小)。 1.2基于理解的分词方法 处理是系统的关键环节,而在信息预处理中,中文语料分 词是自然语言处理中重要的一步,良好的中文分词对后续 的中文信息处理起到至关重要甚至是决定性的作用。 因此,针对中文自然语言处理在舆情系统信息预处理 中的重要性,本文采用一种基于ICTCLAS的中文舆情语 料分词方法口],并结合高校舆情环境进行了实验。 这种分词方法是通过让计算机模拟人对句子的理解, 达到识别词的目的。其基本思想就是在分词的同时进行 句法、语义分析,利用句法信息和语义信息来处理歧义现 1 中文分词 中文分词与英文分词有较大区别,对于英文而言,一 个单词就是一个词,而汉语中则是以字为基本的书写单 位,词语之间没有明显的区分标记,需要人为进行切分 。 象。它主要包括3个部分:分词子系统、句法语义子系统、 总控部分。由于汉语语言知识的复杂性,难以将各种语言 信息组织成机器可直接读取的形式,因此,目前基于理解 的分词系统还处在试验阶段。 作者简介:高慧(1983一),女,河南汝南人,武汉理工大学信息工程学院硕士研究生,研究方向为信息检索。 

因篇幅问题不能全部显示,请点此查看更多更全内容