专利名称:一种基于树形词库的中文分词方法专利类型:发明专利
发明人:吴朝晖,张小刚,姜晓红申请号:CN200810121368.8申请日:20081009公开号:CN101458694A公开日:20090617
摘要:本发明涉及一种基于树形结构的中文分词方法,包括以下步骤:1)以单个汉字为结点,以具体的分词作为结构信息来建立树形中文分词表;2)通过对树型结构的遍历实现中文分词,利用树形词库的结构信息来存储分词信息,利用全分支检索来实现歧义包容;3)通过统计用户输入新词的频度来动态改变词库结构,从而实现新词的自动识别。本发明的有益效果:树形词库在匹配效率和匹配长度上有了很大的提高。本发明在已有的树形分词词库算法进行了扩展,实现了新词的自动识别以及分支屏蔽等功能。本技术在兼顾分词效率和分词效果的同时,增强了原有算法的灵活性和扩展性,使其可以更好的适应动态数据环境的要求。
申请人:浙江大学
地址:310027 浙江省杭州市西湖区浙大路38号浙江大学计算机学院曹光彪东楼505室
国籍:CN
代理机构:杭州九洲专利事务所有限公司
代理人:陈继亮
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容