专利名称:一种科技文献大数据分类方法专利类型:发明专利
发明人:张晓丹,梁冰,王莉,白海燕申请号:CN201911066136.1申请日:20191104公开号:CN110807101A公开日:20200218
摘要:本发明涉及一种科技文献大数据分类方法,属于大数据文本挖掘技术领域;该方法S1、构建拓扑关系图:该图由节点和边组成,节点为文献、句子和STKOS中的关键词;边为文献和句子,文献和关键词,句子和句子,句子和关键词及关键词和关键词之间的关系;S2、将拓扑关系图转化成拓扑关系矩阵;S3、使用训练数据及其构建的拓扑关系矩阵对分类模型进行训练;S4、文献分类:将批量的待分类文献输入到训练好的分类模型中,得到待分文献归属于不同类别的概率。对比现有技术,本发明所构建的拓扑关系图,句子考虑了语序的因素,关键词为专家标引过的术语,提升了分类准确率;采用的分类模型,无需重复训练且对每一卷积层的输入进行采样计算,提高了分类效率。
申请人:中国科学技术信息研究所
地址:100038 北京市海淀区复兴路15号
国籍:CN
代理机构:北京理工正阳知识产权代理事务所(普通合伙)
代理人:王民盛
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容