专利名称:网站分类方法及装置专利类型:发明专利
发明人:蔡自彬,刘哲理,叶金辉,梁爽申请号:CN201810607605.5申请日:20180613公开号:CN108874996A公开日:20181123
摘要:本申请实施例提供一种网站分类方法及装置。该方法包括:获得待分类的网站;爬取所述待分类的网站中的页面文本以及关键词;计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;基于所述第一分类结果集和所述第二分类结果集输出分类结果。由此,采用本申请能够自动生成训练样本,无需人工处理,工作量小,同时在网页文本数据较少时,也能够实现准确的网站分类。
申请人:北京知道创宇信息技术有限公司,南开大学
地址:100000 北京市朝阳区阜通东大街1号院5号楼1单元311501室
国籍:CN
代理机构:北京超凡志成知识产权代理事务所(普通合伙)
代理人:魏彦
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容