大规模知识图谱技术
2021-08-18
来源:好走旅游网
大规模知识图谱技术.pdf知识图谱实例谷歌 知识图谱 (Google Knowledge Graph)百度 “知心” 搜狗 “知立方”知识图谱的构建知识图谱的数据来源 mainly for extraction graphs(抽取图谱)百科类数据质量较高更新速度慢提取实体、属性、关系结构化数据方法:构建面 向站点的包装器质量较高更新速度慢提取实体、属性、关系,属性部分加强搜索日志质量较差提高图谱覆盖率提取属性从抽取图谱到知识图谱实体对齐 (Object Alignment) 目的: 发现具有不同标识却代表真实世界中同一对象的那些实体, 并将这些实体归并为一个具有全局唯一标识的实体对象, 然后添加到知识图谱中主要方法:聚类相似度度量规则1. 具有相同描述的实体可能 代表同一实体(字符相似)2. 具有相同属性 - 值的实体可能代表相同对象(属性相似)3. 具有相同邻居的实体可能指向同一个对象(结构相似)准确率无法保证,需人工审核知识图谱模式构建本体概 念概念层次属性属性值类型关系关系定义域概念集关系值域概念集图谱模式领域 (domain)类别 (type) 主题 (topic, 即 实体)方法自底向上 有利于抽取新的实例,可保证抽取质量自顶向下 能发现新的模式知识图谱上的挖掘推理 推理( reasoning 或 inference) 被广泛用 于发现隐含知识, 其功能通过可扩展的规则引擎来完成规则针对属性针对关系实体重要性排序相关实体挖掘 “其他人还搜了”知识图谱的更新和维护知识图谱模式的更新目前定义的类别数约为 103~104 量级由专业的人员进 行决策和命名新类别结构化站点包装器的维护变化量超过事先设定的阈值且抽取结果与 原先标注的答案差别较大, 则表明现有的站点包装 器失效了知识图谱的更新频率规模和更新频度:数据层>>模式层众包反馈机制知识图谱在搜索中的应用查询理解1. 选择性显示知识卡片2. 选择性显示属性问题回答总结1. 目前知识图谱的发展还处于初期阶段2. 人工干预仍起重要作用3. 结构化数据在知识图谱的构 建中起到决定性作用4. 各大搜索引擎公司为了保证知识图谱的质量多半采用成熟的算法5. 搜索引擎公司展示知识卡片时比较谨慎6. 更复杂的自然语言查询将崭露头角(如谷歌的蜂鸟算法)知识图谱 :旨在描述真实世界中存在的各种实体或概 念知识卡片 : 用户查询中所包含的实体或返回的答案提供的详细的结构化摘要, 是特定查询的知识图谱实体 :全局唯一确 定的标识符属性 值对 :(attribute-value pair, AVP)实体特性关系 :实体间关联多学科结合知识库自然语言处理机器学习数据挖掘