从事知识图谱构建研究领域有哪些经验值得分享
构建知识图谱是一个和数据打交道的过程,无论是有现成的结构化数据,还是爬取网页上的非结构化数据。知识图谱本质就是个图数据库,与传统关系数据库相比,可以让我们更直观的“看到”数据之间的关联,因此,和构建关系数据库道理大同小异。如果你对数据不感兴趣,就会感到比较枯燥。构建知识图谱需要掌握一些工具,比如爬虫、neo4j等等,掌握了工具,构建知识图并不困难,难在大数据源。总结来说,构建知识图谱,关键在数据,有了好的数据,构建过程并不难。
知识图谱的体系架构分为几部
知识图谱的体系架构通常分为四个部分:数据采集、知识抽取、知识存储和知识应用。
数据采集:这是知识图谱构建的第一步,涉及从各种数据源中收集和整合数据。
知识抽取:从采集的数据中提取有用的信息,形成实体、属性以及实体之间的关系,进而构建知识图谱。
知识存储:将抽取的知识以图结构的形式存储在知识库中,便于后续的查询和使用。
知识应用:将构建好的知识图谱应用于各种场景,如智能问答、推荐系统等。
每个部分都有其特定的技术挑战和方法,需要相应的技术来支持。
如何构建知识图谱
构建知识图谱的步骤如下:
构建模式 。构建模式一般包括两种方式,即自顶向下和自底向上。自顶向下是先设计本体构建层,再将结构化知识加入知识库中;自底向上是先从公开数据集选择一些置信度较高的信息加入知识库,然后构建本体模式层。
概念本体设计 。概念本体设计是对知识图谱中的概念进行明确定义,并确定概念之间的关系。
知识抽取 。知识抽取是从大量的数据中提取出实体、属性、关系等结构化信息的过程。
知识融合 。知识融合是将不同来源、不同格式、不同质量的数据进行整合,形成一个统一、高质量的知识库的过程。
知识存储 。知识存储是将抽取和融合后的知识以一定的结构存储在数据库中,以便后续的知识推理和应用。
知识图谱的评价指标
一、Mean Rank
方法:
对于每个评测三元组(h,r,t),移去头部实体(迭代的方式替换尾部实体)、轮流替换成词表中的其他实体,构建错误的三元组实体({h}',r,t)。利用关系函数f_r(h,t)计算头部实体和尾部实体的相似度。对于这个相似度来讲,正确的三元组的值应该比较小,而错误样本的相似度值会比较大。用关系函数对所有的三元组(包括正确的三元组和错误的三元组)进行计算,并按照升序排序。并找出所有正确三元组在该排序中的排名位置做平均。对于一个好的知识图谱表示来说,正确三元组的得分(即头部实体和尾部实体的关系函数值)会小于错误三元组的得分,排名会比较靠前。所以可以用Mean Rank的方式衡量知识图谱表示向量的好坏。
二、hist@10
还是按照上述进行关系函数值进行排列,然后看每个评测三元组的正确三元组是否排在排名的前10,如果在前10的话就技术+1,最终hist@10=排在前10的数量/总数量