编辑推荐: |
本文主要介绍知识图谱的研究背景及其意义,知识图谱的发展、定义
大规模知识库 关键技术、 典型应用以及知识图谱的问题与挑战。
本文来自于博客园,由火龙果软件Alice编辑、推荐。 |
|
知识图谱技术是人工智能技术的重要组成部分,以结构化的方式描述客观世界中的概念、实体及其键的关系。知识图谱提技术提供了一种更好的组织、管理和理解互联网海量信息的能力,将互联网的信息表达成更接近于人类认知世界的形式。因此,建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智能信息服务重产生应用价值。
知识图谱的研究背景及其意义
单单从字面上理解,知识图谱应该是一种更加结构化(主要是基于图)的知识库,将散乱的知识有效的组织起来,方便人们的查阅,而不是之前那样一堆文在摆在眼前,没有一目了然的赶脚,哈哈哈。所以,很容易想到,知识图谱的产生背景就是,第一方面互联网信息的暴增,以及信息的杂乱无章,第一个意义就是为了人们更加快速有效的检索某一信息。,第二方面,随着现在科学技术的进步与发展,很多先进技术都应运而生(比如深度学习),人们期望机器像人一样可以去理解海量的网络信息,期望可以更快、准确、智能的获取到自己需要的信息,为了满足这种需求,智能化的知识图谱应运而生,其研究意义还是在于方便人类!(有木有发现,几乎所有的研究意义都是这四个字呐)(在这里我只是用一种简单理解的方式来表达,当然还有更多的研究意义,只不过知识图谱刚刚开始火热起来的时候,就是应用在信息检索方面。为了容易理解以及方便记忆,记住这个就ok了)
一般情况下研究背景就体现了研究意义。以下是官网语言描述,非完美主义者可以跳过这些繁琐的文字表达,哈哈哈。
伴随着web技术的不断演进与发展,人类先后经历了以文档互联为主要特征的“web
1.0”时代,以数据互联为特征的“web 2.0”时代,正在迈向基于知识互联的崭新“Web 3.0”时代。
知识互联网的目标是构建一个人与机器都可以理解的万维网,使得人们的网络更加智能化。然而,由于万维网上的内容多源一直,组织结构松散,给大数据环境下的知识互联带来了极大的挑战。因此,人们需要根据大数据环境下的知识组织原则,从新的视角去探索既符合网络信息资源发展变化又能适应用户人之需求的知识互联方法,从更深层次上揭示人类认知的整体性关联性。知识图谱以其强大的语义处理能力与开放互联能力,使web
3.0提出的“知识之网”远景成为了可能。
进入21世纪,随着互联网的蓬勃发展以及知识的爆炸式增长,搜索引擎被广泛使用。传统的搜索引擎技术能够根据用户查询快速排序网页,提高信息检索的效率。然而,这种网页检索效率并不意味这用户能够快速准确的获取信息和知识,对于搜索引擎返回的大量结果还需要进行人工排查和筛选。面对互联网上不断增加的海量信息,网页检索方式(仅包含网页和网页之间链接的传统文档)已经不能满足人们迅速获取所需信息和全面掌握信息资源的需求。为了满足这种需求,知识图谱技术应运而生。它们力求通过将知识进行更加有序、有机的组织起来,使用户可以更加快速、准确地访问自己需要的知识信息,并进行一定的知识挖局和智能决策。从机构知识库到互联网搜索引擎,近年来不少学者和机构纷纷在知识图谱上深入研究,希望以这种更加清晰、动态的方式(注:知识图谱一定是动态的,不断更新的,不是静止的,不然,就是去了其真正的意义)展现各种概念之间的联系,实现知识的智能获取和管理。
知识图谱的发展
20世纪中叶,普莱斯等人提出使用引文网络来研究当代科学发展的脉络的方法,首次提出了知识图谱的概念。(注意:这里的知识图谱和本博文主要介绍的知识图谱不太一样,在此是指Mapping
Knowledge Domain,而本博文主要介绍的知识图谱是指Knowledge Graph)1977年,知识工程的概念在第五届国际人工智能大会上被提出,以专家系统为代表的知识库系统开始被广泛研究和应用,直到20世纪90年代,机构知识库的概念被提出,自此关于知识表示、知识组织的研究工作开始深入开展起来。机构知识库系统被广泛应用于各科研机构和单位内部的资料整合以及对外宣传工作。2012年11月Google公司率先提出知识图谱(Knowledge
Graph,KG)的概念,表示将在其搜索结果中加入知识图谱的功能。其初衷是为了提高搜索引擎的能力,增强用户的搜索质量以及搜索体验。据2015年1月统计的数据,Google
构建的KG已经拥有5亿个实体,约35亿条实体关系信息,已经被广泛应用于提高搜索引擎的搜索质量。虽然知识图谱(Knowledge
Graph)的概念较新,但它并非是一个全新的研究领域,早在2006年,Berners Lee就提出了数据链接(linked
data)的思想,呼吁推广和完善相关的技术标准如URI(Uniform resource identifier),RDF(resource
discription framework),OWL(Web ontology language),为迎接语义网络的到来做好准备。随后掀起了一场语义网络研究的热潮,知识图谱技术正是建立在相关的研究成果之上的,是对现有语义网络技术的一次扬弃和升华。
知识图谱的定义
在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。可作如下定义:
知识图谱 :是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体
关系 实体”三元组,以及实体及其相关属性值对,实体间通过关系相互联结,构成网状的知识结构。
三元组是知识图谱的一种通用表示方式,即G∈(E,R,S)G \in
(E,R, S)G∈(E,R,S),其中E={e1,e2,...,e∣E∣}E= \{e_1 ,e_2
,...,e_{|E|} \}E={e 1,e 2 ,...,e ∣E∣ }是知识库中的实体集合,共包含|
E |种不同实体; R={r1,r2,...,r∣R∣}R= \{r_1 ,r_2 ,...,r_{|R|}
\}R={r 1 ,r 2 ,...,r ∣R∣}是知识库中的关系集合,共包含| R |种不同关系;S?E×R×ES
\subseteq E \times R\times ES?E×R×E 代表知识库中的三元组集合。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等;属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value
pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。
在此,知识图谱包含三层含义:
知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库.从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边.由此,知识图谱是对物理世界的一种符号表达
.
知识图谱的研究价值在于,它是构建在当前Web基础之上的一层覆盖网络(overlay network),借助知识图谱,能够在Web网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,成为可以被利用的知识。
知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来。
#知识图谱的架构
在此主要给出几个常见的知识图谱架构图,这几个图大同小异,通过看图可以一目了然的理解,免去了文字的繁琐介绍。
知识图谱架构主要部分:
- 知识抽取(包括实体抽取、关系抽取以及属性抽取等)
- 知识融合(包括实体消岐等)
- 知识加工(包括本体构架、知识推理等)
- 知识更新
大规模知识库
具体的可以参加下图:
知识图谱关键技术
这一部分是本文的重点,前面都是需要基本了解的知识图谱基础知识,这一部分是核心也是主要的研究问题。其实知识图谱的关键技术主要是围绕着建立一个高质量的知识图谱所展开讨论的。在此主要是一个简单的总结,便于大家的理解与记忆。
知识抽取(或者信息抽取)
实体抽取
关系抽取
属性抽取(实质上属性抽取也可以看作是关系抽去)
知识融合
实体连接
实体消岐–专门用于解决同名实体产生歧义问题的技术。实体消岐主要采用聚类的方法,聚类法消歧的关键问题是如何定义实体对象与指称项之间的相似度,常用的方法有:《1》空间向量模型(词袋模型)《2》语义模型(与空间向量模型相似,不同的地方在于语义模型不仅包含词袋向量,而且包含一部分语义特征)《3》社会网络模型(该模型的基本假设是物以类聚人以群分,在社会化环境中,实体指称项的意义在很大程度上是由与其相关联的实体所决定的)《4》百科知识模型(百科类网站通常会为每个实体分配一个单独页面,其中包括指向其他实体页面的连接,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度)
实体对齐–主要用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识库。对齐算法可以分为成对实体对齐和集体实体对齐,而集体实体对齐又可以分为局部集体实体对齐和全局集体实体对齐。成对实体对齐:《1》基于传统概率模型的实体对齐方法。《2》基于机器学习的实体对齐方法。局部实体对齐方法:局部实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可以使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度,算法为每个实体建立了名称向量与虚拟文档向量,名称向量用于标识实体的属性,虚拟文档向量则用于表示实体的属性值以及其邻居节点的属性值的加权和值。全局集体实体对齐方法:《1》基于相似性传播的集体实体对齐方法。《2》基于概率模型的集体实体对齐方法
实体链接技术也可以从整体层面分类如下:
知识合并
合并外部知识库—将外部知识库融合到本地知识库需要处理2个层面的问题。《1》数据层的融合,包括实体的指称、属性、关系以及所属类别等,主要的问题是如何避免实例以及关系的冲突问题,造成不必要的冗余。《2》通过模式层的融合,将新得到的本体融入已有的本体库中。
合并关系数据库—在知识图谱的构建过程中,一个重要的高质量知识来源是企业或者机构自己的关系数据库。为了将这些结构化的历史数据融入到知识图谱中,可以采用资源描述框架(RDF)作为数据模型。业界和学术界将这一数据转换过程形象的称为RDB2RDF,其实质就是将关系数据库的数据转换成RDF的三元组数据。
知识加工
本体构建—本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识。本体是同一领域内不同主体之间进行交流的语义基础,本体是树状结构,相邻层次的节点(概念)之间具有严格的“IsA”关系,这种单纯的关系有利于知识推理却不利于表达概念的多样性。本体的构建可以采用人工编辑的方式手动构建(借助于本体编辑软件),也可以采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。除了数据驱动的方法,还可以采用跨语言知识链接的方法来构建本体库。对当前本体生成方法的主要研究工作主要集中在实体聚类方法,主要挑战在于经过信息抽取得到的实体描述非常简短,缺乏必要的上下文信息,导致多数统计模型不可用。(可以利用主题进行层次聚类)。
知识推理—知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络,知识推理是知识图谱构建的重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识。知识推理的方法如下图:
质量评估—对知识库的质量评估任务通常是与实体对齐任务一起进行的,其意义在于,可以对知识的可信度进行量化,保留置信度较高的,舍弃置信度较低的,有效保证知识的质量。
知识更新
人类所拥有信息和知识量都是时间的单调递增的函数,因此知识图谱的内容也需要与时俱进,其构建过程是一个不断迭代更新的过程。从逻辑上看,只是哭的更新包括概念层更新和数据层更新。知识图谱内容的更新有两种方式:数据驱动下的全面更新和增量更新。
知识表示
虽然三元组的知识表示形式受到了人们的广泛认可,但是其在计算效率、数据稀疏性等方面却面临着诸多问题。近年来,以深度学习为代表的学习技术取得了重要的进展,可以将实体的语义信息表示为稠密低维的实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联,对知识库的构建、推理、融合以及应用均具有重要的意义。分布式表示旨在用一个综合的向量来表示实体对象的语义信息,是一种模仿人脑工作的表示机制,通过知识表示而得到的分布式表示形式在知识图谱的计算、补全、推理等方面起到重要的作用:语义相似度计算、链接预测(又被称为知识图谱补全)等代表模型如下所示:
距离模型
首先将实体用向量进行表示,然后通过关系矩阵将实体投影到与实体向量同一纬度的向量空间中,最后通过计算投影向量之间的距离来判断实体间已经存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵,故实体间的协同性较差,这也是该模型本身的主要缺陷。
单层神经网络
针对距离模型的缺陷,提出了采用单层神经网络的非线性模型(single layer model,SLM)。单层神经网络模型的非线性操作虽然能够进一步刻画实体在关系下的语义相关性,但是在计算开销上却大大增加。
双线性模型
双线性模型又叫隐变量模型(latent factor model,LFM)。双线性模型主要是通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性,模型不仅形式简单、易于计算,而且能够有效刻画实体间的协同性。
神经张量模型
其基本思想是,在不同维度下,将实体联系起来,表示实体间复杂的语义联系。神经张量模型在构建实体的向量表示时,是将该实体中的所有单词的向量取平均值,这样一方面可以重复使用单词向量构建实体,另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算。
矩阵分解模型
通过矩阵分解的方式可以得到低维的向量表示,故不少研究者提出可以采用该方式进行知识表示学习,其中典型的代表是RESACL模型。
翻译模型
受到平移变现象的启发,提出了TransE模型,即将知识库中实体之间的关系看成是从实体间的某种平移,并用向量表示。关系lrl_rl
r可以看作是从头实体向量lhl_hl h到尾实体向量ltl_tl t的翻译。该模型的参数较少,计算的复杂度显著降低,同时,TransE模型在大规模稀疏数据库上也同样具有较好的性能与可扩展性。
复杂关系模型
知识库中的实体关系类型可分为:1-to-1、1-to-N、N-to-1、N-to-N 4种类型。代表性模型有:TransH模型、TransR模型、TransD模型、TransG模型、KG2E模型。
知识图谱的典型应用
知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。
智能搜索
深度问答
社交网络
个性化推荐
垂直行业应用,例如 金融行业、医疗行业、电商行业以及教育行业等等。
知识图谱的问题与挑战
知识抽取
知识抽取是知识图谱组织构建、进行问答检索的主要任务,对于深层语义的理解以及处理具有重要的意义。一些传统的知识元素(实体、关系、属性)抽取技术与方法,它们在限定领域、主题的数据集上获得了较好的效果,但由于制约条件较多,算法准确性和召回率低,方法的可扩展能力不够强,未能很好地适应大规模、领域独立、高效的开放式信息抽取要求。
目前,基于大规开放域的知识抽取研究仍处于起步阶段,尚需研究者努力去攻关开垦。主要问题包括实体抽取、关系抽取以及属性抽取。其中,多语种、开放领域的纯文本信息抽取问题是当前面临的重要挑战。
KnowItAll、TextRunner、WOE、ReVerb、R2A2、KPAKEN这些系统已为开放域环境下,实体关系抽取中的二元关系抽取、n元关系抽取发展开创了先河,具有广阔的研究前景。再者,对于隐含关系的抽取,目前主流的开放式信息抽取方法性能低下或尚无法实现。因此,以马尔可夫逻辑网、本体推理的联合推理方法将成为学术界的研究热点。
联合推理方法不仅能够推断文本语料所不能显示的深层隐含信息,还能够综合信息抽取各阶段的子任务,像杠杆一样在各方面之间寻求平衡,以趋向整体向上的理想效果,为大规模开放域下的知识抽取提供了一种新的思路。除上述外,跨语言的知识抽取方法也成为了当前的研究热点,对于我国的研究者而言,更应发挥自身在中文信息处理方面的天然优势,面对挑战与机遇,做出应有的贡献。
知识表示
目前存在的表示方式仍是基于三元组形式完成的语义映射,在面对复杂的知识类型、多源融合的信息时,其表达能力仍然有限。因此有研究者提出,应针对不同的应用场景设计不同的知识表示方法。
复杂关系中的知识表示
已有的工作将知识库中的实体关系类型分为1-to-1、1-to-N、N-to-1、N-to-N这4种,这种划分方法无法直观地解释知识的本质类型特点,也无法更有针对性地表示复杂关系中的知识。
但发现分布式的知识表示方法来源于认知科学,具有灵活的可扩展能力。基于上述,对认知科学领域人类知识类型的探索将有助于知识类型的划分、表示以及处理,是未来知识表示研究的重要发展方向。
多源信息融合中的知识表示
**对于多源信息融合中的知识表示研究尚处于起步阶段,涉及的信息来源也极为有限,已有的少数工作都是围绕文本与知识库的融合而展开的。**另外,已有文献将注意力转向面向关系表示的多源信息融合领域,并已在CNN上进行了一定的实现。在知识融合表示中,融合是最关键的前期步骤,如能有机的融合多源异质的实体、关系等信息,将有利于进一步提升知识表示模型的区分能力以及性能。基于实体的、关系的、Web文本的、多知识库的融合均具有较为广阔的研究前景。
知识融合
知识融合对于知识图谱的构建、表示均具有重要的意义。实体对齐 是知识融合中的关键步骤,虽然相关研究已取得了丰硕的成果,但仍有广阔的发展空间,如下:
并行与分布式算法
大规模的知识库不仅蕴含了海量的知识,其结构、数据特征也极其复杂,这些对知识库实体对齐算法的准确率、执行效率提出了一定的挑战。目前,不少研究者正着力研究对齐算法的并行化或分布式版本,在兼顾算法准确率与召回率的同时,将进一步利用并行编程环境MPI,分布式计算框架Hadoop、Spark等平台,提升知识库对齐的整体效果。
众包算法
人机结合的众包算法可以有效地提高知识融合的质量。众包算法的设计讲求数据量、知识库对齐质量以及人工标注三者的权衡。将众包平台与知识库对齐模型有机结合起来,并且能够有效判别人工标注的质量,这些均具有较为广阔的研究前景。
跨语言知识库对齐
多语言的知识库越来越多,多语言知识库的互补能力将为知识图谱在多语言搜索、问答、翻译等领域的实际应用提供更多的可能。
文献已在这方面取得了一定的进展,但知识库对齐的质量不高,这方面仍有广阔的研究空间。
综之,主要的研究问题包括开放域条件下的实体消歧、共指消解、外部知识库融合和关系数据库知识融合等问题.当前受到学术界普遍关注的问题是如何在上下文信息受限(短文本、跨语境、跨领域等)条件下,准确地将从文本中抽取得到的实体正确链接到知识库中对应的实体.
知识加工
知识加工是最具特色的知识图谱技术,同时也是该领域最大的挑战之所在.主要的研究问题包括:本体的自动构建、知识推理技术、知识质量评估手段以及推理技术的应用.目前,本体构建问题的研究焦点是聚类问题,对知识质量评估问题的研究则主要关注建立完善的质量评估技术标准和指标体系.知识推理的方法和应用研究是当前该领域最为困难,同时也是最为吸引人的问题,需要突破现有技术和思维方式的限制,知识推理技术的创新也将对知识图谱的应用产生深远影响.
知识更新
在知识更新环节, 增量更新技术是未来的发展方向,然而现有的知识更新技术严重依赖人工干预.可以预见随着知识图谱的不断积累,依靠人工制定更新规则和逐条检视的旧模式将会逐步降低比重,自动化程度将不断提高,如何确保自动化更新的有效性,是该领域面临的又一重大挑战
知识应用
目前,大规模知识图谱的应用场景和方式还比较有限,其在智能搜索、深度问答、社交网络以及其他行业中的使用也**只是处于初级阶段,**仍具有广阔的可扩展空间。人们在挖掘需求、探索知识图谱的应用场景时,应充分考虑知识图谱的以下优势:1)
对海量、异构、动态的半结构化、非结构化数据的有效组织与表达能力;2) 依托于强大知识库的深度知识推理能力;3)
与深度学习、类脑科学等领域相结合,逐步扩展的认知能力。 在对知识图谱技术有丰富积累的基础上,敏锐的感知人们的需求,可为大规模知识图谱的应用找到更宽广、更合适的应用之道。
其他
最具基础研究价值的挑战是如何解决知识的表达、存储与查询问题,这个问题将伴随知识图谱技术发展的始终,对该问题的解决将反过来影响前面提出的挑战和关键问题.当前的知识图谱主要采用图数据库进行存储,在受益于图数据库带来的查询效率的同时,也失去了关系型数据库的优点,如SQL语言支持和集合查询效率等.在查询方面,如何处理自然语言查询,对其进行分析推理,翻译成知识图谱可理解的查询表达式以及等价表达式等也都是知识图谱应用需解决的关键问题.
总结
知识图谱的重要性不仅在于它是一个全局知识库,是支撑智能搜索和深度问答等智能应用的基础,而且在于它是一把钥匙,能够打开人类的知识宝库,为许多相关学科领域开启新的发展机会。
从这个意义上看来,知识图谱不仅是一项技术,更是一项战略资产。本文的主要目的就是介绍和宣传这项技术,希望吸引更多的人重视和投入这项研究工作。
|