论文部分内容阅读
知识图谱是图形式的知识库,其以关系连接头尾实体构成有向图。一方面,知识一直以来都是人工智能研究的中心课题,知识图谱作为知识的载体必然成为研究的重点和难点。另一方面,知识作为智能系统的强力助推器,可以很好地辅助互联网应用,支持国家“互联网+”战略,产生更大的社会经济效益,比如在谷歌检索、百度检索等自然语言产品中扮演核心角色。然而,传统的基于逻辑的知识表示方式至少存在两点不足:其一,不能很好地结合大部分数值向量为基础的机器学习技术,阻碍了知识图谱更为广泛的应用;其二,逻辑推理时间复杂度高,难以应用到当前大数据的实际场景中。相较之下,本章提出了一套基于几何变换的知识图谱表示方法,每一个实体都是几何变换中的点,每一个关系都是一个几何变换。从而,设计出高效的基于统计学习的算法,来解决实际中诸如知识图谱补全等应用问题。本文分别从数据几何形态、模型几何原理、相互作用的几何形式和几何语义可解释性四个层面,探索知识图谱的几何变换表示理论。模型刻画数据,数据选择模型,本章先从数据和模型这两个对偶层面进行研究。进而,分析了数据和模型几何学上的相互作用。由于前三个表示工作都没能做到语义表示,不利于知识应用,所以进而又提出了几何语义可解释性。本章主要工作如下:(1)在数据层面。本章分析了知识中关系的表现性,提出了关系多语义现象。所谓关系多语义现象,主要是指一个关系具有多重语义。比如“部分”(Has Part)关系,在(中国,部分,北京)中代表了地理位置的包含,在(桌子,部分,桌腿)中代表了具体物件的构成。本章利用混合产生式模型(TransG)来建模这种现象,每个元组都是不同关系语义下的混合。这种方法不但可以提高知识表示相关任务的精确度,还可以有效分析出关系的每一种语义。实验结果表明TransG模型优于传统的单关系语义模型。此工作现已发表在ACL·2016。(2)在模型层面。本章分析了现有模型的几何奇异性,并给出了相应的代数解释。传统模型把三元组视为一个平移过程,从主语几何点经由关系向量平移到宾语几何点;这种几何上的性质导致每一个主语在相应的谓语下只能对应一个具体的宾语,对于复杂的多对多(many-to-many)关系限制太过严格。本章对于特定的主语和关系,让所有的宾语位置从原来的一个点拓展为一个流形。这种方法(ManifoldE)在几何上修正了奇异性,在代数上缓解了过定性,从而减小了模型的表示误差。实验结果表明ManifoldE在精确链接预测任务上远好于其他同类模型。此工作现已发表在IJCAI·2016。(3)在相互作用层面。本章引入了实体描述来增强知识表示。传统模型中,实体描述和知识三元组的编码是一个相对独立的过程。本章认为,知识表示过程中,三元组的表示始终是核心问题,实体描述信息必须和三元组信息相互作用才能更好地建模知识和文本联合语义。本章方法(SSP)利用实体描述的文本信息构造语义平面,三元组的表示在对应的语义平面内完成。本章方法不但可以发现实体间语义相关性,还可以更好地刻画语义表示。实验结果说明了SSP的有效性。此工作现已发表在AAAI·2017。(4)在可解释性层面。本章给予了几何表示以属性语义的解释性。传统模型中,几何表示是很难解释的,无论是在理论还是应用上都是不利的。本章利用了多视图聚类方法,建模了知识图谱中的语义组织形式,给予几何表示以概率的语义可解释性。这种方法(KSR)取得了语义上的突破,可以更好地结合到自然语言理解中。实验验证了KSR的语义性质,同时KSR在实际的大规模数据集上取得了最好的成绩。