【转载】DSE精选文章 | 基于SA-CNN的小样本知识图谱关系预测
935
2023-12-22 10:23:13
   收录于合集: # 学术快讯
10
0
0
用微信扫描二维码

转载自:微信公众号 |专委会秘书处 CCF数据库专委

公众号文章链接:https://mp.weixin.qq.com/s/9ZF3TyBGETb26wgnMOx0MQ

Few-Shot Relation Prediction of Knowledge Graph via Convolutional Neural Network with Self-Attention

Data Science and Engineering (DSE)是由中国计算机学会(CCF)主办,数据库专业委员会承办,施普林格·自然(Springer Nature)集团出版的开放获取(OA)期刊。本篇文章精选自DSE第2023年第8卷第4期发文,由中新赛克赞助文章处理费。

文章介绍

知识图谱(Knowledge Graph, KG)已经成为智能问答和推荐系统等多种应用的重要基础。然而,KG中的某些关系仅包含有限的相关三元组,使得小样本关系预测方法成为亟待研究的问题。目前基于KG嵌入(Knowledge Graph Embedding)的方法需要足够的训练三元组来学习实体和关系的表示,而最近的一些研究工作引入实体的邻居和上下文等背景信息、学习小样本场景中的实体和关系特征,但部分场景中的背景信息并不可用。从实际应用的角度看,可观察到的少量三元组中包含着未被完全利用的属性特征。因此,KG的小样本关系预测仍面临两个方面的挑战:如何描述实体和关系间的相关性,如何从观察到的少量三元组中学习实体的隐藏属性特征?为解决上述研究工作存在的问题,本文提出基于自注意力卷积神经网络的KG关系预测(Convolutional Neural Network with Self-Attention Relation Prediction, CARP)模型,用于预测新的关系事实,如图1所示。首先,为了学习关系的属性特征,本文利用CNN从少量观察到的三元组中构建具有自注意力的特征编码器,通过赋予所观察到三元组的不同权重来描述它们之间的相关性,以凸显其属性特征。进一步,通过将观察到的三元组集合与数字图像的不可分割性及平移特征不变性进行类比,构建特征编码器,将CNN与基于自注意力的相关性相结合,学习关系的属性特征。然后,利用嵌入网络融合所学习到的特征,学习三元组的表示向量。最后,本文给出CARP模型的损失函数和训练算法。本文的主要贡献总结如下:

(1)提出从观察到的少量三元组中学习属性特征的方法,以增强关系表示。

(2)通过限制属性特征空间,给出CARP模型训练的损失函数。

(3)在3个数据集上进行了对比实验,结果表明,CARP模型能有效完成KG的小样本关系预测任务,且优于最优的对比模型。

模型框架

CARP模型包括用于学习属性特征的特征编码器、以及用于匹配观察到的不完整三元组的匹配处理器两个模块,模型框架如图1所示。

IMG_256

图1. CARP模型框架特征编码器模块旨在挖掘具有相同关系的多个三元组中头实体和尾实体共享的属性特征,以及头尾实体对共享的关系属性特征,从而生成并选择正确的三元组。首先将实体和关系的表示映射到特征向量空间,并使用可缩放点积计算注意力权重。然后使用L层CNN学习属性特征,进一步利用高斯分布表示其概率分布,通过重参数化策略对特征进行采样,获得属性特征的最终表示。匹配处理器模块旨在将参考集中的头尾实体间的相关性映射到查询集中,利用向量距离对头尾实体及关系进行聚类,从而得到最可能的实体关系、完成关系预测。

实验效果

本文在NELL-One、FB-One和Wiki-One三个数据集上对提出的CARP模型进行了实验测试,其中,NELL-One基于通过智能代理从新闻中收集结构化知识的NELL系统,Wiki-One基于由百科全书式知识构成的通用结构化知识库Wikidata。此外,本文使用类似方法从社交知识所构成的大型协作知识库Freebase中提取数据,构建了FB-One数据集。具体而言,首先排除逆关系,然后从每个关系中选择50~500个三元组,作为小样本关系预测任务的数据集,每个小样本关系预测任务由与其对应、具有相同关系的三元组构成。在这3个数据集上,分别包含67、131和183个小样本关系预测任务。本文将小样本关系预测任务的训练集、测试集和验证集按照51/5/11、98/11/22和133/16/34的比例划分。表1给出以上数据集的统计信息。

IMG_257

表1. 数据集统计信息首先,我们在3个数据集上进行3/5-shot关系预测,MRR、Hits@1、Hits@5和Hits@10等指标的测试结果如表2所示。本文提出的CARP模型在3个数据集上的各项指标均有显著提升,与第二高的对比模型相比分别提高了90%、124%、70%和48%。实验结果表明,CARP模型可适用于不同的数据集,在小样本场景中可通过挖掘属性特征而学习到更有效的实体表示。

IMG_258

表2. 3/5-shot关系预测的MRR/Hits@1/Hits@5/Hits@10指标结果

为了评估样本数量k的影响,设置了k=1、3、5、7,并使用不同的k值测试MRR指标,如图2所示。结果表明,CARP模型在3个数据集上的MRR指标都优于对比模型,验证了CARP模型对于小样本关系预测任务的有效性。随着k值的增加,MRR值略有增加,表明随着参考集数量的增加,CARP模型能获得更加丰富的信息。

IMG_259

图2. CARP模型性能随样本数量变化本文进一步通过消融实验测试特征编码器和匹配处理器的有效性。为测试特征编码器的有效性,在参考集上使用平均池化层替换特征编码器模块(记为AS_1);为测试使用特征编码器学习到的属性特征对查询处理的有效性,使用随机特征替换属性特征并作为嵌入网络的输入(记为AS_2),如表3所示。结果表明,特征编码器和匹配处理器在CARP模型中能有效提升模型的效果,从观察到的少量三元组中学习到的属性特征在小样本关系预测中起着至关重要的作用。

IMG_260

表3. 消融实验MRR/Hits@1/Hits@5/Hits@10指标结果最后给出案例分析,在3个数据集上测试了不同小样本关系预测任务的MRR指标,如图3所示。结果表明,CARP模型在3个数据集上都具有稳定的表现,验证了本文提出的CARP模型针对不同小样本关系预测任务的可靠性,在接近80%的小样本关系预测任务中达到了最佳MRR,表明本文模型对不同小样本关系预测任务的鲁棒性。

IMG_261

图3. 不同关系预测任务上的MRR

结语

文提出CARP模型,有效预测观察到的少量三元组中的新关系,模型专注于从少量三元组中学习关系的属性特征,可有效避免引入背景信息而带来的噪声。CARP模型不仅增强了关系的表示,还有助于在小样本场景中预测新的关系事实。

作者简介

IMG_262

钟姗娜,硕士,于2023年获得云南大学计算机科学与技术专业硕士学位。主要研究方向为大数据分析、知识图谱。

IMG_263

王笳辉,博士,于2023年获得云南大学计算机科学与技术专业博士学位。在KBS、ESWA、DSE、《软件学报》和《电子学报》等期刊和会议发表论文10篇。主要研究方向为知识图谱、概率图嵌入。

IMG_264

岳昆,博士,云南大学信息学院教授、博士生导师、副院长、云南省智能系统与计算重点实验室主任。入选“兴滇英才支持计划”云岭学者,云南省杰青、中青年学术和技术带头人。主持国家自然科学基金重点项目等科研项目20余项。在TSC、TCYB、TIST、《计算机学报》、《软件学报》、AAAI、UAI、CIKM和ICWS等期刊和会议发表论文100余篇。授权发明专利20余项,出版著作5部、参编译著1部。主要研究方向为海量数据处理、大数据知识工程、贝叶斯深度学习。

IMG_265

段亮,博士,云南大学信息学院副教授、硕士生导师。于2019年获得北京航空航天大学计算机科学与技术专业博士学位。入选“兴滇英才支持计划”青年人才和云南大学“东陆青年学者”,主持国家自然科学基金青年项目等科研项目5项,在TKDE、KAIS、《软件学报》、AAAI 、ICDM、UAI和WSDM等期刊和会议发表论文20余篇。主要研究方向为海量数据处理、机器学习、社交网络分析。

IMG_266

孙正宝,博士,高级实验师、硕士生导师。2021年获得云南大学信息与通信工程专业博士学位。入选“兴滇英才支持计划”青年人才,主持完成国家自然科学基金青年项目等科研项目3项。主要研究方向为地理时空数据挖掘。

IMG_267

方岩,硕士,助理研究员。于2020年获得云南大学计算机科学与技术专业硕士学位。主要研究方向为数据挖掘、知识图谱。

期刊简介

IMG_268

Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格 自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。

目前期刊已被EI、ESCI与SCOPUS收录,2022年CiteScore为8.8,影响因子(Impact factor)为4.2,在计算机科学应用领域排名前13%(102/792)、计算机软件领域排名前16%(65/404)、信息系统领域排名前16%(60/379),人工智能领域排名前19%(58/301)。稿件处理费由赞助商中新赛克(Sinovatio)承担,欢迎大家免费下载阅读期刊全文,并积极投稿。

原文链接:

https://link.springer.com/article/10.1007/s41019-023-00230-x


文稿:李博涵、王晓黎、王肇国排版:李瑞远审核:专委会秘书处

IMG_269

IMG_271

CCF数据库专委

标签: DSE精选文章 SA-CNN 知识图谱关系预测

SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: