本期发布术语热词:异质图(Heterogeneous Graph)



异质图(Heterogeneous Graph)

作者:石川(北京邮电大学)


InfoBox:

中文名:异质图

外文名:Heterogeneous Graph

简称:HG

学科:数据挖掘、机器学习、社交网络分析

实质:一种复杂交互系统的建模方法,用于建模多种类型的对象及其之间复杂的关联关系



基本简介:

异质 图(heterogeneous graph,也称异构图),又被称为异质信息网络(heterogeneous information network ,也称异构信息网络)。区别于同质图 (homogeneous graph),它是 一种具有多种节点类型或多种边类型的图数据结构[1],用于刻画复杂异质对象及其交互,具有丰富的语义信息,为图数据挖掘提供了一种有效的建模工具和分析方法[2]。同时,异质图数据也是一种广泛存在的数据类型,例如知识图谱,社交网络数据。


背景:

现实生活中形形色色的系统,通常由大量类型各异、彼此交互的组件构成,例如生物、社交和计算机系统等。在这些系统中相互作用的组件可以抽象为图结构。因此,图数据分析引起了学术界和工业界研究者的广泛关注。为更好地进行分析,大多数工作将图数据建模成同质图,即图中仅包含相同类型的对象和链接,例如作者合作网和朋友圈等[3]。同质图建模方法往往只建模了实际交互系统中的部分信息,或者没有区分对象及其之间关系的异质性,从而造成不可逆的信息损失。近年来,更多的研究者将多类型且互连的图数据建模为异质图,实现对现实世界更完整自然的抽象。如图1(a)所示,文献数据中包含作者、论文、会议等不同类型的对象,这些对象间存在多种类型的关系:作者和论文间的撰写/被撰写关系、会议和论文间的出版/被出版关系等。利用异质图建模这种类型丰富且交互复杂的数据,可以保留更全面的语义及结构信息。


640 (1)

图1 从文献数据构建的异质图及其网络模式和元路径。异质图包含三种类型的对象:论文(P),作者(A)和会议(C)。边的类型在图上用不同颜色表示,由两种对象类型间的关系定义。


基本概念与分析方法:

为更好地理解异质图中复杂的对象和关系类型,网络模式[4]的概念被提出,从而在元层次(即模式层次)上对异质图进行描述。一个异质图的网络模式是定义在其对象类型集合上的有向图,并以其上的关系类型为边。图1(a)的网络模式如图1(b)所示。进一步地,元路径[5]是定义在网络模式上的路径,是链接两个节点的关系序列。不同元路径可以蕴含不同的关系语义,可用于从异质图中抽取不同的关系子图。例如,图1(a)中作者与作者之间可以定义图1(c)中所示的两条不同的元路径。第一条元路径APA表示作者合作关系;而第二条元路径APCPA表示作者的论文发表在相同的会议关系。


基于元路径的数据挖掘:

异质图建模的优势在于可以整合更多信息,但同时也会形成新的难点——如何有效地利用异质信息并探索丰富语义。作为语义挖掘的有效工具,元路径可以指定对象连接序列并捕捉关系语义,因此广泛应用于异质图分析中的各类数据挖掘问题。如PathSim[5]方法考虑了不同元路径所包含的语义来评估对象间的相似性;PathPredict[6]方法利用元路径提取特征并训练逻辑回归模型进行共同作者预测等。


异质图表示学习:

异质图表示学习是将图节点映射到低维向量空间中,用一组低维稠密向量来表示,从而更高效灵活地应用于不同数据挖掘任务中。可根据模型是否使用了非线性激活和多层变换,将其分为浅层模型和深层模型两类。浅层模型一般优化目标函数学习节点表示以保存图结构信息。例如,HeRec[7]利用元路径抽取异质图中的多个同质图,对这些同质图进行表示学习并融合; Metapath2vec[8]基于 元路径的随机游走抽取节点结构信息,并利用 skip-gram 算法学习节点表示。深层模型一般利用神经网络从节点的属性和节点间的交互来学习节点的表示。例如,HAN[9]提出了基于层次注意力机制的异质图神经网络模型。


应用:

异质图可以表示真实系统中的复杂交互,在各个领域中有着广泛的应用。例如,在电子商务领域的推荐任务[10]中,可以利用用户与商品、店铺和朋友等存在的大量交互建模而成的异质图,更精确地形成用户画像来提升推荐性能。在网络安全领域的恶意软件检测[11]中,将 Android 应用程序、相关 API 及其丰富关系建模为异质图,使得黑客即便使用了代码混淆等技术也无所遁形。在生物医学领域的分子交互预测[12]中,可使用异质网络建模 lncRNA-蛋白质网络,计算lncRNA-蛋白质对的相关性评分来推断其相互作用。


参考文献:

[1]Chuan Shi, Philip S. Yu. Heterogeneous Information Network Analysis and Applications. Springer. ISBN 978-3-319-56211-7. 2017.
[2]石川, 王睿嘉, 王啸. 异质信息网络分析与应用综述[J]. 软件学报, 2021, 33(2): 598-621.
[3]Sun Y, Han J. Mining heterogeneous information networks: a structural analysis approach. Acm Sigkdd Explorations Newsletter, Yizhou Sun, Jiawei Han: Mining heterogeneous information networks: a structural analysis approach. SIGKDD Explor. 14(2): 20-28 (2012)
[4]Yizhou Sun, Yintao Yu, Jiawei Han: Ranking-based clustering of heterogeneous information networks with star network schema. KDD 2009: 797-806
[5]Yizhou Sun, Jiawei Han, Xifeng Yan, Philip S. Yu, Tianyi Wu: PathSim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks. Proc. VLDB Endow. 4(11): 992-1003 (2011)
[6]Yizhou Sun, Jiawei Han, Charu C. Aggarwal, Nitesh V. Chawla: When will it happen?: rela-tionship prediction in heterogeneous information networks. WSDM 2012: 663-672
[7]Chuan Shi, Binbin Hu, Wayne Xin Zhao, Philip S. Yu: Heterogeneous Information Network Embedding for Recommendation. IEEE Trans. Knowl. Data Eng. 31(2): 357-370 (2019)
[8]Yuxiao Dong, Nitesh V. Chawla, Ananthram Swami: metapath2vec: Scalable Representation Learning for Heterogeneous Networks. KDD 2017: 135-144
[9]Xiao Wang, Houye Ji, Chuan Shi, Bai Wang, Yanfang Ye, Peng Cui, Philip S. Yu: Hetero-geneous Graph Attention Network. WWW 2019: 2022-2032
[10]Shaohua Fan, Junxiong Zhu, Xiaotian Han, Chuan Shi, Linmei Hu, Biyu Ma, Yongliang Li: Metapath-guided Heterogeneous Graph Neural Network for Intent Recommendation. KDD 2019: 2478-2486
[11]Shifu Hou, Yanfang Ye, Yangqiu Song, Melih Abdulhayoglu: HinDroid: An Intelligent An-droid Malware Detection System Based on Structured Heterogeneous Information Network. KDD 2017: 1507-1515
[12]Yun Xiao, Jingpu Zhang, Lei Deng: Prediction of lncRNA-protein interactions using HeteSim scores based on heterogeneous networks. Scientific reports, 7(1), 1-12 (2017)

微信截图_20230410120228

术语工委及术语平台介绍:

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词,并在CCF平台上宣传推广。这对厘清学科体系,开展科学研究,并将科学和知识在全社会广泛传播,都具有十分重要的意义。

术语众包平台CCFpedia的建设和持续优化,可以有效推进中国计算机术语的收集、审定、规范和传播工作,同时又能起到各领域规范化标准定制的推广作用。

新版的CCFpedia计算机术语平台( http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合,摒弃老版中跨平台操作的繁琐步骤,在界面可观性上进行了升级,让用户能够简单方便地查阅术语信息。同时,新版平台中引入知识图谱的方式对所有术语数据进行组织,通过图谱多层关联的形式升级了术语浏览的应用形态。

微信截图_20230410120350



计算机术语审定工作委员会:


主任:

刘挺(哈尔滨工业大学)


副主任:

王昊奋(同济大学)

李国良(清华大学)


主任助理:

李一斌(上海海乂知信息科技有限公司)


执行委员:

丁军(上海海乂知信息科技有限公司)

林俊宇(中国科学院信息工程研究所)

兰艳艳(清华大学)

张伟男(哈尔滨工业大学)

640 (1)