联邦学习新突破！蓝象智联推出图联邦技术_数据

相关文章推荐

暗恋学妹的黑框眼镜 · 不能删除该数据库消息 3609，级别 ...· 2 月前 ·

高兴的眼镜 · momentjs ...· 3 月前 ·

开心的山羊 · 在 SSM ...· 1 年前 ·

活泼的高山 · Polly.Contrib.WaitAndR ...· 1 年前 ·

重情义的槟榔 · lda - 知乎· 1 年前 ·

8月21日，数据与隐私保护的联邦学习与迁移学习国际研讨会（FTL-IJCAI’21）在加拿大蒙特利尔举行，蓝象智联发表的论文《Decentralized Federated Graph Neural Networks》入选。论文中，蓝象智联介绍了一款全新的图联邦技术，该技术能实现图联邦计算100%去中心化，精度和时间均达到工业级应用要求。这也是国内公司首次在国际顶会上发布相关领域的研究。

“国际人工智能联合会（简称IJCAI）”是业内公认历史最悠久、最优秀的人工智能领域国际顶级学术会议。解决数据与隐私保护的联邦学习与迁移学习国际研讨会（FTL-IJCAI’21）是今年大会重要研讨会之一。

利用该技术，蓝象智联将银行的资金网络和运营商的媒介网络打通，帮助银行在信用卡、普惠金融等场景的进件环节进行反欺诈拦截，识别上百个多头团伙、黑中介圈等团伙。在~1%极少量进件流量拦截的情况下，识别并拦截5倍+风险lift客群。

一图联邦：图神经网络与联邦学习的交叉领域

图神经网络（Graph Neural Network），相比于传统机器学习算法，在复杂图结构数据上有着不可比拟的优势，能够更好的提取数据之间的特征。在反欺诈、社交网络推荐，用户推荐系统等这种复杂图结构数据场景下的应用有着明显优势，近些年来图神经网络技术正在如火如荼的发展。数据，作为机器学习的“燃料”，数据的好坏、多寡直接决定着模型训练的效果。在交流日益紧密的现在，一方面单一企业很难获得模型训练所需要的大量数据，另一方面，因为用户隐私，法律限制、商业竞争等问题，数据流通困难，“数据孤岛“现象普遍存在，催生出联邦学习这一技术，旨在于实现在保护用户隐私跟公司数据的前提下，更好的发挥数据作为机器学习“燃料”的重要作用。图联邦网络作为两者的交叉学科，也有着广泛的应用前景。当前，图神经网络跟联邦学习都是时下最前沿的风口，如何将这两者结合，更好的推动社会生产力的发展和保障人民财产安全，成为了当下的热点问题。

二图联邦的研究背景

跨域的图神经网络技术已经在如金融犯罪（诈骗、偷盗、洗钱等）监控、药物发现等领域尝试应用。对于跨国金融犯罪行为，如跨国诈骗、洗钱，利用多个银行进行交易，单一银行，单一国家或地区的数据往往发现不了这些犯罪行为。在生物制药领域，如药物发现，各医疗机构，研究中心的数据往往会对彼此有着很大作用，由于用户隐私和竞争问题，这些数据往往不能互通互联。

部分企业和研究机构已经在图联邦领域做出了一些不错的尝试，如IBM[1]针对于反洗钱监测问题，联合多家银行进行图神经网络建模，利用各家银行的转账交易数据、不同银行之间的跨行交易数据进行全局图的构建，相比于单个银行建模反洗钱可疑账户的识别准确率提高了20%。杜克大学[2]瞄准了具有广泛应用前景的图的半监督节点分类问题，提出了GraphFL框架，解决了图神经网络中未做标签的节点的建模问题，大大提升了节点分类问题的数据量。蚂蚁金服[3]则是提出了ASFGNN的联邦学习新范式。过去这几年，推荐系统由早期的协同过滤算法发展到MF模型、再到之后的Wide&Deep，以及基于Network Embedding的方法，可以明显地看到基于神经网络的方法正在逐渐占据主要位置，而GNN的出现，大大加速了这个技术趋势。针对于用户-物品推荐系统，山东大学[4]提出了一种基于GNN的联邦隐私保护框架，在保护用户隐私的前提下，利用用户高阶交互信息，在去中心化的用户数据上集合训练GNN模型。

不足的是，目前图联邦领域的工作主要集中于图层面的联合建模，即不同机构先进行本地建模，构建局部的子图，然后将模型上传到“可信”第三方进行聚合和全局模型的更新。而在全局去中心化的图建模上，一直未能有从理论到实践的突破。

三图联邦技术在工业落地的先行者--蓝象智联

该框架摒弃了业界常用的FedAvg的聚合方法，改用去中心化的通信拓扑结构，并针对上述通信拓扑结构采用最新的安全聚合协议来保护客户端的模型信息。FedAvg要求各客户端上传本地模型至”可信“的第三方节点，这在实际业务往往是不现实的，一是完全中立的”可信“的第三方很难确保，二是中心节点需要跟所有节点通信，通信十分拥挤，性能很难保障。D-FedGNN则只需要各客户端将本地模型发送给邻居节点，同时接受来自于邻居节点的模型信息进行本地模型更新，充分利用节点与节点之间的带宽，大大减少了多方建模时的通信时间。针对于去中心化拓扑结构，对最新的安全聚合协议做适配，防止模型聚合阶段可能的模型泄露。

蓝象智联专注于提供金融级隐私计算技术及产品。公司践行“让数据价值安全高效流动”的公司使命，构建数据价值交换的彩虹桥，实现数据价值的发现、数据价值的匹配与交易、数据价值的安全高效交换和数据价值的再创造，推动数据要素市场健康稳定高速发展。蓝象智联致力于打造一个集数据探查、联邦学习算法、隐私计算算子、图联邦应用于一体的隐私计算平台。

蓝象智联将该项技术在自研GAIA隐私计算平台上落地，服务于银行、保险、运营商等行业的营销和风控场景，尤其在需要跨域进行图结构数据的联合建模场景下，可以实现完全去中心化的联邦建模。该项技术在确保无中心化节点进行图联邦建模的基础上，收敛性和训练时长也能够满足具体场景的业务需求，有效推动了跨域图数据的联邦建模。

四图联邦技术前景和未来展望

近年来，图神经网络与联邦学习已成为了AI界的两颗炙手可热的新星，图神经网络突破了传统神经网络算法对于数据之间的关系的束缚，而联邦学习技术打破了“数据孤岛”的限制。两种技术都有着巨大的发展前景，而图联邦作为这两者的交叉领域，毫无疑问存在着巨大的发展潜力。同时随着《数据安全法》和《个人信息保护法》等多部法律法规的颁布，去中心化的图联邦技术将成为助力大数据时代兼顾数据安全隐私保护和数据价值流通需要的数据价值创造的利器。

作为一门新技术，图联邦还有许多亟待解决的问题，如在反洗钱监控场景下，大量的正常用户行为与少量异常账户行为混合，如何去有效的识别金融犯罪行为。图神经网络相比于传统神经网络，数据量更大，计算量高，而联邦学习中隐私计算引入的计算的增加，两者都增加了图联邦技术的工业落地难度。图联邦技术要真正在工业界大规模落地，底层系统架构方面仍需做大量工作。业界期待着一个更为开放、高性能，且支持超大规模分布式图网络计算的主流平台的出现。 返回搜狐，查看更多

责任编辑：