AI作为一种通用技术,在各个领域赋予了我们生活极大的便利。进入元宇宙,数据的开放共享必成为一种趋势,在数据生产力的时代中,数据价值创造的效率提升将带来质的突破。AI技术带来巨大机遇和效益的同时,也面临着数据孤岛和数据隐私泄露的问题。
首先,数据和AI是一种共生的发展模式。我们收集数据,然后通过AI对其进一步解释和细化数据,数据需要精心管理、高质量且易于获取,成功做到这几点并不是非常容易的。
对于收集用户数据,必须保持公开、透明的原则。毫无疑问,在这种情况下,数据孤岛会逐渐显现。AI作为一项企业技术,构建能够打破数据孤岛并使信息可操作的IT基础设施,同时确保安全性,这已经是企业面临的主要挑战。
同时由于竞争关系、安全问题、审批流程等因素,数据之间的流通存在着难以打破的壁垒,事情就变得更具挑战性了,在5G时代更是如此。
而在数据的世界里,最了解你的是你常用的软件和平台,将这些大大小小的信息整合,就是一个完整、精确的数据画像。这些数据一旦泄露,将使你完全暴露在数据的世界中,被陌生人窥视,甚至被用于非法商业交易。
如今AI的工作优化模式是基于数据的,也就是所谓的数据驱动。随着AI落地场景越来越丰富,社会对于数据隐私的关注也越来越重。同时市场数据AI的商业化应用,让人们在享受便利的同时也在承担着数据泄露的风险。
如今,数据孤岛、数据隐私已是传统行业应用AI技术所面临的共性问题。在这种情况下,有人就提出了联邦迁移学习的方法来解决问题。
什么是联邦学习?
联邦学习实际上是一种加密的分布式机器学习技术,参与各方可以在不披露底层数据和其加密形态的前提下共建模型。
联邦学习旨在实现企业的私有数据不出本地,通过加密机制下的参数交换,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。
用更通俗的语言来讲,各个企业的数据之前就像不同的小国家,它们自成体系,无法很好地完成统一建模。联邦学习则将它们管辖在一个大国家之下,将不同的企业看作是这个国家里的“州”,就算彼此之前不互通数据,它们之间都可以获得模型效果的提升。
联邦学习有三大构成要素:数据源、联邦学习系统、用户,并且具有数据隔离,保证模型无损,公平合作,保持独立四大显著优势。由于数据本身不移动,因此也不会涉及数据合规和泄露问题。
完成的模型将在各自的领域为本地的目标服务,在这样一个机制下,参与各方的身份和地位相同,成功实现了“共同富裕”的目标。
我们知道,推荐系统中算法的目标是挖掘用户和内容、商品之间的联系,根据不同特点,联邦学习可总结成三类:横向联邦学习、纵向联邦学习和迁移联邦学习。
在横向联邦学习中,主要用于解决参与方拥有大量相同的商品或服务,但用户群体不同时的系统协作问题。
纵向联邦学习是在参与方数据集的用户重叠较多而用户特征重叠较少的情况下,把数据集纵向切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。
而迁移联邦学习指在两个数据集的用户与用户特征重叠都较少的情况下,利用迁移学习来克服数据不足的情况。
联邦学习有哪些应用场景?
联邦学习技术能够实现多个机构间构建统一的数据安全、高效、合规的多源数据应用生态系统,实现跨机构的数据共享融合,具备隐私保护、打破数据孤岛等优势,因此该技术逐渐成为了互联网巨头、金融机构以及人工智能企业等的关键技术支撑。
而随着隐私计算技术的成熟,联邦学习的商业化落地正在引来爆发,其在医疗、金融、政务等领域的应用也日渐丰富,为行业发展创造出更大的价值。
金融
近年来,越来越多的金融机构相继开展联邦学习应用,主要集中在风控、营销以及反方面。金融行业需要各个行业维度的数据去覆盖各类业务产品与风控需求,而目前恶意欺诈、过度消费、重复授信等乱象层出不穷,传统的风控手段并不能满足复杂场景的应用需求。
尽管大数据的发展给予了风控手段有力的支持,但是数据的滥用又带来了数据隐私安全的问题,因此隐私计算便成为了这些问题的有效解决方案。
联邦学习技术能够保证在用户信息不泄露的前提下将更多维度、多元的数据纳入联合风控模型中,以构建更精准的风控模型。除此之外,隐私计算的技术在金融机构反侦测问题上同样有着较好的效果。
通过横向联邦学习,能够在不共享用户数据的前提下,联合大型金融机构或联合多家金融机构,可以共同建立横向联邦反模型,提高侦测能力。
医疗
现代医学研究主要依赖于大数据技术的支持,具有样本数量规模大、特征维度多、信息价值含量高的医疗领域数据,才能满足医疗数据分析结果的适用性和模型预测的准确性。
比如结构化电子病历、非结构化电子病历、基因数据和图像数据等,这些数据包括个人生物信息、药物使用情况、化验测试结果、门诊住院信息等。然而,这些数据涉及到个人隐私信息,要求在数据存储和数据使用方面能够保证保密性与敏感性。
因此联邦学习技术不仅能够满足在医学研究过程中用户隐私数据得以保护的条件,还能在医疗数据参与方在不共享原始数据的基础上,实现多方机构数据融合和机器学习联合建模,进而达到了数据价值共享的目标。
政务
数据作为数字经济发展的重要生产要素,一系列政策的颁布与执行,都对加快数据要素市场化流通、形成数据要素市场体系等提出要求。在政务领域,政务大数据、智慧城市、公共数据开放平台成为了推动数字经济发展的重要课题。
然而,政务大数据涉及税务、司法、交通、社保等多个方面,由于数据资产权利尚未获得有效的解决方案,导致政府部门共享数据意愿较低。除此之外,一些公共数据开放平台存在开放数据数量不多、质量不高、更新不及时等问题。
因此联邦学习相关技术呢能够与大数据开发组件集成,实现跨部门、与社会数据等安全共享。同时可以实现数据资源的定向使用,防止数据滥用所导致的隐私泄露问题。
联邦学习为何成为热门的新技术?
联邦学习为人工智能开了一扇窗
在隐私计算技术里,联邦学习算得上是发展最快、落地性最强的一个分支,而它的重要应用便是AI人工智能的机器学习。
为了更好地服务智能应用发展,人工智能技术正在不断演进。但若想要让人工智能真正做到接近人类的水平,需要海量且真实的数据支撑,对机器进行深层次训练,而数据安全、个人信息隐私等风险问题势必会成为影响人工智能赢得用户信任,从而实现大规模落地的重要因素。
然而事实上,人工智能市场一直由谷歌、微软、亚马逊等科技巨头主导,并且为了训练机器学习模型,传统机器学习通常采用集中式方法,需要将训练数据聚合在单台机器或数据中心中。而这种几近垄断化的机器学习方式可能会导致严重的数据安全问题。
尤其是对于手机用户而言,为了在这种集中式方法下训练或构建出更好的机器学习模型,手机用户必须通过将存储的个人数据发送到AI科技公司云端来交换所获得的个性化服务。但谁也无法保证,这些AI科技公司会不会未经用户允许而违法收集并利用用户的个人数据。
在这样的大环境下,可以实现数据保护以及数据边缘化的“联邦学习”应运而生。
与集中式训练方法相比,联邦学习在人工智能领域开辟了一个全新的研究领域,它使位于不同地理位置的移动设备能够协同学习、构建机器学习模型,同时保证用户的个人数据依旧保留在原始设备上。
在联邦学习的帮助下,机器学习能够获得更真实、有价值的用户数据,为用户提供更贴近需求的个性化服务,提升用户体验。但更重要的是,用户的个人数据不需要发送到云端集中处理,而是依旧保存在用户的移动设备中,保证用户数据不受侵害。
除此之外,联邦学习所实现的利用分布式计算资源来训练机器学习模型正在为AI人工智能开辟一种全新的计算范式。
随着手机等终端设备内部的计算资源变得越来越强大,特别是随着人工智能芯片组的出现,人工智能正在从云和数据中心转移到终端设备。考虑到全球有数十亿台移动设备,这些移动设备积累的计算资源远远超出了世界上最大的数据中心的能力范围。
从这个意义上说,联邦学习开辟了一种解决大规模人工智能的机器学习问题的新思维方式,成就了新的云计算范式。
联邦学习与区块链强强联合
2019年,人工智能发展迎来了春天,也是从那时开始,我们看到了去中心化人工智能市场的可能。
联邦学习对于人工智能的机器学习提出了重要的分布式概念,而区块链也是凭借透明化、分布式等优势获得了广泛关注和讨论。可以说,在分布式这点上,联邦学习与区块链有着异曲同工之妙,而融合发展似乎也是水到渠成的事情。
首先,联邦学习的应用不可能阻隔两个或多个机构共同协作,参与者间要有一定交流,并且参与方越多,越能体现数据结果的准确性。
而结合区块链技术,让更多数据上链,通过区块链的授权机制、身份管理等,将互不可信的用户作为参与方整合到一起,建立一个安全可信的合作机制,最后通过联邦学习模型,将计算的数据结果加密安全地传递出去。
并且,联邦学习的所有模型参数都可以存储在链上,区块链的不可篡改特性保证了模型参数的一致性与可靠性,也能保证模型数据同步与共享是安全、可信的。同时,区块链的经济模型也能帮助实现资源分配。
在模型训练完成后,可以根据训练过程中各参与者提供的训练数据数量和质量发放奖励资源,并将奖励资源写入区块链中,利用区块链的公开透明特性,引入更多的参与方加入、同时提升参与方的配合程度。
就上面列出的机会而言,联邦学习似乎是最能响应市场需求的应用,也是最贴近目前科技发展方向的一项热门的新技术。
不过,联邦学习目前依旧处于探索发展阶段,未来在技术升级及商业落地上还有很长的路要走,也许5年、也许10年,联邦学习仍面对着诸多可以改进的地方与挑战,但相信在这些改变来临之前,人们已经做好了迎接的准备。
联邦学习发展前景与趋势
根据信通院发布的《2020隐私保护计算技术研究报告》显示,2020年隐私计算平台和产品迎来了巨大的增长,而通过评测的联邦学习产品多达18款。
尽管国内2018年才兴起联邦学习,但从“隐私计算联盟”的成员单位来看,拥有联邦学习平台和产品的企业已经超过60多家,增幅喜人。
除了前文我们提到的联邦学习应用方向之外,广告领域在未来或许也会成为继续引领联邦学习发展的方向。我们知道,广告主和流量平台拥有各自的数据,但两者往往又不会交集,所以需要整合,而在此前提下,通过联邦学习可以很好地将广告主和流量平台的数据撮合在一起,从而实现最大效益化,这也是联邦学习应用的重要实践。
但这也引申出一些发展趋势,即联邦学习需要更好的安全监管,毕竟数据的融合可以让原本模糊的分析变得更加精准,这意味着能否既使用好数据,又能保护好原始数据,所以这也是为什么联邦学习常常会与其他隐私计算方式相结合,借助互相的优势达到数据使用的最好效果,或许这在未来一段时间会继续保持下去。
另外,由于不同联邦学习平台都有自己的一套规则,如果未来需要更大发展,还需要监管机构或者权威第三方介入,以建立比较主流的规则或者监管,以让联邦学习落到更多数据使用场景中。
总体来说,联邦学习作为隐私计算应用较广的一种方式,受到了前所未有的关注,但由于起步较晚,目前依然需要更多关注和组织互相协作起来,如此才能迎来大步前进。
本文为论道隐私计算团队原创,未经允许严禁转载,如需转载请联系我们。
来源:金色财经
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。