编者按:本文来自WebX实验室Daily,Odaily星球日报经授权转载。上个月,全球知名的信息技术研究和顾问公司Gartner发布了2021年需要重点关注的战略性科技趋势。其中隐私计算这项技术被单独拿出来作为一个大主题,要知道去年Gartner的报告里,隐私计算只能作为一小项出现。这些足以表明“隐私计算”的身价在当下两年内必定会水涨船高。
隐私计算的最终目标不在于隐私
为什么这几年开始隐私计算被提到的次数和权重越来越高?回想一下,以前一提到隐私讲的更多是数据安全问题,针对的对象都是黑客入侵,因为现在“敌人”变了,对立者是用户和企业之间。企业从消费者数据中获取收益的争议越来越多,更多消费者逐步意识到个人数据中蕴藏的价值,人们越来越希望控制自己的数据资产。也使得政府对个人数据的监管力度有所提升,最终令各类组织承担起越来越高的个人数据保护与管理压力。而在用户自身也很矛盾,有一句话可以形容这种尴尬:“中国的用户愿意牺牲隐私来获取更高的便利性”。我们都知道3G/4G网络,以及互联网、大数据的发展带来了很多用户体验上的优化,例如我们可以精准获取想看的内容、想买的商品信息以及打到离自己最近且最顺路的车。但这些也确实伤害了隐私。一方面用户希望继续享有这种便利,另一方面又不希望企业过多掌控隐私,表面上这形成了一个无解的局面。以上这些现象,隐私数据的保护是一个最直接的出发点。但这不能完全代表整个隐私计算的概念。首先企业和机构在隐私方面的动机和需求是不一样的,消费者可能仅仅希望保护他们的身份、信用卡信息或其他敏感数据,以防止欺诈或身份盗窃。但企业还要依赖于这些隐私数据给业务带来更多的增长机会,同时也要承担在隐私数据使用的整个过程中,这些用户信息或者企业敏感信息保护的压力。因此我们在看隐私计算时,一是隐私,然后是计算,最终的目标是在维护用户数据主权的同时让数据在计算之后产生价值,因此隐私计算不单单是数据的静态保护,而是一个过程的保护。Web2.0向Web3.0迁移的绝对前提
数据就是资产,这已经成为Web2.0向Web3.0转变的关键特征。用户在确立了对自身数据的主权后就会产生另外一个问题,数据很好地牢牢地握在用户手里,这时候数据是不具备任何价值的,只有它流通了并且经过算法、算力的处理后才会产生一定的价值。但问题就在于,我把数据交出去之后,会不会损害到我的数据主权?企业会不会拿着我的数据去做一些用户授权范围以外的事情?没有一个稳妥解决方案,企业很难让用户相信自己。那么最终的局面就是,用户手里拿着自身并不具备价值的数据,企业也无法获得大量优质的数据源来使其产生商业价值。这就是隐私计算所要解决的问题。为什么说隐私计算是Web2.0向Web3.0迁移的绝对前提?我们又如何精准地切入到这条风口赛道机会点?我们需要更加全面地了解隐私计算技术。隐私计算的标准定义是:“一组互不信任的参与方之间,在保护隐私信息以及没有可信第三方的前提下的协同计算问题”。我们通过著名的“百万富翁”假设就可以很好地理解,两个富翁希望比一下谁更有钱,这是我们要解决的问题,最直接的办法就是看谁拥有的财富数值大,但是这个时候双方都不想透露自己具体有多少钱,这个资产数相当于我们手里的个人数据。那么我们可以设计一个算法或者装置,两个富翁在各自看不见的地方往那个算法或者装置里输入具体的财富数额,那个封闭的算法或者装置就会输出谁更有钱的结果,整个过程中谁也不知道他们到底有多少钱。那么这个过程或者说算法和装置就是隐私计算。隐私计算涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,也就是说从数据产生开始,除了数据的所有者之外,谁都不知道数据具体是什么,其他人可以在所有者的授权下使用这些数据,但是又看不到具体的信息。这就很好地解决了前面的矛盾,因为企业可能也并不需要知道你具体的信息,他们真正需要的是数据经过处理计算后产生的价值。不仅如此,在现实市场里面,每一家掌握的数据多少、维度都不一样,例如腾讯掌控了国人的社交习惯数据,淘宝拥有大量的用户购物行为数据,任何片面的数据都不能全面精准地勾画出目标对象的全部特征。数据流动是数字经济时代企业的刚性需求,越来越多的企业或组织需要与产业链上下游业务伙伴在数据流通和交易领域进行深度合作。因为只有通过各方数据协同计算,才能更好地释放数据更大的价值,提升生产效率,推进产业创新。数据共享和流通将成为刚性业务需求。但出于数据权属、数据泄露及自身商业利益等诸多因素考虑,手握大量数据的企业或组织对于开放自己的内部数据尤其是核心数据保持极其谨慎的态度,这就是企业与企业之间的“百万富翁问题”。举个例子,某家电商想用用户数据做一个推荐算法,又没办法拿到淘宝或者京东的用户数据。直接买,又担心有人刷单薅羊毛。但是如果接入了区块链。那我可以只卖出我的淘宝购物数据和京东购物数据,而不提供出我的快递地址,姓名,支付宝号等。因为都记在区块链上,我既没法办法把相同数据卖给这家电商两次,又没法卖给电商假数据。作为回报,店家给我支付酬劳,并且获得了真正的数据来帮助他自己完善算法,一举两得。隐私计算在可以在确保保密性或隐私的同时,又保护正在使用的数据。而且前面也提到,Web3.0的核心特征之一是数据确权,那么只有在数据始终在所有者手中,并且一直得到保护才能说对其拥有完整的主权。因此从Web2.0时代平台控制下流量经济到Web3.0个体主导下的数据经济,隐私计算是转变的绝对关键。隐私计算的赛道体系
最近一两年我们可能一直零星地听到零知识证明、TEE、同态加密等这些概念,但是很难对隐私计算的整体概念有一个很清晰的认知。一般来说,隐私计算主要分为可信硬件和密码学两大方向。
可信硬件方向:TEE其中可信硬件指的是,在一个硬件中建立一个我们可以相信的安全区域,然后把所有的数据处理计算都放在这个封闭的安全区域内进行,但是安全性都需要完全依赖于硬件以及硬件安全环境的建设者。一般是Intel或者其他芯片的制造商。。其中最具有代表性的就是TEE,其他例如“中立国”、“安全沙箱”等技术都是基于这个思路。可信硬件的优势在于通用性高,它可以处理几乎所有类型的隐私计算任务,并且开发难度低,性能也更高。但其最大的问题在于,把安全性押在一个厂商身上,等于把后门完全留给了可信硬件的提供方和设计者。在外界看来这其中隐含了巨大的风险。因此可信硬件方案更多地会被用在那些并不追求极致的安全性,更加要求速度和体验的场景中。密码学方向:多方安全计算多方安全计算也就是常见到的MPC,是指在没有可信第三方托管的情况下,多方共同通过一个特定的函数,安全地完成一次协同计算,每个人都是秘密输入自己的数据,然后大家只能得到这个函数最后计算出来的结果。
多方安全计算是历史最为悠久,并且技术底蕴最为深厚的方向,其他所有涉及隐私计算的技术或者解决方案多多少少都会采用多方安全计算的一些技术。并且多方安全计算也是几年来和区块链结合的最为紧密的技术方向,区块链可以通过采用MPC技术来提升自身的数据保密的能力,以适应更多的应用场景。MPC可以借助区块链技术实现冗余计算,从而获得可验证的特性。Blockchain+MPC在近期的发展极快,也非常具有想象空间。多方安全计算算是一种协议或者说技术集合,像我们常听到的零知识证明、同态加密、不经意传输、混淆电路都属于多方安全计算的工具。多方安全计算由于其通用性相对较低、性能处于中等水平,因此往往会用于一些特定的场景,例如大型机构和企业之间做一些联合数据分析,另外还可以用于银行之间黑名单去重等等。但近年来性能提升迅速,安全多方计算的应用范围和价值都在急剧提升。混淆电路和不经意传输是主流的多方安全计算框架的核心技术:计算过程中,逻辑或者函数会转换为电路,数据会沿着这套电路被加密以及计算,这个加密电路和相关的信息会发送给其他参与者。然后接收方借助不经意传输来选取标签,然后对这个加密电路进行解密来获取计算结果。这其中的混淆电路指的是,所有计算逻辑和问题都可以转换成不同的电路,比如我想求和,那就是加法电路,然后混淆电路通过加密和扰乱这些电路的值来掩盖关键信息。这样整个过程中既没有任何一个人能看到实际的有效信息,同时也完成了电路所要求的任务。不经意传输的意思是A发送了一个信息给接收者B,发送者A是不知道B是否收到了信息的。再就是最近几年的明星技术零知识证明。零知识证明的原理是,A和B被一道门隔开,B需要向A证明我是有开门的钥匙的,那怎么让门对面的A相信B有钥匙这个事实呢?只要让A看到B是打开门从中间扇锁着的门走过来的就可以了。这样A便可以相信B持有门的钥匙这一事实。零知识证明指的是一方向另一方陈述一件事是正确的,而不透露出该陈述之外的任何信息。证明者不直接告诉你答案,而是采用另一种表达方式来让向你证明,直到你认为对方确实知道答案为止。零知识证明技术往下细分也有很多的种类,比如Zcash使用的zk-SNARKs和VitalikButerin经常提到的zk-STARKs。
零知识证明(Zeroknowledgeproofs)目前被公认是“最完美”的解决方案,尽管技术实现难度最高,但在保护在以太坊网络的隐私性和安全性上,其效果最佳。最后就是秘密共享和同态加密这两个基础型的应用技术。秘密共享通过把秘密进行分割,并把秘密在n个参与者中分享,使得只有多于特定t个参与者合作才可以计算出或是恢复秘密,而少于t个参与者则不可以得到有关秘密。同态加密原理则是加信息加密后发送给对方,区别于一般加密的点在于,同态加密可以在解密时就完成既定的计算任务。分布式计算环境下的密文数据计算方面具有比较广泛的应用领域,比如安全云计算与委托计算、多方保密计算、匿名投票、文件存储与密文检索等。而在区块链上,使用同态加密技术,智能合约也可以处理密文,而无法获知真实数据,能极大的提高隐私安全性。而像联邦计算、差分隐私是近两年来比较新兴的解决方案,在这里我们就不一一赘述了。总的来说隐私计算的热度近几年才刚刚兴起,但是其背后,人类对于加密和隐私保护的追求从来没有停止过,隐私计算是静态的数据安全基础上迎合当下市场新需求的结果。而随着大数据产业的持续发展和数据安全共享需求的日益严重,隐私计算技术的落地场景会越来越多。当前隐私计算的主要应用领域还是在金融行业,多家金融机构在不泄露客户信息的情况下综合各种数据去完成对客户或者某些投资的风险测绘,从而达成风险控制的目的。而像医疗卫生这类敏感性的商业场景也是重要方向之一,例如此前颇受争议的健康码管控可能涉及隐私泄露的争议。类似这样的矛盾会在Web3.0到来时被全面激化,这时候隐私计算就是关键中的关键。
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。