数据要素市场化的“四梁八柱”正自上而下加速构建。2022年6月,中央深改委第二十六次会议审议通过《关于构建数据基础制度更好发挥数据要素作用的意见》,将数据基础制度建设提升至“事关国家发展和安全大局”的重要地位,并部署统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系。
在此之前,国家战略层面“构建以数据为关键要素的数字经济”的战略方向早已明确。地方一系列落地政策、标杆项目接连推出。相关法律法规及核心标准体系也不断完善。
隐私计算与数据流通究竟是什么关系?隐私计算的作用究竟有哪些?隐私计算如何更好地为数据交易保驾护航?以下是数牍科技高级总监李宗勇的一些思考。
李宗勇是北京航空航天大学工学博士,中国指挥与控制学会会员,以及安全应急共享知识专业委员会专家。曾担任多项千万级政务行业大型信息化项目负责人;主持4项省部级科研课题,获国防科学技术奖二等奖。
Q1:数据交易会不会交易用户的隐私?
A:
数据交易的肯定不是用户的隐私,由于数据是表征现实世界的客观事物的相关性质、状态和关系的符号,这个符号会承载人的隐私,这也是法律法规把隐私安全摆在很高位置上的原因,所以在数据交易过程中一定要合法合规。
《个人信息保护法》中明确,处理个人信息应当采取对个人权益影响最小的方式,并限于实现处理目的的最小范围,不得过度收集个人信息;处理个人信息应当具有明确、合理的目的,并应当与处理目的直接相关。个人信息的处理目的发生变更的,应当重新取得个人同意。
单独同意原则方面,《个人信息保护法》中提到, 个人信息处理者向其他个人信息处理者提供其处理的个人信息的,应当向个人告知接收方的名称或姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。
Q2:隐私计算在隐私保护技术的哪个环节起作用?
A:
隐私计算(privacy computing),严格来说应该是隐私保护计算,在保护隐私的同时进行计算。
隐私保护技术的范畴不仅是计算,从技术的角度看,数据的存储、传输以及数据的访问权限控制,加之计算这四大领域即为隐私保护技术所涵盖的范围。
隐私计算聚焦在隐私保护的计算环节,这是隐私计算的定位。进一步解释,隐私计算就是跨域数据融合流通过程中,需要在保护数据隐私的前提下,进行融合计算的技术统称。
其中有几个关键点:首先数据一定是要跨域的,这意味着数据一定是从属于多方,在不同的管理域。但由于数据的数字化形态,依托计算机和互联网在跨域的过程中存在被复制和传播的可能性,这样对于数据的归属方来说,就无法管控数据外部拷贝的使用,损害其数据所有权。
多方数据跨域融合的核心诉求是信任问题,因此需要
用技术去建立参与各方之间的信任基础
。
隐私计算就承担了这一角色
,基于技术能够构建各方之间的安全信任基础,能保证数据在融合计算过程中的安全。
Q3:隐私计算如何保护数据交易安全?
A:
数据最直接的是它的可见信息价值,但是其
更重要的计算价值是要通过融合计算才能体现的
。数据之间为什么可以融合计算?数据既然是一个符号就能表征某个维度,如果把这些不同维度的数据融合起来,在某一个应用领域去做建模计算,就可实现大数据的信息效用的协同和互补,会产生“1+1>2”的效果,这是信息增益效果。数据融合即是要获取到信息互补和协同的信息效用的增益,这部分增益会越来越大。
有关隐私计算如何保护数据交易安全,首先要明确这里的安全其实是指交易完成、后的数据使用安全。需要注意的是,“交易”是业务层面的词,数据的使用和数据的交易实际上是两件事,分处两个阶段。
简单说,如果要用数据,首先得先开发一个算法,然后双方签协议规定数据提供方有哪几方,算法是由谁提供,在哪算,算几次,算多长时间,收费方式如何,以此形成一个合同,多方签署之后交易其实就完成了。
但此时合同的执行才刚刚开始,在执行过程中隐私计算才会发生作用。具体来看就是在计算环节保护数据融合的安全。
目前隐私计算分三条技术路线:密文计算、明文增强计算和可信执行环境(TEE)
。
密文计算
是指把数据转化成密文,数据在此状态下进行计算最后得到的结果和明文计算的结果是一致的。优点在于:数据转化成密文之后,数据在跨域过程中一直都是密文状态,即便获取数据也仅仅是数据的密文碎片,没有办法被还原成明文;数据在密文下面计算能够得到的结果和明文是一致的,这就保证了数据的业务价值不出问题。这是经过相应的计算机密码学的理论证明的。
明文增强计算
是指数据在明文下计算,但是采用一些技术使其隐私暴露程度可控。
通常的办法有数据脱敏
(去标识化/将精准值改成分段值)、
联邦学习,这是隐私计算里非常重要的一个技术,这方面数牍科技是国内领先的。
联邦学习是由Google提出来的,能够解决海量数据的联合建模问题。因为海量数据都转化成密文融合计算所需的资源过大,所以需要把计算任务做拆解,能在本地算的就在本地算,需要两方数据去作融合的部分就采用密文计算,是明密文混合的计算模式。绝大部分的计算是在本地的机器学习训练,出来的中间结果或者计算梯度,以密文的方式去做融合,这样既保证了效率也确保了安全。
可信执行环境
实际上是依托计算机的CPU来构造一个安全的执行环境,可以将其理解为一个保险箱,把数据置于其中做融合计算。
Q4:隐私计算厂商如何撮合数据供需双方?
A:
首先需要
有平台
,平台需要基于隐私计算技术结合应用场景进行构建。数牍科技主要有两方面的核心技术,一方面是基于计算机密码学的密文计算,这一块用到的协议比如同态加密、多方安全计算、零知识证明、不经意传输等。另一方面是明文增强计算,主要是联邦学习。实际上现在隐私计算的三大技术路线中,主要聚焦在这两条。另外一条是可信执行环境。
以前人们理解隐私计算是一个纯技术的东西,所以各家厂商主要在做技术底座。技术底座说白了就类似于一个发动机,但是直接把发动机交给客户,客户不知道怎么把发动机装成一个汽车,所以需要找到应用场景,进行技术落地。
同时,由于这是一个多方参与的事情,有多个数据提供方、算法提供方、数据使用方,所以核心是要把多方数据融合产生的数据价值发掘出来。这就意味着数据提供方和数据使用方能找得到彼此,即将其撮合起来。我们现在已经有了自主研发的隐私计算平台,要把这样一个“发动机”往相应的应用领域去做延伸,比如数据可信流通、数据共享交换、数据开发利用等。
我们力图于打造一个相对通用的应用框架,能够适用于各种不同的应用场景
。
这实际上是一个服务问题。
数牍科技一方面具有撮合能力
。公司目前已经成为上数所、深数所以及重庆的西部数据交易中心、合肥大数据交易中心等机构的首批签约数商。这些数据交易机构都有大量的公共数据,希望数商帮它们找到使用方。
第二方面是建模能力
。因为从单一维度看数据承载的仅是单薄的信息价值。我们聚焦的是更进一步的计算价值,要通过建模来实现,针对特定的业务场景开发相应的算法,算法和数据融合在一起去做计算,最后的计算结果包含了相应的业务价值。
如何撮合供需双方?
一方面是让他们达到供需信息对称,另一方面是用算法去实实在在地针对高价值的业务场景进行相应的建模,出来算法之后得到一个有业务价值的计算结果。看到价值数据使用方才会去买单;有了商业价值,数据提供方才会有持续的意愿去提供数据,良性的生态才能够形成。
Q5:在供方提供数据和需方要求数据的时候,双方各自的关注点是什么?
A:数据提供方
关心的第一个问题就是安全与否。隐私计算其实保证的就是数据跨网跨域在流通融合过程中的隐私安全问题,安全是一个必要条件。要实现多方数据的融合,必须要确保安全,但是仅有安全却没有实现数据的价值,也是没有意义的。所以它是一个必要条件,不是一个充分条件。因此要在一些高价值的业务场景里去实现数据的价值,才能确保隐私计算是有用的。
实际上,要完成多方数据的融合,会涉及比如数据的传输、数据的存储还有数据的一些权限控制等。为形成一个业务闭环的产品或解决方案,我们同样要考虑数据传输的安全问题、数据存储的安全问题,以及权限控制和身份认证的安全问题。
通常,数据提供方不但提供数据承担风险,还要付出一些IT基础设施资源,比如一些算力,毕竟要布一个计算节点在它的环境里面。所以,我们要在这个场景之外对数据提供方进行补偿。通常来说,会有一些收费原则。这样才能对数据提供方形成激励,它才愿意去提供相应的数据。
数据使用方
关心的问题,首先一定是“有价值的场景”,而用算法把数据的价值挖掘出来需要一定的开发能力。其次是对数据质量的要求,数据使用方会考虑这些数据能不能在其特定场景里充分发挥作用,质量到底怎么样?
Q6:如何评估数据质量?
A:
质量包含两个层面。
第一个是格式是否统一、有无错误数据等
。这一部分的质量更多体现数据治理的程度如何。隐私计算要求参与进来的数据已经是治理好的,我们有这样的假定。因此要对两类数据做融合,就必须在数据治理时把两方的标准全部统一。
第二个是业务层面的质量
。业务上的质量,必须要用具体模型把数据跑出来以后再看结果。举例来说,基于联邦学习用两方的数据训练出来了一个信用风控的结果模型,如果测试准确率偏低,就说明数据的质量不理想。一般我们建模之前会做数据探查,即摸清数据在场景中到底能起到多大效用。
原网站版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://xie.infoq.cn/article/58921087fb56f85d349b74b96