去搜搜
头像
数字隐私监管趋严,腾讯、阿里、华为都在搞这个技术
2020-03-04 16:57

数字隐私监管趋严,腾讯、阿里、华为都在搞这个技术

文章所属专栏 前沿技术情报所

2019年,一个段子让人印象深刻:2019 年捕获独角兽最多的机构,是红杉、阿里、腾讯和警方。


众所周知的是,管理部门去年发起了对违规爬虫业务的围剿,多家经营数据爬虫业务的公司被调查,涉及到摩羯科技、白骑士、天机数据、聚信立等多家公司,甚至有从业人员被判刑。


另外,去年 11 月开始,公安部加大 APP 违法违规采集个人信息的整治力度,下架整改 100架  APP,包括考拉海购、房天下、樊登读书、天津银行等知名 APP。在公安部组织的“净网2019”专项行动中,依法查处了违法违规采集个人信息的APP共683款。


以上信息无不显示,随意窃取用户隐私数据的时代已经彻底过去,机构想要获取数据挖掘价值,只能另想办法。


想跟拥有数据资产的机构合作,也会越来越难。大家对于数据资产越来越重视,谁也不愿意轻易把自己的数据共享出来。试想,阿里有用户的电商数据,腾讯有用户的社交数据,但两家可能共享数据资源来做一些研究吗?


数据隐私监管越来越严,各家机构对数据资产看得越来越紧,都是很正常的事。但客观来说对AI不是个好消息,可用数据越来越难找,AI有釜底抽薪的危险。

 

这时候,联邦学习(Federated Learning)作为一项兼顾隐私与数据计算的技术,正在派上用场。在保证数据不出库的基础上,可以融合政府部门、企业等数据源,对数据做建模。

 

创新工场创始人李开复曾表示,人们不应该只将人工智能带来的隐私问题视为一个监管问题,可尝试用以子之矛攻己之盾,用更好的技术解决技术带来的挑战,例如同态加密、联邦学习等技术。

 

可以预期的是,随着数据保护越来越严格,以及数据资产越来越有价值,联邦学习这种可以在数据不出本地的情况下进行建模、兼顾隐私保护与数据分析的AI技术,将有越来越多的应用空间。联邦学习的应用会是今年AI技术应用中比较确定的趋势


目前包括腾讯、阿里、华为、百度、京东、平安等大公司都在对联邦学习这项新技术进行研究与应用。比如华为消费者BG用联邦学习做多用户多设备协同训练,华为云也推出了NAIE联邦学习服务;平安用联邦学习做智能化的 KYC;百度大脑中提供了联邦学习工具组件PaddleFL;阿里达摩院在《2020十大科技趋势》中也指出,以联邦学习为代表的技术应用于安全AI,可以解决行业大数据聚合过程中面临的挑战。

 

大机构都已经参与进来。然而联邦学习对于大部分人来说是比较神秘的,到底这项技术该怎么用,还有哪些问题待解决?

 

联邦学习让你得到一个加密的参数结果

 

两个看上去年纪相仿的人,都不想透露自己的真实年龄,但又想知道谁大谁小,能实现吗?当然可以,我们可以想到一些方法,取一个看上去与外貌比较接近的年龄值,比如30岁,让两个人说出自己的真实年龄比这个大还是小,如果发现一个大于30岁,一个小于30岁,问题就解决了。如果都比30岁大或者小,就再去取值,直到可以分辨出大小为止。

 

在这个过程中,两个人的数据没出本地,只是通过简单的算法,生成参数(比30大或者比30小),再进行对比分析,得出结论。联邦学习原理与之类似,当然也会复杂很多。

 

2016年,谷歌最先提出了联邦学习,初心是解决安卓终端在本地更新模型的问题,在保护终端用户数据的前提下,在多个节点进行机器学习的训练。其实不只是在用户终端这样的C端场景,企业之间也可以在数据不出本地的情况之下进行联合建模。在国内,微众银行是最先对联邦学习进行研究的机构之一,联邦学习这个词也是微众银行最早从国外翻译过来的。

 

传统的机器学习是对数据集进行分析、建模,而联邦学习是一个分布式机器学习,数据不出本地,大家进行联合建模。微众银行AI部门副总经理陈天健对虎嗅Pro表示,联邦学习过程中,数据仍然是存储在各方,互相不交换。不同主体在自己的服务器上建模,建模出来,形成一些加密参数,这些参数再进行一些建模。这一过程中没有交换原始数据,也没有交换原始数据的加密形式,交换的是模型本身参数的加密形式。

 

模型是由一堆参数构成的,建模的过程就是让这个参数从一开始随机的状态,然后把它变成一个收敛、有分辨力的状态。传统的方法是把数据放到一起来完成参数的修正过程,而联邦学习的方法是,参数的修正是分布式地分散在各方。协调这个参数修正的过程,就是通过加密参数的传递来实现。有了加密参数之后,再去迭代原有的模型,让模型更精准。

 

加密过程涉及到密码学知识。目前比较被大家所熟知的是同态加密,但不只是同态加密。陈天健表示,为了推广联邦学习,经常只是把它简化成说主要用同态加密,但其实同态加密、OT(Oblivious Transfer,不经意传输)、Secret Sharing(密钥分享)都会用到,有大量密码学的东西在里面

 

联邦学习的操作流程涉及到的加密、建模等过程比较复杂,微众银行的联邦学习工作流程展开的话,有100页左右的文档。

 

双方或者多方通过联邦学习技术进行建模,需要一些条件。


  • 首先双方有联合建模的意愿,各有自己的数据宝藏,达成合作。有了意向之后开启项目,双方要用一套共同一套开发软件,可以自己开发,也可以在开源基础上再进行二次开发。谷歌TensorFlow、国内的微众银行等都有联邦学习的通用算法框架。

  • 还要有一些大家共同遵守的开发文档,双方按照文档来执行,硬件上要解决带宽的问题。

  • 一些算法迭代次数比较多,就需要比较好的带宽,支持快速建模。

  • 有时候也涉及到第三方,做一些软件硬件技术支持。

 

金融领域目前是应用主力

 

技术往往比较枯燥,我们先来看看联邦学习在各行业的应用,看看这项技术到底能有什么用。

 

金融总是前沿技术领域的大客户,联邦学习也不例外,在金融领域的应用比较多。

 

微众银行已经在很多场景应用联邦学习。比如小微企业贷款,银行一般只有征信报告,以及国家政策允许获得的税务数据。但小微企业白户特别多,70%以上都是白户,没有任何征信记录和税务记录。发票作为一种新数据源,对于判断企业信用很有帮助。不过现在70%-80%的发票数据都是税控发票机登记的。这个数据比较敏感,不可能直接披露给银行,微众银行就把在保证原始数据不交换的情况下,将贷款客户信用数据与发票登记信息进行联合建模,优化风控模型,为小微企业进行信用风险评估,解决小微企业贷款难的问题,目前通过这种联合建模所支撑的企业贷款发放量已超过10亿。

 

在C端的金融服务方面,360金融在尝试应用联邦学习。该公司首席数据科学家沈赟对虎嗅Pro介绍,在手机端部署风控模型,实时进行计算,直接在手机端就可以做一些决策。手机端还会计算一些中间结果出来,不需要知道用户的原始信息。中间结果上传到云端,继续对风控模型进行迭代,提高风控模型的精准度。除了手机端,也和第三方数据供应商通过联邦学习做一些联合建模。

 

除了风控,联邦学习还可以帮助降低金融科技企业的获客成本。做小额信贷,当然可以在搜索引擎、应用商店等渠道做一些推广,但获得的用户,金融科技企业却不是全接,有些用户风险等级高,有些用户能承受的利率水平很低,有些用户借款金融过高或者过低,不是金融科技企业能服务的对象。这样,即使是经过广告投放获得的用户,也不是最终用户。所以金融业务的获客成本会比较高。这时候可以用联邦学习的手段做一些筛选。

 

陈天健对虎嗅Pro表示,上述问题其实是风险偏好匹配的问题,有很多后端的数据不能披露给前端,所以广告投放也很难优化。通过联邦学习技术,在不披露风险偏好的情况下,也可以在前端直接让我不想服务的客户或者我服务不了的客户看不到这个广告,针对目标客户的广告投放更精准,降低获客成本。

 

360金融也在流量前端做一些筛选,提供一些诸如用户最后真正地注册使用APP等标签数据,广告商也提供一些数据,双方用联邦学习的方式来做一些数据交互,降低流量成本。

 

联邦学习是一个泛行业的应用,并不只限于金融行业。陈天健对虎嗅Pro表示,比如在医疗、安防、零售都有在应用,甚至还包括机器人,微众银行在机器人上也在做一些应用。

 

总体来说,只要是可以用机器学习来改善业务的领域,都有可能需要联邦学习的支持。因为整合了各种孤岛数据,可以对模型的改善有帮助。对于数据的合规使用、隐私安全更加重视、监管比较严格的行业会先行推进,比如金融业、医疗行业有望先行推进,其他行业会根据自身的需要来应用这个技术。

 


举例来说,新闻APP、短视频APP的内容推荐系统也会应用到联邦学习,要做一个精准推荐需要用到很多数据,但在数据使用越来越规范的情况下,直接获得这些数据需要大量的用户授权。基于联邦学习的推荐,可以让用户授权加密使用在其他APP上的行为,在不暴露用户原始的用户画像和用户行为的基础之上,加密地使用他在其他APP上的行为。

 

智慧城市与安防领域,也可以应用到联邦学习。在安防方面,仅有道路卡口的摄像头拍摄并识别的图像,对于破案是远远不够的。如果涉事车辆离开了摄像头可以拍摄的范围,需要跟GPS定位数据甚至运营商数据、社交媒体数据结合起来建模才能将办案线索连成一条线。但数据呈现孤岛的状态,不同部门之间用联邦学习来处理隐私保护与数据分析的难题,是可选之路。

 

从横向、纵向联邦学习,到联邦迁移学习

 

有这么多应用,那么联邦学习到底是怎么操作的呢?

 

现在联邦学习主要有两种形式:一种是横向联邦建模,一种是纵向联邦建模。

 

如果两个主体之间有相同用户的不同类别、特征数据,可以进行纵向联合建模,比如你有用户的电商消费数据,我有用户的社交媒体数据,数据都只能描述用户的一部分特征,我们两方之间可以对齐这部分用户,联合建模,数据不出本地,可以融合对方数据中所体现的用户特征,使得用户画像更加精准。

 

如果你有一批用户的电商消费数据,我也有一批用户的电商消费数据,彼此之间的用户交集没有或者很少,就可以对齐这些特征,进行横向的联合建模,这样去提取用户使用特征,会有更多的发现,更加精准。

 

横向与纵向的联邦学习,目的不同,横向是为了增加样本量,从而让所要描述的特征有更多的数据支持。纵向是为了让所要研究的主体有更多维度、特征的信息,从而对这个主体认知更全面深刻。

 

不同的联邦学习,主要的应用方向不一样。陈天健表示,横向的联邦主要解决的问题是样本差异性,比如在医疗、保险领域适用横向联邦的情况较多,原因是它的样本差异性很大,不同医院的病人交集很小,不同保险公司的保险客户也差异很大,通过增加样本能够显著提高模型的性能。纵向的话,比如联邦推荐、营销类型、信贷风控领域会经常用,因为在这个领域当中,数据的维度增加可以显著提高模型的分辨力和性能。

 

两者之间的技术难度也不同,纵向联邦学习难度略高。沈赟表示,横向其实更像是一种分布式学习,加了一些加密技术在里面,比较容易办到,背后成熟的算法很多,无论从计算的层面,还是从算法复杂度层面,难度都更低一些。纵向要求高一些,受到的局限性更大,需要交互的次数更多。

 

此外还有一种更新的概念是联邦迁移学习,即双方的数据交叉点很小,你有A类用户的电商消费数据,我有B类用户的社交媒体数据,其中只有少数的交叉,用户与特征的重叠度小。陈天健表示,两方建模的时候,如果交集用户特别少,那么建出来的模型就会非常偏向于交集的部分,这个交集可能对于全集来说没有代表性。联邦迁移学习的任务是让双方的全集数据在加密的情况下,让非交集部分的数据可以用于联邦模型的参数修正,这样模型的代表性就会更强。

 


联邦迁移学习难度最高,相当于是要更快地把这个数据学习到的知识迁移到另外一个问题上面。陈天健表示,联邦迁移学习计算量和通讯量比纵向联邦学习还要再高上一个到两个量级,另外还有大量的工程问题需要解决。

 

但联邦迁移学习能解决的问题会更大。无论是用户可以对齐,还是特征可以对齐,其实在实际应用中都偏理想化。在未来的大量建模当中,数据交集很少的双方进行建模可能是常态。这时候就更需要联邦迁移学习。

 

陈天健认为,现在的横向和纵向应该是联邦迁移学习的一种特例,这种特化的好处是在工程上会有比较简单的解决方案,但从发展的角度来看,经过两代到三代的技术开发,可能最后会统一到联邦迁移学习框架里。也就是说,横向、纵向现在都是迁移学习的早期阶段。这就像火箭,人类早期从60年代到21世纪初,开发了几百种不同的火箭发动机用于不同的用途。SpaceX现在则用一种发动机打天下,技术达到一定程度的时候就可以实现通用化。只是目前的联邦学习还处于早期阶段,需要为不同的用途开发不同的框架和算法,但相信最后联邦学习算法应该会统一到联邦迁移学习框架。

 

联合建模,先建立一套利益机制、互信机制

 

上面所讲的各种联邦学习形式,前提都是建模的双方已经达成了合作的意愿,走到一起了。但其实能让两方或者多方坐到一块去进行联合的建模,还是需要解决双方的意愿与顾虑的问题。

 

大家一起进行联邦建模,首先会有一个问题,你的成本收益与我的成本收益对等吗?大公司跟一个创业公司联合建模,大公司数据量很大、数据更优质,创业公司的数据量小、价值一般,这时候需要有一个激励机制,才能保证联合建模的达成。

 

这里面的核心问题是数据价值的确定。有了数据价值的准确评估才好确定大家是否值得去合作,以及怎么去分配收益。很多数据领域的研究项目,就是因为数据价值无法确定而不欢而散。金融领域也是如此,很多持牌机构都希望能够一起把黑产挡在金融体系之外,但很多时候因为数据价值无法确定,大家没办法形成很好的激励机制,合作也就作罢。

   

这个问题可以通过技术的手段解决。陈天健介绍,联邦学习有一个特点,在建模的过程中,可以把各方的数据价值通过模型评估报告的形式确定下来,各方数据参与到建模中,到底为模型的性能贡献了多少,可以通过一些评测方法得到。基于这个评估报告,可以创建出一套价值创造分享的机制

 

在这样的机制下,给到联合建模各方的结果,不一定相同,按照贡献度来分配。陈天健介绍,这分横向联邦和纵向联邦两种场景。


横向联邦这个场景的模型参数空间应该都是完全一样的。在激励机制方面,微众银行支持一种方式,就是当你的贡献度高于一定程度的时候,你的参数是明文的。当你的贡献度低于一定值的时候,你得到的是加密模型。加密模型需要回到数据联盟的解密服务器把结果进行解密,因为加密模型是给本地预测,但是预测出来的结果是一个加密值,这个加密值需要送回联盟的解密服务器解密。这个可以防止在一个联邦当中,有人只贡献了很少的数据却把模型拿走。

 

纵向联邦的模型参数空间各方都是不一样的,各方得到的模型参数空间只和它所贡献的那部分数据的特征空间相关,如果你没有相关的数据就没有相关的参数,所以纵向联盟天然就有模型的知识产权保护的功能。

 

此外,还会遇到一个问题:双方进行联邦学习,但其中一方对于联邦学习不太了解,这种情况会比较常见,AI公司看上了传统企业积累的数据,但传统企业对联邦学习没概念。这时候还需要一套互信机制。

 

沈赟表示,做联邦学习,至少要部署一些软件在对方那里,他也不知道这个软件,不知道什么原理,不知道这个软件在干什么,他到底信不信你这个事情,这是一个问题。未来解决利益机制、互信机制,应该有行业标准出来,政府出台一个行业标准,大家都认可这样一个标准,这样未来推广起来就会顺畅很多,甚至可以由政府来建立搭建一些三方的公信力平台,各方在这个平台上面来做。这样联邦学习可以做的更好。否则双方前期的沟通成本非常高。

 

达成合作意愿后,大家可以用一些开发工具进行建模了。现在已经有一些联邦学习的开源工具,而在未来,在各大厂商推出的机器学习平台中,联邦学习有可能是标配,加速联邦学习的普及。星环科技AI产品首席产品官杨一帆表示,从长远看,联邦学习是值得积极看好的。正是有了隐私保护等诸多的问题,联邦学习才有广阔的前景。其势必成为机器学习平台的标配,并融合诸多机器学习算法、模型、解决方案形成一整套基础构建。

 

需要突破计算与通讯的瓶颈

 

联邦学习真正用起来,还会遇到一个问题:计算成本高。杨一帆表示,联邦学习原理上依赖于同态加密或差分隐私等研究成果,但是该领域的算法效率是个问题,走软硬一体的方案,目前时间和硬件成本也太高。

 

例如,A方有数据X,B方有数据Y,在联邦学习的机制下,A 方利用 B 方的 Y 数据计算 WOE 和 IV 值,且要保证 B 方没有泄漏任何数据。B 方可以对 y 以及 1-y 进行同态加密,然后给到 A 方,A 方会对自己的特征进行分箱处理,进而 A 方在分箱中进行密文求和的操作,再把结果给到 B 方进行解密,然后算出 A 方每个特征分箱的 WOE 值和 IV 值。

 

这比传统的机器学习方式,麻烦了许多,计算更多,数据的通信也更多了。

 

微众银行在这方面探索比较多,对计算成本有自己的看法。陈天健认为,通讯和计算效率对于联邦学习来说确实是个挑战。但挑战是阶段性的。

 

从通信的角度看,即便在今天,联邦学习所带来的带宽消耗确实是比较大的,但是以微众现在大数据中心、企业间合作这种场景来看,并没有体会到在生产应用上的明显不便。因为终端网络的拓宽,5G可能会导致干线网络也继续拓宽,基础设施拓宽了以后,价格就降下来了。通讯基础设施的升级很快,带宽在将来来看不是问题。

 

从计算角度来看,计算能力也在提升,微众银行在跟一些AI芯片厂商密切合作。

 

现在算力、通讯方面是否是很大的瓶颈?陈天健认为,这要分场景,从企业间合作,就是银行角度主推的B2B场景来看,现在从算力到网络已经充分支撑了。现在考虑的不是能不能做联邦学习,而是怎么让联邦学习对于企业来说更便宜。但在手机设备上的联邦学习,或者未来智能家庭AIoT这种场景的联邦学习确实还存在功耗的问题,要等芯片技术的进步才能解决。

 

他介绍,计算成本在迅速降低,2019年初相对于把数据汇集到本地的计算要慢1-2个数量级,大概是50倍左右。2019年末的时候已经把它改进到差距在20倍,估计到今年年中的时候,微众会把它缩到10倍以内。今年年末或明年年初的时候很有可能会在5倍以内。这是一系列的努力,包括软件架构上的、算法上的,芯片厂商也在不断尝试对联邦学习地进行支持。


计算成本递减,要靠基础设施的铺垫。另外也有一些机构在通过算法去降低计算量与通讯量。比如快手AI平台负责人刘霁曾表示,快手在应用联邦学习进行分布式计算时,通讯量太大导致并行效率低,快手设计了一套有损信息压缩通讯,这个信息压缩虽然是有损的,但可以保证在信息经过有损压缩后得到的结果是无损的,可以节省95%的计算量。

 

准确性与安全性的疑虑

 

另一大问题在于,相比于针对原始数据做AI分析,联邦学习这种针对加密参数做建模的形式,效果上会有不同吗?这里面有数据使用灵活性的问题。

 

沈赟表示,如果拿到更原始的数据,可以在上面做很多不同的变量延伸,比如通话记录,可以看用户不同时间段的呼入呼出时长,进行加工,从不同的维度切。联邦学习基本上模式就是定死的,没有办法拿原始数据上传上来,已经限定好某种模式之下做了,没法再去灵活地重新分析一下,或者换一个角度看一下是不是更好,这个灵活度没有了。所以说效果比拿到原始数据来的差。

 

沈赟表示,最后还会有一些安全性上的疑虑,最近有一些论文在挑战这个事情,即使是中间层一些结果,在某些条件下,还是可以反推出来数据。还需要再去做一些更深入地研究,看一下是不是通过一些其他方式可以规避这个事情。这到底到什么程度,什么方式去解决,现在学术还没有共识。只要用特定算法就有漏洞的,会不会有一些人把这个攻克出来,这一块还需要深入地做一些研究。


另外,未来联邦学习可能也需要经历一个被政府认可的过程。沈赟表示,联邦学习也要监管层能够接受才行,这是相对比较新的技术,需要尽量去说服监管认可这样一个技术。虽然数据不出本地,但还是需要在建模过程中,在手机端去碰到这个数据。完全不碰,什么也做不出来。联邦学习是碰到这个原始数据,但不会把原始数据上传到服务器端,而且不可以反推原始数据。要看一下监管层面是否认可,如果认可的话,可能后面推进速度就很快。你可以拿到一些相当于转化过后一些信息,总比你没有拿到任何的信息要好。

 

联邦学习上位已不远

 

尽管联邦学习还有上述不少问题需要去解决,但联邦学习的应用已经箭在弦上,一方面是数据与隐私监管情况让大家不得不去想办法解决问题,另一方面,联邦学习研究不断深入,应用也越来越广。还没接触联邦学习的AI从业者,该考虑一下联邦学习了。


现在联邦学习的研究已经非常多,应用案例也不少。下一步还有不少关键问题需要继续研究,比如怎么降低联邦学习的成本,怎么有更通用的开发平台来普及这项技术。但主基调是大家都在慢慢认可联邦学习的价值。平安银行 AI 算法负责人潘鹏举认为,2020 年金融科技行业中有 2 个大的技术趋势是 5G 技术的落地和联邦学习的应用。

 

以后数据保护肯定会越来越严,这对联邦学习是一个重要的推动力。沈赟表示,原来大家过的太舒服了,数据层面没有那么大的监管压力,国内用户相对比较宽容。现在随着国家包括用户对于数据隐私保护越来越重视,各个企业对于数据资产的重要性认识程度也在提高,大家可能更不愿意把这个数据拿出来共享。所以,联邦学习后面会是一个不得已而为之,又不能不做的一个事情

本内容未经允许禁止转载,如需授权请微信联系妙投小虎哥:miaotou515
如对本稿件有异议或投诉,请联系tougao@huxiu.com
评论
0/500 妙投用户社区交流公约
最新评论
这里空空如也,期待你的发声