科技改变生活 · 科技引领未来
人工智能时代 , 存在的最大问题是是鱼和熊掌不可兼得 , 也就是隐私性和可用性难以兼顾。如果你想要 AI 本身系统发挥作用 , 就可能要先牺牲隐私 , 但在大量的真实场景当中 , 如果不能同时兼顾到隐私性和可用性 , 会导致很多 AI 落地的困境。
比如举一个贷款风控的例子。如果用户想要去银行做贷款 , 先来到了银行 A, 银行 A 基于一些本地数据判断这个 A 是一个坏人 , 我们不可以给他贷款 , 这个人就到了银行 B, 但是银行 B 没有银行 A 的这些数据 , 所以银行 B 也许会把这笔贷款发放给用户本人。这些由数据不流通所导致的矛盾比比皆是。
为了解决这一问题 , 国内外不少科技公司先后推出了解决方案 , 比如谷歌推出的联邦学习、蚂蚁金服提出的共享智能等。
共享智能为什么能够获得产学研各界的广泛关注?
近年来 , 随着隐私保护越来越受重视 , 相关法规逐渐出台 , 互联网公司难以任意的获得数据 ; 但在另一方面 , 基于大数据的人工智能需要更多更完善的数据才能发挥更大的作用。就像上面所提到的例子一样 , 如何在保护隐私和数据安全的前提下 , 联合多方数据进行 AI 训练和分析 , 成为学术界和产业界的研发热点。
蚂蚁共享智能作为一个新兴的交叉学科 , 近些年获得了学术界、产业界以及研究机构的广泛关注。数据已经是一种生产要素 , 重要性不言而喻。数据不仅是各类大数据应用的基础 ; 数据的质量和数量也已经成为影响人工智能模型效果最重要的因素之一。当今各种应用产生并收集了大量的数据 , 同时也是使用数据的大户。随着 AI 模型能力和算力的提升 , 各种应用场景对各种异构、异源数据的使用效率也在飞速提升。
然而 , 数据的广泛使用在提升应用效果的同时也引发了我们对于数据安全性的担忧。这主要是归结于数据自身的两个很重要的特性 : 一个是可复制性 , 一个是可复用性。可复制是指 , 数据可以被完整的、极低成本的拷贝 ; 可复用性是指 , 某份数据可以被多个不同领域的场景复用 , 也可以在相对长的一个时间轴上被复用。
所以如果不同应用之间直接共享数据 , 那么可复制性和可复用性 , 一定会导致数据泄露的情况 , 也就是被留存二次使用 , 从而侵犯了商业利益。更为严重的是 , 如果是个人相关的数据 , 很多时候 , 数据的管理者和使用者并不是数据的所有者。一旦在数据共享的过程中 , 发生了数据泄露 , 被对方滥用 , 那数据的管理者不仅仅是商业利益受到侵犯 , 它很可能也没有尽到数据管理的责任。从欧盟的 GDPR 开始 , 到美国 CCPA, 到中国的数据安全法、网络安全法、个人信息保护法都对这种数据管理失责 , 和数据滥用 , 提出了严格的规范。所以各大数据方 , 出于保护商业利益、法律风险、舆论风险各方面考虑 , 都在收紧数据共享 , 从而形成了大数据孤岛。
蚂蚁共享智能就是为解决数据协作需求与隐私泄露和数据滥用之间矛盾的技术解决方案 , 不直接共享数据的情况下 , 连通大数据孤岛 , 实现多方数据可用不可得 , 也就是拿不走 , 看不见 , 但是用得好。
共享智能凭什么可以成为国际标准?
早在 2016 年 , 蚂蚁就开始致力于共享智能的技术研发 , 并在蚂蚁内部及合作伙伴方的智能信贷、智能风控等业务领域中率先应用。蚂蚁共享智能具有以下特点 :
(1)多种安全计算引擎整合 , 可基于不同业务场景来选择合适的安全技术。既有基于 TEE 的集中式解决方案 , 也有基于 MPC 的分布式解决方案 ; 既可满足数据水平切分的场景 , 也能解决数据垂直切分的诉求 ; 既可以做模型的训练预测 , 也可以做数据的探查和分析。
(2)支持基于 SQL 语法的数据分析、各种数据预处理算子和多种机器学习算法。支持的算法包括但不限于 LR,GBDT,Xgboost,DNN,CNN,RNN,GNN 等。
(3)大规模集群化。支持大规模集群化 , 提供金融级的高效、稳定、系统化的支撑。
值得一提的是 , 共享智能有四个基石性的研究方向 , 分别是多方安全计算 , 可信执行环境 , 差分隐私 , 以及联邦学习。
多方安全计算和可信执行环境侧重解决计算过程中的数据安全问题 , 差分隐私侧重保护计算结果里的隐私泄露 , 而联邦学习擅长解决大数据孤岛带来的人工智能算法收敛性及效率问题。单独的一个方向并不能解决多方数据可用不可得的问题 , 共享智能的研究既包括推动这四个基础方向的进步 , 又包括对这四个方向的融合创新 , 从而提供满足不同实际需求的多种产品与服务。
这些技术在实践中表现出了独特的优势 , 可以应用于不同场景。比如基于可信执行环境的方案可以做中心化部署 , 用户的接入成本是比较低 ; 而基于多方安全计算的方案 , 相关的安全技术对用户来说是透明的 , 给用户的安全体感强。同时 , 多种技术并不是隔离的 , 在面对一个复杂问题的时候 , 对技术的选型不是非此即彼的关系 , 把不同的技术融合到一起 , 发挥各自技术的优势 , 往往会达到一个更为理想的效果。
不久前 , 蚂蚁牵头的共享智能联盟标准就在 AIIA(中国人工智能产业发展联盟)正式发布 , 这也是全国首个共享智能的联盟标准。事实上 , 早在 2019 年 , 共享智能就已经亮相国际舞台。蚂蚁在 IEEE(电气和电子工程师协会)、ITU-T(国际电信联盟)中牵头推进 “共享学习技术框架和技术要求”和 “共享学习系统技术框架”国际标准的制定 , 来解决行业痛点 , 让数据在安全环境下进行连接、合作、共创、赋能 , 充分释放多方数据价值。
共享智能技术在行业内 , 也获得了一些行业奖项 , 体现了行业内对这一技术的认可度。2019 年 , 在中国人工智能峰会上获得了紫金产品创新奖 , 在全球人工智能创业者大会上获得应用案例示范奖 , 在的世界人工智能产业安全上获得了十大创新实践 , 在 CCF(中国计算机学会), 获得了科技进步优秀奖。
标准是创新也是前瞻 , 不仅解决当前的问题 , 也能解决未来的问题。作为一家致力于为世界带来平等普惠金融服务的科技公司 , 蚂蚁金服一直走在国内外标准制定的前列 , 助力推动技术的规范化发展。
蚂蚁共享智能的应用实践
金融行业作为一个数据驱动的行业 , 不仅对数据的管控更严格 , 对数据的隐私保护也会更加重视 , 因此也是最需要通过技术手段解决数据孤岛问题的行业 , 这也是很多技术实践都优先选择落地金融领域的原因。而蚂蚁共享智能就凭借多年金融实践和广泛应用 , 独树一帜 , 成功帮助金融等相关行业逐步解决隐私泄露和数据滥用的数据共享难题 , 为大数据在更多领域的深度应用保驾护航。
接下来分享三个典型落地案例。
一个是在安全风控领域 , 蚂蚁基于共享智能技术将风控能力赋能合作伙伴 , 联合数据建模提升模型性能 , 来建立安全风控网络。生态伙伴可以使用可信执行环境技术 , 把数据加密传输到网络中共建这个模型 , 打击虚假交易、团伙作案等 , 大幅度提升风控准确率 , 实现风控网络的净化。通过这样的风控网络平台 , 使得商家每天新增很多的交易 , 同时降低资损。
第二个是中和农信 , 蚂蚁通过数据融合大幅度提高风控性能 , 把原来传统的线下模式 , 变成线上自动过审模式 , 完成授信只需 5 分钟 , 8 个月累计放款 31.9 亿 , 授信成功人数 44 万人 , 业务覆盖 20 + 省区 , 300 + 县城 , 10000 + 个乡村 , 助力实现农村普惠金融。
第三个是与江苏银行建立信贷联合风控机制 , 通过共享智能技术 , 构建共同的模型强化风控管理 , 让信贷防控的效果进一步提升。基于联合风控机制 , 江苏银行能够在获得贷款申请后 , 通过数据交互 , 依据多方数据进行更科学的信贷决策 , 在这个过程中 , 用户的数据和隐私也得到了有效的保护。在蚂蚁共享智能等前沿技术加持下 , 江苏银行通过联合风控系统 , 提升综合服务、智慧风控能力 , 破解信贷难题 , 在实现风险抵御能力增强的同时 , 推动业务稳步增长 , 资产质量持续改善。
总的来说 , 蚂蚁希望构建开放的共享智能网络 , 有更多的伙伴、机构参与进来 , 一起完成建设 , 打破数据孤岛 , 助力 AI 技术更好的落地和应用。
何龙林