高手问答第 307 期 —— 大数据时代下机器学习的新范式

小白兔爱吃大灰狼 发布于 2023/10/17 15:41
阅读 8K+
收藏 0
在大数据时代,数据的数量和复杂性都呈指数级增长。然而,这些数据往往分散在不同的组织和个人之间,限制了数据的利用和挖掘。此时,联邦学习应运而生。它是 一种新兴的机器学习方法,允许多个参与方共同训练模型。在大数据时代和人工智能的发展下,联邦学习成为了应对数据分散和隐私保护的有效解决方案,在医疗、金融、推荐等领域都有广泛的应用。
 
OSCHINA 本期高手问答 (10 月 18 日 - 10 月 24 日) 我们请来了 PrimiHub 开源 和大家一起探讨关于「联邦学习技术」的问题。可讨论的问题包括但不限于:
  1. 什么是联邦学习?与分布式训练的区别和联系
  2. 联邦学习的场景:包括但不限于横向 / 纵向联邦、跨企业、跨设备等
  3. 当前联邦学习面临的问题:计算 / 通信复杂度、数据分布不均衡、安全隐私、公平性等
  4. 联邦学习入门学习、上手开发的建议
如有其他「联邦学习技术」 相关的问题,也欢迎提问 
 

嘉宾介绍

许雪峰,北航网络安全硕士,北京原语科技隐私计算工程师。从事联邦学习、差分隐私相关算法开发工作。热爱技术和开源,曾多次为知名开源机器学习框架 scikit-learn 贡献代码。
 
🎁 为了鼓励踊跃提问, 原语科技 PrimiHub 会在问答结束后从提问者中抽取 5 名幸运会员,赠予 PrimiHub 定制笔记本礼盒 3 件套(内含:笔记本 * 1、金属签字笔 * 1、U 盘 * 1)。
 

OSChina 高手问答一贯的风格,不欢迎任何与主题无关的讨论和喷子。

下面欢迎大家就 “联邦学习技术” 相关问题向 PrimiHub 许雪峰老师 提问,直接回帖提问既可。

PrimiHub  作为一款由密码学专家团队打造的开源隐私框架,具有以下特性:
  • 开源:完全开源、免费
  • 自主研发:安全多方计算、联邦学习、同态加密、可信计算等隐私计算技术
  • 开箱即用:拥有 Web 界面、命令行和 Python SDK 等多种使用方式
  • 功能丰富:支持隐匿查询、隐私求交、联合统计、数据资源管理等功能
  • 灵活配置:支持自定义扩展语法、语义、安全协议等
GitHub 地址:https://github.com/primihub/primihub
加载中
0
小白兔爱吃大灰狼
小白兔爱吃大灰狼

高手问答第 307 期 —— 大数据时代下机器学习的新范式 

@ericyan1 @xiaoaiwhc1   @xdev   @osc_11168344  @osc_63852221

恭喜以上5位网友分别获得 PrimiHub 定制笔记本礼盒 3 件套一套

请于2023年11月2日前登陆账号, 私信  @小白兔爱吃大灰狼   告知快递信息(格式:高手问答第307期+姓名+电话+地址),过期视为自动放弃哦~

1
iman123
iman123

@PrimiHub开源 你好,联邦学习与分布式学习有什么区别和联系;安全多方计算、联邦学习、同态加密、可信计算等这些与隐私计算又有什么关联呢;隐私计算目前实际应用场景都有哪些?

PrimiHub开源
PrimiHub开源
3. 隐私计算多应用在金融、医疗、政务、营销等行业,比如「金融领域」的联合反洗钱、银(行)证(券)数据共享、高净值/风险用户共享;「集团机构」间的数据共享比如共建用户黑名单。
PrimiHub开源
PrimiHub开源
2. 列举的这些是隐私计算所采用的不同技术路线,可以理解为不同的解决方案。不同技术有各自的优势和劣势,以及各自适合的应用场景。
PrimiHub开源
PrimiHub开源
1. 区别:分布式学习本质上是把收集到的数据分散到各个集群上,其主要瓶颈是计算;联邦学习的数据存储在用户本地,面临的一个瓶颈是通信,还有用户掉线的问题。联系:分布式的一些优化算法可以用在联邦学习上。
1
clearsky1991
clearsky1991

@PrimiHub开源 你好,我对联邦学习不了解,可以详细介绍一下什么是联邦学习,其应用领域和场景是什么,发展演讲路线是什么呢?

PrimiHub开源
PrimiHub开源
3. 谷歌于2016年提出了联邦学习的概念,经过几年的研究和发展,已经在很多领域得到了广泛应用。
PrimiHub开源
PrimiHub开源
2. 联邦学习主要利用了多方的数据,能够得到更好的模型,比如医疗领域做疾病预测、金融领域反欺诈模型、零售业进行商品推荐等。
PrimiHub开源
PrimiHub开源
1. 联邦学习指的是多个实体在中央服务器的协调下进行机器学习训练。每个实体的数据存储在本地,不进行交换和传输,只进行一些中间结果的聚合来达到训练目标。
0
s
shanch

@PrimiHub开源  什么是联邦学习?第一次听到这个概念

PrimiHub开源
PrimiHub开源
联邦学习指的是多个实体在中央服务器的协调下进行机器学习训练。每个实体的数据存储在本地,不进行交换和传输,只进行一些中间结果的聚合来达到训练目标。
0
南方Go
南方Go

@PrimiHub开源

1.联邦学习算法,怎么做单机算法调优,独立单份的数据做联邦算法,不准,怎么同步修改联邦算法,升级算法的依据是什么?

2.同态加密, 这个是什么?加密这块是否做了国产化,还是依赖国外加密技术??

3.primihub已经可以一键部署docker了,基于k8s平台运行的适配做了吗? fastdfs这种 分布式文件系统,怎么做隐匿查询、隐私求交,安全加密访问? 已经有了https安全,为啥还是不安全?

PrimiHub开源
PrimiHub开源
3. 做了k8s的适配,https://github.com/primihub/primihub-deploy/blob/main/k8s-deploy/README.md;算法原理和使用哪种数据源是无关的,需要增加fastdfs的支持即可;通信加密不能解决所有的问题,比如经典的“百万富翁问题”:两个人想比较谁更有钱,但是又不想让对方知道自己的财富值。
PrimiHub开源
PrimiHub开源
2. 同态加密技术可以支持密文上的计算,例如密文加法和密文乘法。目前有基于国密SM2和SM9的同态加密算法的论文,http://www.jcr.cacrnet.org.cn/CN/10.13868/j.cnki.jcr.000532。
PrimiHub开源
PrimiHub开源
1. 参数调优一般通过调整训练超参数(网格搜索、贝叶斯)、模型结构等。联邦学习的参数还包括本地训练的轮次、全局聚合的轮次、聚合求平均的方法。同时联邦学习还需要进行通信效率优化。
0
贺小皮蛋
贺小皮蛋

我怎么感觉联邦学习  就和漩涡鸣人学习螺旋丸手里剑一样   先分身 然后一起学 再收回分身 收到所有分身的经验

PrimiHub开源
PrimiHub开源
回复 @贺小皮蛋 : 不一定,联邦学习里常见的一种攻击手段是“投毒”,指的是向服务器上传恶意的模型,去扰乱主体模型的训练。有一些针对这种恶意模型设计的协议,简单来说上传的数据要满足一定的格式和要求,感兴趣的话可以去了解下。
PrimiHub开源
PrimiHub开源
你这个比喻很形象👍
0
袁旭成是我
袁旭成是我

@PrimiHub开源  有么有联邦学习入门学习、上手开发的建议

PrimiHub开源
PrimiHub开源
2. 上手开发:可以学习一些开源框架的代码,了解其基本逻辑后编写程序,比如在PrimiHub上开发新的联邦算法。
PrimiHub开源
PrimiHub开源
1. 入门学习:建议先看看综述类的文章,了解领域现状,比如这篇 https://arxiv.org/pdf/1912.04977.pdf,然后可以在自己感兴趣的地方深挖下去。
0
拉裤兜兜子
拉裤兜兜子

@PrimiHub开源 老师好,联邦学习是比传统训练方式更迅速节省时间吗?相互配合训练是怎么分工协调?还需要接入大数据计算的工具提速吗?

 

拉裤兜兜子
拉裤兜兜子
回复 @PrimiHub开源 : 感谢解答
PrimiHub开源
PrimiHub开源
3. 如果本地数据量较大的话,是需要的。
PrimiHub开源
PrimiHub开源
2. 相互配合一般由一个节点来协调,在训练开始时由该节点下发任务参数,各方按照参数和要求来训练。
PrimiHub开源
PrimiHub开源
1. 联邦学习因为涉及到通信,从训练的角度来说一般不会节省时间,但是使用了多方数据,模型准确度一般会比单方训练的模型好。
0
开源中国首席路人王
开源中国首席路人王

@PrimiHub开源 联邦学习的模型算法是怎么算的?怎么把各个的调优的值汇总算平均?直接平均吗?

PrimiHub开源
PrimiHub开源
最简单方案是,本地还按原来的机器学习算法运算,迭代几轮后,把模型参数发送给聚合服务器;服务器可以计算算数平均,也可以计算加权平均,权重为各方的样本数量。复杂一点的,可以了解下“个性化”联邦、split learning、分布式优化等等。
0
osc_11168344
osc_11168344

请问纵向联邦学习使用PSI对齐数据是由服务器来执行吗?是相当于外包PSI查询并把交集结果返回给客户端吗?还有每一轮训练都需要对齐吗?感谢回答@PrimiHub开源

PrimiHub开源
PrimiHub开源
不需要外包,假如两方计算交集,只需要这两方参与即可,最后除了交集其他信息都获取不到;只需要训练前ID对齐即可,训练中就不需要了。
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部