论文理解 Federated Machine Learning Concept and Applications

论文： Federated Machine Learning Concept and Applications
论文阅读时长：8h
笔记整理时长：2h

问题提出

数据孤岛（isolated islands）：联邦学习的提出意在解决数据使用和隐私保护之间的两难困境。

we face a dilemma that our data is in the form of isolated islands, but we are forbidden in many situations to collect, fuse and use the data to different places for AI processing.

联邦学习

在联邦学习中，协作方（数据拥有者） $\{ F_1, \cdots F_N\}$ 各自拥有独立的数据 $\{D_1, \cdots D_N\}$ 。

若直接使用各数据集某种拼接或级联的方式 $D=D_1 \cup D_2 \cdots \cup D_N$ 训练得到的模型为 $M_{SUM}$ ，其表现为 $V_{SUM}$；

而各方 $F_i$ 在不向其他人暴露自己数据 $D_i$ 的情况下，通过某种方式训练得到模型为 $M_{FED}$ ，其表现为 $V_{FED}$；

若存在正实数 $\delta$ 满足 $| V_{FED} - V_{SUM} | < \delta$，则称该联邦学习算法具有 $\delta$ 精度损失（$\delta$-accuracy loss）

定义 $X$ 为各方数据的特征域， $Y$ 为各方数据的标签域，$I$ 为各方数据的分布特征，则有分类：

联邦学习分类	$X$	$Y$	$I$
Horizontal Federated Learning	$X_i=X_j$	$Y_i=Y_j$	$I_i\ne I_j$
Vertical Federated Learning	$X_i \ne X_j$	$Y_i \ne Y_j$	$I_i=I_j$
Federated Transfer Learning	$X_i \ne X_j$	$Y_i \ne Y_j$	$I_i \ne I_j$

需要特别注意的是，纵向联邦学习需要各方数据独立同分布，否则将很大程度影响模型表现。

联邦学习中的隐私问题

在联邦学习中，有非常多的隐私保护策略可以采用：

安全多方计算（Secure Multi-party Computation, SMC）：极低数据泄露风险，支持多方。复杂的协议和通信效率是很大的问题。SOTA：Sharemind [8]。
差分隐私（Differential Privacy, DP）：差分隐私或k-匿名（ k-Anonymity）相关工作为数据加入噪声，或使用泛化操作保护数据隐私，通常需要在隐私保护和模型效果中进行抉择。参考：[23]等。
同态加密（Homomorphic Encryption）：通过加密机制下的参数交换来保护用户数据隐私。s数据和模型不会被传输。落地最常用的一个。需要使用多项式近似代替任何非线性函数，需要在隐私保护和模型效果中进行抉择。参考： [75,76]等。

间接数据泄露：某协作方通过数据投毒等方式恶意获取或推断其协作方数据隐私的问题。这里有一系列针对联邦学习的数据攻防论文，如[62]等。

临近领域

隐私保护机器学习（Privacy-preserving machine learning）：基本就是和联邦学习差不多的东西。基本都用的安全多方计算SMC。
分布式机器学习（ Distributed Machine Learning）：形式类似但侧重点不同。分布式机器学习往往更关注并发性、效率等问题，各计算节点有权限获得想要的控制域中的任何数据，学习环境是透明的。而联邦学习更关注数据隐私保护。
边缘计算（Edge Computing）：联邦学习是边缘计算的一个特例。每个协作方都是边缘计算的一个边缘节点。
联邦数据库系统（Federated Database Systems）：分布式存储系统，主要关注CRUD等基本运算。

文献整理

关于HFL、VFL、FTL的综述：[71]
谷歌联邦学习原始论文：[36, 37, 41]
- 在此基础上统计学改进[60, 77]
- 安全性改进[9, 23]
横向联邦和隐私保护机器学习非常相似：[58]
隐私保护
- SOTA安全多方计算SMC：[8]；三方SMC：[44]
- 差分隐私DP：[23]
- 同态加密：云上训练[75, 76]
- 间接数据泄露：[62]
横向联邦学习
- 横向联邦安全性假设：恶意中心[9, 51]；恶意用户[29]
- 谷歌提出的安卓手机横向联邦：[41]
- 横向联邦安全聚合问题：[9]
- 横向联邦同态加密：[51]
- 横向联邦多任务学习、数据划分、减少带宽：暂时不读
纵向联邦学习
- 暂时不读
联邦迁移学习
- 暂时不读
临近领域
- 多方隐私保护机器学习：决策树[17, 67]；k-means[66]；朴素贝叶斯[64]；SVM纵向[73]横向[74]；线性分类[16]；逻辑回归[4]；随机梯度下降[47]；神经网络[58]；深度学习[10, 11, 14, 28, 40, 52, 54]
- 分布式机器学习：为什么不满足iid影响横向联邦学习[77]
- 边缘计算：暂时不读
- 联邦数据库：暂时不读