連合学習 (Federated Learning) は、機械学習の訓練に使用されるデータが複数のユーザの間で分散して存在している場合に、データを所有者以外の他者に公開することなく機械学習モデルを訓練することを可能にするフレームワークです [1] 。医療、金融、創薬をはじめとしたデータの漏洩が特に問題となりうる分野において、プライバシを保護しつつ機械学習を協働して行うための新しいシステムとして、連合学習は近年大きな注目を集めています。
連合学習の実現を目指し、準同型暗号や秘密分散 [2] といった秘密計算技術やTrusted Execution Environment (TEE)、送受信データの検証 [2] などを活用したフレームワークが続々と提案されています。その一方で、これらの技術の導入は連合学習における通信・計算コストを増大させ、運用が非現実的になるという新たな懸念を招く可能性があります。
当研究室では、データのプライバシを保護しつつ、高速に学習を遂行できる新たな連合学習の実現を目指し、1) 分散コンピューティングの知見を応用した低負荷な連合学習プロトコルの設計、2) 連合学習に対するプライバシー漏洩攻撃方法と防御法開発を通した連合学習の強固化、3) 秘密分散計算や暗号化手法をネットワーク内計算やプログラム可能なネットワーク機器への実装を通した高速な連合学習フレームワークの設計に取り組んでいます。
[1] Yang, Qiang, et al. "Federated machine learning: Concept and applications." ACM Transactions on Intelligent Systems and Technology (TIST) 10.2 (2019): 1-19.
[2] Xu, Guowen, et al. "Verifynet: Secure and verifiable federated learning." IEEE Transactions on Information Forensics and Security 15 (2019): 911-926.
Google keyboard などの連合学習フレームワークでは、訓練データをもつ複数のユーザがそれぞれ自身の端末でモデルの学習を行い、サーバがユーザのモデルを収集して集約します。しかし、この連合学習フレームワークは、プライバシーとセキュリティーの双方に課題があります。プライバシーについては、ユーザのモデルは訓練データを含むため、サーバがモデルから訓練データを復元する脅威が考えられます。また、セキュリティーについては、ユーザが不正なモデルをアップロードすることで,モデルの精度を下がる、もしくは、意図しない推論結果を招くようにモデルを改変するという脅威が考えられます。
従来の手法[1]では、セキュリティー脅威とプライバシー脅威を同時に軽減する手法が提案されました。サーバによる訓練データ復元を防ぐために、ユーザのモデルを公開することなく集約します。各ユーザはモデルを分割し、分割データをユーザ間で交換して混ぜ合わせることでモデルを隠蔽します。サーバは混ぜ合わせた分割データを収集して、個々のモデルを復元することなく、モデルを集約します。ユーザの不正なモデルの挿入を防ぐために、モデル同士を比較して、不正なモデルを検出して除外します。ユーザのモデルは公開できないため、比較は分割データ用いて行います。また、分割データを比較に使う前に、分割データそのものが正しいかどうか確認する必要があります。そのために、各ユーザは分割データの検証情報を生成して、分割データと一緒に他のユーザへ送信します。各ユーザが受け取った分割データが正当であるかどうかは、対応する検証情報を用いて確認します。
しかし、従来の手法は検証情報の通信効率が悪いという課題がありました。ユーザ間での分割データの検証は、ユーザ間での検証情報の交換を伴うため、検証情報の転送回数が多くなるためです。検証情報のデータ量はモデルよりも大きいため、転送回数が多いと通信に時間がかかります。これに対して、当研究室では、一か所(サーバ)に検証情報を集めてまとめて検証を行うことで転送回数を削減する手法を開発しました[2]。この手法の副作用として、元々ユーザが並列で行っていた検証を一か所で行うことによる計算時間の増大がありますが、これについても、従来よりも掛け算の回数を削減した効率的な検証アルゴリズムを開発しました。
上記は研究の一例であり、様々な研究の余地があります。例えば、異なる脅威モデルへの対応です。サーバとユーザが結託して他のユーザのモデルを取得する、より強い脅威が想定されます。一方で、セキュリティーを考慮しないより弱い脅威も考えられます(企業間でモデルを作製する場合など)。想定する脅威モデルごとに、安全性と高速化を両立する連合学習を設計する必要があります。
[1] So, Jinhyun, et al. "Byzantine-resilient secure federated learning." IEEE Journal on Selected Areas in Communications 39.7 (2020): 2168-2181.
[2] Masuda, Hiroki, Kentaro Kita, Yuki Koizumi, Junji Takemasa, and Toru Hasegawa. "Byzantine-resilient secure federated learning on low-bandwidth networks." IEEE Access (2023).
連合学習 (Federated Learning) では、ユーザは自身のデータをサーバや他のユーザと共有することなく機械学習モデルを訓練することで、データプライバシの保護が可能であるとされています。一方で、そのコンセプトに「プライバシを守りつつ、データを活用する」という矛盾が存在するのも事実です。
近年では、連合学習プロトコルで公開されるデータを悪用することによって、プロトコル内の敵対者が様々な攻撃を実行できる可能性があることが明らかになってきました。具体的には、特定のデータが学習モデルにおける訓練データとして使用されたかどうかを敵対者が推論するMembership Inference Attack [1] や、敵対者であるサーバがユーザから受信したモデルデータから元の訓練データを再構築するGradient Inversion Attack [2] などが提案されています。
これらの攻撃に対する防御法として、差分プライバシやSecure Aggregation [3] といったセキュア計算手法の使用を推奨する研究も報告されています。その一方で、これらの防御法を迂回して攻撃を実現する手法 [4] も複数考案されています。
当研究室では、連合学習に対する新しい攻撃法を提案し、システムに内在する脆弱性を洗い出す試みを進めています。また、想定される攻撃を根本的に防ぐための防御法についても研究を進めています。直近では、連合学習の新しいフレームワークである垂直連合学習 (Vertical Federated Learning) において、敵対者ユーザが他のユーザのデータを再構築する新しい攻撃とその対処法を検討しています [5]。
[1] Ye, Jiayuan, et al. "Enhanced membership inference attacks against machine learning models." Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security. 2022.
[2] Zhu, Ligeng, et al. "Deep leakage from gradients." Advances in neural information processing systems 32 (2019).
[3] Bonawitz, Keith, et al. "Practical secure aggregation for privacy-preserving machine learning." proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. 2017.
[4] Pasquini, Dario, et al. "Eluding secure aggregation in federated learning via model inconsistency." Proceedings of the 2022 ACM SIGSAC Conference on Computer and Communications Security. 2022.
[5] Suimon, Takumi, Yuki Koizumi, Junji Takemasa, and Hasegawa Toru. A data reconstruction attack against vertical federated learning based on knowledge transfer. The Third International IEEE INFOCOM Workshop on Distributed Machine Learning and Fog Networks (FOGML 2024).
安全な連合学習を実現するための手法として、暗号技術があります。この場合、準同型暗号や秘密分散をはじめとする、計算負荷の高い暗号技術がしばしば用いられます。
私たちは、連合学習がネットワークを介して分散的に処理される点に注目し、それらの暗号技術をサーバー計算機上のCPUで計算するのではなく、プログラム可能なネットワーク機器を用いてネットワーク内で計算することで、連合学習の高速化を目指しています。これまでに、プログラマブルスイッチ上で動作可能な対称鍵暗号の実装に取り組みました [1]。引き続き高度な暗号技術の高速な実装に取り組んでいます。
詳しくはこちら
[1] Yoshinaka, Yutaro, Junji Takemasa, Yuki Koizumi, and Toru Hasegawa. "On implementing ChaCha on a programmable switch." Proceedings of the 5th International Workshop on P4 in Europe. 2022.
Research Themes