Cette page a été traduite par l'API Cloud Translation.

Notes de la réunion du 28/07/2022 des collaborateurs de TFF,Notes de la réunion du 28/07/2022 des collaborateurs de TFF

De nouvelles personnes
Soyons tous sur le serveur Discord pour faciliter les conversations de manière interactive
- Ping Krzys pour devenir un Contributeur pour pouvoir poster
SIG fédéré
Discussion sur le free-riding et l'empoisonnement des données dans x-silo, discussion menée par LinkedIn (contexte de cas d'utilisation identifiés par LinkedIn sauf indication contraire) :
- Free riding - certains locataires ne contribuant pas au groupe, donc diluant les avantages
  - Peut être intentionnel ou non
  - Concentrez-vous sur l'involontaire à ce stade - c'est le cas qui nous intéresse principalement chez LinkedIn
  - Il peut s'agir simplement d'un participant qui n'a pas suffisamment de données ou de données qui ne sont pas utiles à la formation
    - Penser actuellement à modéliser cela comme un problème de détection d'anomalies
    - La comparaison avec la contribution majoritaire fonctionne si c'est le cas pour la minorité des données
    - Autre approche : plusieurs modèles fédérés, construits avec ou sans contribution d'un acteur donné ; observez ceux qui progressent et excluez les participants en fonction de cela
  - Certains freeriders pourraient contribuer à des données d'ordures
    - Plus difficile à modéliser que la détection d'anomalies
    - Même approche que ci-dessus
- Empoisonnement
  - De même, cela peut être intentionnel ou non
  - Concentrez-vous sur l'involontaire - les grands locataires peuvent submerger le groupe et biaiser le modèle vers leurs contributions
  - Pour les scénarios d'intérêt, cela présente des similitudes avec le problème du freerider
  - Techniques pertinentes dans la formation distribuée byzantine
    - Par exemple, au lieu de la moyenne, pourrait adopter une médiane pour ajouter une certaine robustesse contre l'empoisonnement
- Voyons-nous ces problèmes se produire ailleurs, cela vaut-il la peine d'apporter une telle logique à l'écosystème ?
  - Oui! Problèmes courants à voir dans les contextes contradictoires, où les intérêts des silos peuvent ne pas être alignés (les contributions entraînent des coûts de calcul et nécessitent des ressources)
- Comment mesurer l'impact d'un resquillement ou d'un empoisonnement ?
  - Par contribution vs. dans l'ensemble - les idées ci-dessus pointent vers cette dernière
- Observation : l'une des caractéristiques de TFF est les agrégations paramétrables et avec état qui peuvent maintenir leur propre état interne et mettre à jour cet état au fur et à mesure qu'elles s'agrègent.
  - Par exemple, federated_aggregate
- Réflexions sur les compromis et les synergies avec d'autres objectifs (par exemple, DP)
  - DP peut certainement aider à l'empoisonnement
  - Question sur DP dans le contexte du freloading - encore une question ouverte
- Nous avons constaté que les attaques d'empoisonnement des données pourraient avoir un impact négligeable
  - Par exemple, voir https://arxiv.org/pdf/2108.10241.pdf
  - Il est important de fournir une telle fonctionnalité dans le cadre d'une plate-forme FL inter-silos, quelle que soit l'ampleur de l'impact
Écrivez avec des idées avec plus de détails sur ce qui précède et des propositions de composants à ajouter à l'écosystème TFF de LinkedIn à venir
Voir plus de discussions sur Discord
Prochain rendez-vous dans 2 semaines