Notes de la réunion du 28/07/2022 des collaborateurs de TFF,Notes de la réunion du 28/07/2022 des collaborateurs de TFF

  • De nouvelles personnes
  • Soyons tous sur le serveur Discord pour faciliter les conversations de manière interactive
    • Ping Krzys pour devenir un Contributeur pour pouvoir poster
  • SIG fédéré
  • Discussion sur le free-riding et l'empoisonnement des données dans x-silo, discussion menée par LinkedIn (contexte de cas d'utilisation identifiés par LinkedIn sauf indication contraire) :
    • Free riding - certains locataires ne contribuant pas au groupe, donc diluant les avantages
      • Peut être intentionnel ou non
      • Concentrez-vous sur l'involontaire à ce stade - c'est le cas qui nous intéresse principalement chez LinkedIn
      • Il peut s'agir simplement d'un participant qui n'a pas suffisamment de données ou de données qui ne sont pas utiles à la formation
        • Penser actuellement à modéliser cela comme un problème de détection d'anomalies
        • La comparaison avec la contribution majoritaire fonctionne si c'est le cas pour la minorité des données
        • Autre approche : plusieurs modèles fédérés, construits avec ou sans contribution d'un acteur donné ; observez ceux qui progressent et excluez les participants en fonction de cela
      • Certains freeriders pourraient contribuer à des données d'ordures
        • Plus difficile à modéliser que la détection d'anomalies
        • Même approche que ci-dessus
    • Empoisonnement
      • De même, cela peut être intentionnel ou non
      • Concentrez-vous sur l'involontaire - les grands locataires peuvent submerger le groupe et biaiser le modèle vers leurs contributions
      • Pour les scénarios d'intérêt, cela présente des similitudes avec le problème du freerider
      • Techniques pertinentes dans la formation distribuée byzantine
        • Par exemple, au lieu de la moyenne, pourrait adopter une médiane pour ajouter une certaine robustesse contre l'empoisonnement
    • Voyons-nous ces problèmes se produire ailleurs, cela vaut-il la peine d'apporter une telle logique à l'écosystème ?
      • Oui! Problèmes courants à voir dans les contextes contradictoires, où les intérêts des silos peuvent ne pas être alignés (les contributions entraînent des coûts de calcul et nécessitent des ressources)
    • Comment mesurer l'impact d'un resquillement ou d'un empoisonnement ?
      • Par contribution vs. dans l'ensemble - les idées ci-dessus pointent vers cette dernière
    • Observation : l'une des caractéristiques de TFF est les agrégations paramétrables et avec état qui peuvent maintenir leur propre état interne et mettre à jour cet état au fur et à mesure qu'elles s'agrègent.
    • Réflexions sur les compromis et les synergies avec d'autres objectifs (par exemple, DP)
      • DP peut certainement aider à l'empoisonnement
      • Question sur DP dans le contexte du freloading - encore une question ouverte
    • Nous avons constaté que les attaques d'empoisonnement des données pourraient avoir un impact négligeable
      • Par exemple, voir https://arxiv.org/pdf/2108.10241.pdf
      • Il est important de fournir une telle fonctionnalité dans le cadre d'une plate-forme FL inter-silos, quelle que soit l'ampleur de l'impact
  • Écrivez avec des idées avec plus de détails sur ce qui précède et des propositions de composants à ajouter à l'écosystème TFF de LinkedIn à venir
  • Voir plus de discussions sur Discord
  • Prochain rendez-vous dans 2 semaines