Appunti dall'incontro del 28/07/2022 dei collaboratori di TFF

  • Nuove persone
  • Siamo tutti sul server Discord per facilitare le conversazioni in modo interattivo
    • Ping Krzys per diventare un Contributor per poter postare
  • SIG federato
  • Discussione su free-riding e data poisoning in x-silo, discussione guidata da LinkedIn (contesto da casi d'uso identificati da LinkedIn se non diversamente specificato):
    • Free riding - alcuni inquilini non contribuiscono al gruppo, diluendo così il beneficio
      • Potrebbe essere intenzionale o non intenzionale
      • Concentrati sull'involontario a questo punto: questo è il caso che interessa principalmente a LinkedIn
      • Potrebbe essere un semplice partecipante che non dispone di dati sufficienti o dati che non sono utili nella formazione
        • Attualmente sto pensando di modellarlo come un problema di rilevamento di anomalie
        • Il confronto con il contributo della maggioranza funziona se è l'ase per la minoranza dei dati
        • Un altro approccio: più modelli federati, costruiti con o senza il contributo di un determinato partecipante; osservare quali fanno progressi ed escludere i partecipanti in base a quello
      • Alcuni freerider potrebbero contribuire con dati spazzatura
        • Più difficile da modellare come rilevamento di anomalie
        • Stesso approccio di cui sopra
    • Avvelenamento
      • Allo stesso modo, potrebbe essere intenzionale o meno
      • Concentrati sull'involontario: gli inquilini più grandi possono sopraffare il gruppo e influenzare il modello verso i loro contributi
      • Per gli scenari di interesse, questo ha delle somiglianze con il problema del freerider
      • Tecniche rilevanti nella formazione bizantina distribuita
        • Ad esempio, invece della media, potrebbe adottare una mediana per aggiungere una certa robustezza contro l'avvelenamento
    • Vediamo questi problemi verificarsi altrove, vale la pena contribuire con tale logica all'ecosistema?
      • Sì! Problemi comuni da vedere in contesti contraddittori, in cui gli interessi dei silos potrebbero non essere allineati (i contributi comportano costi di calcolo e richiedono risorse)
    • Come possiamo misurare l'impatto del freeloading o dell'avvelenamento?
      • Per contributo vs. in aggregato - le idee sopra puntano a quest'ultimo
    • Osservazione: una delle caratteristiche di TFF sono le aggregazioni parametrizzabili e stateful che possono mantenere il proprio stato interno e aggiornare quello stato man mano che si aggregano.
    • Considerazioni sui compromessi e sinergie con altri obiettivi (es. DP)
      • DP può sicuramente aiutare con l'avvelenamento
      • Domanda su DP nel contesto del freloading - ancora una domanda aperta
    • Abbiamo scoperto che gli attacchi di avvelenamento dei dati potrebbero avere un impatto trascurabile
      • Ad esempio, vedere https://arxiv.org/pdf/2108.10241.pdf
      • È importante fornire tale funzionalità come parte di una piattaforma FL a silo incrociato indipendentemente dall'entità dell'impatto
  • Scrivi con idee con maggiori dettagli su quanto sopra e proposte di componenti da aggiungere all'ecosistema TFF da LinkedIn in arrivo
  • Vedi più discussione su Discordia
  • Prossimo incontro tra 2 settimane