Notas de la reunión del 28/07/2022 de colaboradores de TFF

  • Nuevas personas
  • Estemos todos en el servidor de Discord para facilitar las conversaciones de forma interactiva.
    • Haga ping a Krzys para convertirse en colaborador y poder publicar
  • SIG Federado
  • Discusión sobre uso gratuito y envenenamiento de datos en x-silo, discusión dirigida por LinkedIn (contexto de casos de uso identificados por LinkedIn a menos que se especifique lo contrario):
    • Aprovechamiento gratuito: ciertos inquilinos no contribuyen al grupo, por lo que se diluye el beneficio
      • Podría ser intencional o no intencional
      • Concéntrese en lo no intencional en este punto: este es el caso que nos interesa principalmente en LinkedIn
      • Podría ser tan simple como que un participante no tenga suficientes datos o datos que no sean útiles en el entrenamiento.
        • Actualmente pensando en modelar esto como un problema de detección de anomalías
        • La comparación con la contribución de la mayoría funciona si es el caso de la minoría de los datos.
        • Otro enfoque: múltiples modelos federados, construidos con o sin contribuciones de un participante dado; observe cuáles progresan y excluya a los participantes en función de eso
      • Algunos freeriders podrían estar aportando datos basura
        • Más difícil de modelar como detección de anomalías
        • Mismo enfoque que el anterior
    • Envenenamiento
      • Asimismo, podría ser intencional o no.
      • Concéntrese en lo no intencional: los inquilinos más grandes pueden abrumar al grupo y sesgar el modelo hacia sus contribuciones
      • Para escenarios de interés, esto tiene similitudes con el problema del freerider.
      • Técnicas relevantes en el entrenamiento bizantino distribuido
        • Por ejemplo, en lugar del promedio, podría adoptar una mediana para agregar algo de solidez contra el envenenamiento
    • ¿Vemos que estos problemas ocurren en otros lugares, vale la pena aportar esa lógica al ecosistema?
      • ¡Sí! Problemas comunes que se observan en entornos contradictorios, donde los intereses de los silos pueden no estar alineados (las contribuciones incurren en costos de cómputo y requieren recursos)
    • ¿Cómo podemos medir el impacto del aprovechamiento gratuito o el envenenamiento?
      • Por contribución versus en conjunto: las ideas anteriores apuntan a lo último
    • Observación: una de las características de TFF son las agregaciones parametrizables y con estado que pueden mantener su propio estado interno y actualizar ese estado a medida que se agregan.
    • Pensamientos sobre las compensaciones y sinergias con otros objetivos (p. ej., DP)
      • DP definitivamente puede ayudar con el envenenamiento
      • Pregunta sobre DP en el contexto de la carga gratuita: aún una pregunta abierta
    • Descubrimos que los ataques de envenenamiento de datos podrían tener un impacto insignificante
      • Por ejemplo, consulte https://arxiv.org/pdf/2108.10241.pdf
      • Es importante proporcionar esta función como parte de una plataforma FL entre silos, independientemente de la magnitud del impacto.
  • Escriba con ideas con más detalles sobre lo anterior y propuestas de componentes para agregar al ecosistema TFF de LinkedIn próximamente
  • Ver más discusiones en Discord
  • Próxima reunión en 2 semanas