Tengo una pregunta que llevo tiempo rumiando. Trabajamos con un modelo de IA que detecta riesgos en perfiles de influencers, y funciona… a veces. El problema es que cuando saca una alerta roja sobre un creador, no siempre me explica por qué. ¿Es engagement falso? ¿Crecimiento sospechoso? ¿Historial de robo de contenido? Terminé ignorando bastantes banderas porque no podía validarlas.
Lo que cambió mi perspectiva fue cuando empecé a documentar cada fraude que veíamos —no solo el flagging automático, sino el caso real completo. Qué hizo exactamente el creator, cómo afectó a la marca, qué señales lo rodeaban. Fueron como 40-50 casos en el último año.
Ahora imagina si eso que estoy haciendo en silos lo hiciera toda una comunidad. Un hub donde marketers, agencias, y marcas comparten casos de fraude detallados —con contexto, con el desglose de qué salió mal, incluso con contratos donde vimos problemas. Ese tipo de data real es oro para entrenar modelos porque el modelo aprende no solo “banderas” sino historias de cómo los fraudes se desarrollan.
Mi duda es: ¿cuántos casos reales necesita un modelo para ser confiable? ¿Y cómo hacemos para que los marketers compartan sin miedo a que el data se use en su contra?
Excelente pregunta. Desde una perspectiva de ML, necesitas al menos 200-500 ejemplos positivos (fraude confirmado) y 2000-5000 negativos (auténticos) para entrenar un modelo que sea mejor que un heurístico simple. Pero eso es en teoría. En práctica, 50 casos reales y bien documentados superan 5000 ejemplos genéricos porque el contexto importa muchísimo.
La barrera no es técnica; es de confianza. ¿Por qué un brand manager compartiría un caso donde fue defraudado? Parece admitir negligencia. La solución es anonimización + agregación. No necesitas saber que fue Puma; necesitas saber “brand de deportes, presupuesto $50k, influencer con 250k followers, engagement cayó 70% post-campaña”.
Si logras recolectar 500+ casos anonimizados y bien estructurados, tienes un dataset que puede entrenar un modelo comparativamente sofisticado.
Lo que me preocupa de esto es que si compartimos casos así, podría sonar como que estamos exponiendo a otros creadores. Pero honestamente, si alguien está cometiendo fraude, yo quiero que se sepa. Lo que sí necesito es garantía de que los creadores honestos no terminan marcados por falsos positivos. Así que si van a entrenar modelos con casos reales, que incluyan casos donde el modelo se equivocó. Eso ayuda a calibrar.
Estamos dentro. En mi agencia recopilamos al menos 3-4 casos de fraude cada mes. Si hay una plataforma donde podamos validar esos casos contra casos de otras agencias, aumentar nuestra confiabilidad en las decisiones, estaríamos participando. La pregunta es cómo se estructura para que no violemos términos de contrato con nuestros clientes.