Llevo un tiempo trabajando en algo que probablemente otros están pensando: ¿qué señales realmente predicen si un influencer va a cometer fraude en una campaña futura?
Obviamente, hay red flags obvios: historial de fraude conocido, engagement ratios absurdos, seguidores comprados. Pero esos son fáciles de detectar. Lo que me interesa son los patrones más sutiles que, cuando los ves cross-region, te dan una idea de “algo está apagado aquí.”
He estado compilando datos de campañas fallidas y exitosas durante el último año. Lo interesante es que los predictores de fraude que funcionan bien en el mercado estadounidense no siempre funcionan en mercados de habla rusa. Un influencer puede tener engagement patterns que parecen raramente altos en Nueva York pero enteramente normales en Moscú, dependiendo del nicho.
Por ejemplo, encontré que en ciertos nichos en Rusia, es común que influenciadores tengan engagement rates de 8-12%, mientras que en EE.UU., 3-5% es considerado alta. Si usas el umbral estadounidense, marcas falsamente docenas de influencers rusos válidos. Pero si usas el umbral ruso, pierdes señales reales de fraude.
Así que comencé a crear líneas de base por región y por nicho. Y luego comencé a entrenar un modelo predictivo: dame 50 data points sobre un influencer, y el modelo me dice “probabilidad de fraude: 15%” o “94%.”
El problema es que no tengo suficiente datos etiquetados. Tengo aproximadamente 200-250 influencers donde sé con seguridad cómo resultó (fraudulent o genuino), pero distribuido entre múltiples regiones y nichos, eso es casi nada.
¿Alguien más está recopilando esto? ¿Cómo estanvalidando modelos predictivos de fraude cuando varias regiones tienen diferentes interpretaciones de lo que es “raro”? Y, más presionadamente: ¿confías en tus predicciones lo suficiente como para decirle a un cliente “salta a este influencer” o siempre vas con validación manual?
Este es un problema central que nadie habla suficientemente. La detección de fraude es un problema de clasificación, pero su exactitud es extremadamente dependiente de contexto.
Dos problemas inmediatos con tu enfoque:
-
Desbalance de datos: Tienes 200-250 ejemplos totales en múltiples regiones. Eso es insuficiente, especialmente si el fraude es un evento raro (digamos, solo 10-15% de tus ejemplos son realmente fraudulentos). Tu modelo sufrirá de overfitting severo.
-
Etiquetado débil: ¿Cómo etiquetaste esos 200-250 ejemplos? Si dijiste “este influencer resultó malo” porque simplemente el ROI fue bajo, eso es diferente de “este influencer vendió followers.” Esos son problemas diferentes.
Aquí está mi pregunta para ti: ¿cuál es tu costo de falsos positivos versus falsos negativos? Porque es completamente diferente decirle a un cliente "salta a este tipo» (riesgo: pierdes a un influencer bueno) versus “dame la luz verde” (riesgo: campaña se quema).
Mi recomendación: antes de confiar en un modelo predictivo, define exactamente qué debes optimizar para. ¿Detectar fraude obvio? ¿Evitar influencers con engagement mediocre? ¿Prevenir dilución de marca? Diferentes objetivos requieren diferentes thresholds.
Voy a ser directo: en mi agencia, no confiamos completamente en modelos predictivos, incluso si funcionan 85% del tiempo. Un falso positivo me cuesta una relación con un influencer. Un falso negativo me cuesta la reputación del cliente.
Lo que hacemos es usar datos predictivos como una herramienta de triaje, no como la decisión final. Si tu modelo dice “94% probabilidad de fraude,” vamos profundo. Si dice “15%,” lo dejamos pasar. Pero en el medio, revisamos manualmente.
Tu punto sobre umbrales regionales es crítico. Has identificado exactamente por qué los modelos genéricos de detección de fraude fallen. El siguiente paso es literalmente lo que dices: modelos por región.
Pregunta: ¿qué sucedería si colaboraste con expertos de marketing en cada región para etiquetar esos 50-100 influencers como fraudulentos/válidos? Podrías obtener más contexto sobre POR QUÉ fueron etiquetados de esa manera, lo que aumentaría la calidad de tu entrenamiento.
Como alguien en el espacio creator, necesito saber: ¿hay manera de que los creadores genuinos sepamos si estamos siendo flagueados por este modelo? Porque si soy un pequeño creador ruso en un nicho específico y un algoritmo estadounidense dice que soy “94% probabilidad de fraude” simplemente porque mis engagement patterns no coinciden con las normas estadounidenses, eso parece injusto.
También carezco de 50k personas en LinkedIn esperando validar datos, así que si un modelo así existe, espero que los creadores puedan al menos ver POR QUÉ fueron marcados.