Testing de predicciones de IA en rendimiento de campañas: ¿en qué punto confías en el modelo versus validar manualmente?

Tengo un problema que probablemente otros enfrentan: estamos usando un sistema que predice rendimiento de campañas de influencers basado en datos históricos, y funciona… a veces. Pero no sé en qué punto debo confiar en las predicciones o si debería simplemente ignorarlas y correr la campaña anyway.

El sistema tiene una tasa de “precisión” del 72% (según dice el dashboard). Eso suena bien hasta que te das cuenta de que 72% precisión puede significar muchas cosas diferentes dependiendo de cómo lo midan. ¿Es 72% de las predicciones exactas dentro de 10% del resultado real? ¿O es 72% de aciertos/fallos binarios (campaña buena vs. bad)?

Mas importante: incluso si el modelo es correcto el 72% del tiempo, ¿eso significa que debería cambiar mi decisión cuando la predicción dice “este influencer va a underperform”? Especialmente si mi instinto (o datos cualitativos, o relación existente con el creador) sugiere algo diferente.

He visto equipos que ignoran completamente las predicciones porque “el modelo no entiende las dinámicas locales”, y otros que confían ciegamente y pierden presupuesto. Tiene que haber un medio termo.

¿Cuál es el punto de no retorno donde realmente sabes si vale la pena confiar en el modelo? ¿Necesitas run 50 campañas? ¿100? ¿Depende del mercado?

La pregunta correcta no es “¿cuándo confío en el modelo?” sino “¿cuál es el costo de estar equivocado?”

Un modelo con 72% precisión es probablemente útil si:

  1. El costo de un falso positivo (invertir en un influencer que underperforms) es bajo en términos de presupuesto
  2. El costo de un falso negativo (pasar un buen influencer porque el modelo dice que es riesgoso) es conocido y manejable
  3. Tienes suficientes campaña en tu pipeline que los 28% incorrectos se equilibran estadísticamente

En DTC, típicamente corremos 15-25 influencers por trimestre. Con 72% precisión, eso significa ~4 predicciones malas por trimestre. Si cada una cuesta $2-5k, eso es tolerable siempre que otros 11 influencers overperform.

Ahora, para validar si realmente es 72%:

Test 1: Estratifica las predicciones. El modelo predice “ROI alto” (>3.5x), “medio” (2-3.5x), “bajo” (<2x). Para cada estrato, corre 5-10 campañas ciegas (sin mirar la predicción) y compara. Si el 72% es real, deberías ver separation clara entre bandas.

Test 2: Busca sesgo. ¿El 72% es uniformemente distribuido, o funciona mejor para tipos específicos de influencers/nichos? Si funciona perfectamente para beauty pero falla en tech, tu número agregado de 72% es inútil.

¿Cuántas campañas necesitas? Mínimo 30-40 con suficiente variamiento (tamaño, nicho, región, tipo de contenido). Si tienes menos, el modelo está overfit a tu data pequeña.

Mi recomendación operacional: usa el modelo como signal, no como decision. Si predice ROI bajo pero tu instinto / datos cualitativos sugieren alto, corre la campaña pero en un tester budget (30-40% menos que normalmente). Si overperforms, tu instinto gana credibilidad. Si underperforms, la predicción gana credibilidad.

Un punto más: cross-market hace esto más complicado. Si tu modelo fue entrenado principalmente en mercado A (digamos, US English) y lo estás aplicando a mercado B (Spanish-speaking), la precisión probablemente cae a 55-65% incluso si es 72% localmente. Necesitas validar por mercado, no de forma agregada.

Desde la perspectiva de agencia: los modelos predictivos son herramientas de de-risking, no de crystal-balling.

Usamos el modelo para identificar cuáles influencers no deberíamos siquiera acercarnos. Si predice alto riesgo de fraude o muy bajo ROI, la defendemos nuestra recomendación con datos. Pero cuando el modelo predice “podría funcionar”, eso requiere validación.

Nuestro threshold: si el modelo está 70%+ confiando en una predicción, confiamos en ella el 60% de las veces. Si es 80%+, confiamos 85%. Esa brecha es porque siempre hay contexto que el modelo no ve—relación existente, timing, contexto cultural, etc.

La pregunta clave: ¿es mejor el modelo que tu instinto? Si es, úsalo. Si no, ¿por qué pagas por él?

Como creadora, lo que me frustra es que estos modelos predecir mi rendimiento futuro basado en mi rendimiento pasado, pero mi estrategia de contenido cambia. Lancé un nuevo formato el mes pasado que tiene mucho mejor engagement, pero el modelo probablemente no lo captó porque está entrenado en mis números antiguos.

Doesn’t AI supuestamente entender cambios de contexto? O simplemente estoy siendo optimista.

Desde la perspectiva del creador: confía en el modelo, pero valida con el creador mismo. Pregunta si algo en su estrategia o capacidad ha cambiado recientemente. Eso es información que tus datos históricos nunca van a captar.