Llevo tres meses trabajando en un problema que creo que muchos aquí enfrentan: mis modelos de predicción de rendimiento se ven bien hasta que lanzo la campaña, y entonces todo se desmorona.
Trabajo con influencers en ambos mercados (RU y US), y lo que descubrí es que los benchmarks por sí solos no son suficientes. El año pasado usé datos históricos puros para predecir ROI en una campaña con micros rusas, y el modelo dijo 3.2x ROAS. Lanzamos, y terminamos en 1.8x. Fue un desastre.
Lo que cambié fue agregar capas de estudio de casos reales—campañas específicas que ejecuté, no promedios generales. Empecé a preguntarme: ¿qué pasó en campañas similares? ¿Quién es el influencer? ¿Cuál es el tipo de producto? ¿Cuál es el tamaño real de audiencia engageda (no followers vanidosos)?
Ahora estoy usando un sistema de tres capas:
- Benchmarks del hub bilingüe para calibrar expectativas iniciales
- Casos de estudio detallados de campañas previousentes (mis propias o de gente en la comunidad)
- Validación humana de expertos locales que viven en cada mercado
Los benchmarks sin contexto te dan un número. Los casos de estudio te dan patrones. Juntos, producen predicciones que realmente predicen.
Pero aquí es donde me quedo atascado: ¿cómo balanceo cuando los benchmarks me dicen una cosa y los casos de estudio me dicen otra? Mi base de datos de casos no es lo suficientemente grande todavía. ¿Cómo están ustedes manejando este trade-off entre cantidad de datos y calidad de predicción?
Este es exactamente el tema que estamos resolviendo en la agencia ahora. Lo que funciona para nosotros es crear buckets de campañas—no mezclar todo en una base de datos. Micro + Health & Beauty en RU es un bucket diferente a Micro + Fashion en US.
Cuando tengo cinco casos similares en el mismo bucket, confío en el patrón. Cuando tengo uno o dos, dejo que el benchmark guíe pero roleo riesgo más conservador. La predicción que hago es más conservadora de lo que el modelo puro diría.
También descubrí que es valioso hablar directamente con el influencer antes de lanzar—no es ‘predicción de IA’, es validación humana rápida. ¿El influencer cree que puede entregar? ¿Ha hecho campaña de este tipo antes? Eso suma contexto que los datos nunca capturan.
Una cosa rápida: ¿cuántos casos de estudio tienes actualmente en tu base de datos? Porque si tienes menos de 20-30 por segmento, probablemente el benchmark es más confiable que el patrón. A partir de 30-50 casos, tu propio historial empieza a ser más predictivo que datos agregados.
Como creadora que ha estado en ambos lados (siendo predicha y viendo cómo marcas usan datos para calcular campañas), lo que noto es que la IA a menudo pierde el contexto de lo que está pasando en la comunidad específica en ese momento.
Como ejemplo: tenía una audiencia rusa muy engageda hace seis meses, pero la plataforma cambió el algoritmo y todo se ralentizó. Los benchmarks históricos no capturaron eso porque el cambio fue reciente. Mi verdadero potencial bajó, pero los datos antiguos decían que era igual.
Mi consejo: habla con creadores activos. No solo datos. Ellos sienten dónde está la energía.
Para tu pregunta específica—cuando benchmark dice una cosa y casos dicen otra, yo confiaría en los casos si son recientes (últimos tres meses). Los benchmarks históricos quedan rápidamente desactualizados.
Tu problema es un problema clásico de validación de modelos de machine learning, especialmente en mercados con datos heterogéneos. Aquí viene el pensamiento data-driven:
Tu conflicto entre benchmarks y casos de estudio sugiere que probablemente tienes un sesgo en uno de los dos. Los benchmarks pueden estar sesgados si vienen de un conjunto de datos que no refleja TU mix específico de campañas. Los casos de estudio pueden estar sesgados por survivorship bias—solo recuerdas las campañas memorables (buenas o malas), no las promedio.
Mi recomendación estructurada:
- Documenta TODAS las campañas, no solo las que recuerdas. Las mediocres son igual de valiosas.
- Calibra tu modelo usando validación cruzada—divide tus datos reales 80/20, entrena en 80%, valida en 20%.
- Cuando benchmark y caso de estudio se contradicen, esa es tu señal de que necesitas más datos en ese segmento específico.
No balancees entre ellos por instinto. Mide qué predictor fue más correcto históricamente, luego pondéra por eso.
Con tres meses de datos nuevos y mejores segmentaciones, tu accuracy probablemente suba significativamente.