Uno de mis mayores miedos con integrar IA en brand safety y detección de fraude es que terminemos confiando ciegamente en lo que el modelo dice, incluso cuando los expertos del equipo sienten que algo no está bien.
Te paso un caso real que pasó:
Nuestro sistema de IA le asignó un score de 2/10 (bajo riesgo) a un influencer bilingüe. Todo verde. Pero uno de nuestros expertos—alguien que ha trabajado en mercados de influencers durante diez años—dijo “algo no me huele bien con este tipo.” Miramos más profundo manualmente y resultó que el influencer estaba usando tácticas de engagement manipulation que el algoritmo no había capturado.
Si hubiéramos solo confiado en la IA, habríamos metido dinero en una campaña con riesgo real.
Ahora estoy pensando diferente: ¿cuál es la estructura correcta para combinar IA + experto humano sin que uno anule al otro? No quiero que los expertos simplemente rechacen todo porque no confían en IA, pero tampoco quiero que sigan ciegamente lo que dice el modelo.
¿Cómo lo están manejando ustedes?
- ¿Qué tanto peso le dan a la intuición de un experto cuando entra en conflicto con el score de IA?
- ¿Tienen sistemas formales para documentar cuando los humanos overriden la IA? ¿Y qué aprendes de eso?
- Para trabajar entre dos idiomas y culturas, ¿cómo aseguran que vuestros expertos tienen verdadero conocimiento de ambos mercados vs. solo confiar en lo que la máquina dice?
Quiero construir un sistema donde la IA accelera el trabajo de los expertos, pero no los reemplaza o anula.
Esta es una pregunta grande. La respuesta corta: necesitas un framework de “escalation” explícito.
Aquí es cómo nosotros lo hacemos:
- IA hace la screening inicial. Percentil 0-10 (bajo riesgo) pasa automático. Percentil 90-100 (alto riesgo) se rechaza automático.
- La zona 10-90? Eso va a un experto para revisión.
- El experto ve el score de IA, ve los datos relevantes, y toma la decisión. Pueden overrider el score si tienen fundamentación.
- Crítico: documentamos cada override. Si un experto rechaza a alguien que IA dio como bajo riesgo, eso es una señal de que el modelo necesita reentrenamiento.
Con ese feedloop, después de 3-4 meses, el modelo mejora porque ve cómo los expertos están corrigiendo sus errores.
Sobre lo de expertos bilingües: sí, esto es real. No puedes confiar en IA pura si no tienes gente que entienda ambos mercados. Un estadounidense sin experiencia en Rusia va a malinterpretar que dice el modelo sobre creadores rusos. Lo mismo inverso.
Mi recomendación: construye un equipo de expertos pequeño pero real—alguien que vive en cada mercado. Ellos son el tribunal de apelación.
Una cosa más: hemos notado que los expertos toman mejores decisiones cuando ven por qué la IA llegó a su conclusión, no solo el score. Así que invertimos en interpretabilidad. Si la IA dice “high risk” porque detectó 50k nuevos followers en 2 semanas, el experto sabe qué mirar. Si es una caja negra, van a ignorar la IA de todos modos.
Me encanta que estés pensando en esto, porque realmente hay un balance que encontrar.
Desde la perspectiva del creador, lo que más molesta es cuando un sistema automático rechaza sin permitir apelación. Si un algoritmo falla, ¿hay forma de arreglarlo?
Mi sugerencia: asegúrate de que si un experto humano interviene, pueden explicar por qué. Eso muestra que no es solo un número tratando mal a la gente, es alguien que realmente revisió. Eso construye confianza.
Excelente perspectiva. Esto se conoce como el problema de “automation bias”—las personas empiezan a confiar ciegamente en la automatización y pierden pensamiento crítico.
Nuestra solución: creamos una rotación de revisión. Cada influencer en la “zona gris” (40-60% de probabilidad de riesgo según IA) es revisado por al menos dos expertos por razones diferentes.
Crítico: rastreamos qué experto hace cada override. Si una persona siempre rechaza a los que la IA aprueba, eso es una conversación. Podrían tener razón (en cuyo caso el modelo necesita entrenar en sus decisiones), o podrían estar tomando decisiones inconsistentes (en cuyo caso necesitamos ayudarlos a ser más sistemáticos).
Sobre lo bilingüe: tienes razón en ser paranoia. La IA puede generar un score, pero no puede entender contexto cultural. Un seguidor que “engagea weirdly” podría ser porque el mercado russo tiene diferentes normas de interacción. Eso requiere intuición humana.
Ahí es donde vemos mayor valor: humanos para la interpretación cultural, IA para detectar anomalías estadísticas. Combina ambos.
Último punto: audita tu sistema cada trimestre. Toma un random sample de influencers que fueron aprobados basados en IA hace 3+ meses. ¿Qué porcentaje resultó en problemas reales de brand safety? Si es más que un pequeño porcentaje, tu modelo está fallando silenciosamente y los humanos no lo están catching.