Datos sintéticos y encuestados: el problema está en los detalles

January 29, 2025

Los datos sintéticos y los encuestados suelen asociarse con la IA y el modelado avanzado, y ofrecen soluciones innovadoras a los desafíos de la investigación de encuestas. Sin embargo, como Joel Anderson y Kevin Karty discutido recientemente en LinkedIn, no todos los datos sintéticos se crean de la misma manera y algunos enfoques no cumplen la promesa de proporcionar nuevos conocimientos. En este artículo se explora un enfoque erróneo para la generación de datos sintéticos, duplicando o remuestreando los datos existentes, y destaca por qué no cumple con los rigurosos estándares que deben cumplir los datos sintéticos.

Es importante tener en cuenta que este artículo se centra en un método específico y no debe restar valor al excelente trabajo que están realizando los expertos en IA para desarrollar soluciones de datos sintéticos innovadoras, eficaces y confiables. Abordar estos desafíos solo mejora el valor y el potencial de los datos sintéticos para avanzar en la investigación.

¿Cuál es el problema?

Imagina que quieres usar encuestados sintéticos para reforzar el conjunto de datos de una encuesta. Tal vez te enfrentes a una tasa de respuesta baja o a una población particularmente difícil de alcanzar. Un enfoque que algunos han utilizado es tomar los datos existentes, duplicarlos aleatoriamente y denominarlos datos sintéticos o encuestados. ¡Voilá! Los resultados parecen válidos desde el punto de vista estadístico: los números se alinean con el conjunto de datos original y las tendencias se mantienen consistentes.

Pero este es el problema: duplicar o remuestrear datos no crea ninguna información nueva. Es como copiar una receta palabra por palabra y afirmar que se ha inventado un plato nuevo. Los resultados pueden parecer convincentes, pero no ofrecen ningún conocimiento nuevo sobre la población objeto de estudio.

Los aumentos de datos sintéticos mal implementados pueden reducir el tamaño efectivo de la muestra, lo que significa que introducen ruido y degradan el poder estadístico del conjunto de datos. En lugar de aumentar los conocimientos, disminuyen la calidad de la investigación.

Introducir encuestados sintéticos sin el rigor adecuado puede reducir el tamaño efectivo de la muestra y añadir ruido en lugar de valor. Esto es como desperdiciar tiempo y dinero y arruinar la confiabilidad de los datos.

Inserción de datos «faltantes» a escala

En la investigación de encuestas, reemplazar los datos faltantes por la media, la mediana o algún otro valor calculado es una práctica común para abordar las pequeñas brechas en un conjunto de datos. Este enfoque permite a los investigadores conservar los datos de los encuestados sin descartarlos del conjunto de datos. Los investigadores suelen utilizar este enfoque con moderación, quizás solo para una o dos preguntas cuando el encuestado ha respondido a la gran mayoría de la encuesta. Cuando se usa con moderación, este enfoque tiene un impacto mínimo porque no cambia drásticamente la distribución general de los datos ni la validez de los datos.

Sin embargo, cuando este enfoque se aplica a escala, como ocurre cuando los datos existentes se duplican aleatoriamente, se introducen varios problemas:

  • Los sesgos o limitaciones del conjunto de datos original se amplían. Por ejemplo, si las personas mayores de 65 años están sobrerrepresentadas en la muestra, los encuestados sintéticos basados en la duplicación seguirán con esta sobrerrepresentación.
  • Los datos pueden parecer estadísticamente válidos pero, de hecho, son artificiales y engañosos.
  • El conjunto de datos ya no representa la variabilidad del mundo real y está distorsionado, lo que socava su validez y utilidad.

¿Qué debemos esperar de los datos sintéticos o de los encuestados?

Los datos sintéticos verdaderos o los encuestados deben:

  • Presente nuevos conocimientos, especialmente para las poblaciones de difícil acceso.
  • Generarse de manera que se mantenga el rigor estadístico y, al mismo tiempo, se eviten los sesgos derivados de la información sobrerrepresentada o duplicada.
  • Agregue valor más allá de lo que pueden proporcionar los datos existentes y no solo copie y pegue.

Para ello será necesario:

  • Utilice modelos avanzados para simular respuestas que se alineen con las opiniones, comportamientos, preferencias o circunstancias probables
  • Contrarreste los sesgos al simular datos o encuestados
  • Asegúrese de que haya diversidad en el conjunto de datos mediante la introducción de la variabilidad natural en la población
  • Asegúrese de que los datos sintéticos sean defendibles estadísticamente y agreguen matices significativos al conjunto de datos

Los investigadores y desarrolladores deben validar rigurosamente los métodos de generación de datos sintéticos para garantizar que aumentan, en lugar de disminuir, el poder estadístico y la representatividad del conjunto de datos.

El diablo está en los detalles

Es importante tener en cuenta que actualmente se desconoce hasta qué punto se duplican o remuestrean los datos. Sin embargo, esto no debe eclipsar el excelente e innovador trabajo que están realizando los expertos en IA en el campo de los datos sintéticos y los encuestados. Sus innovaciones están impulsando un progreso significativo, y abordar estos desafíos solo fortalece la credibilidad y el valor de sus contribuciones.

En conclusión

Si bien la imputación de los valores faltantes puede resultar útil en pequeñas dosis, escalar este enfoque para llenar los conjuntos de datos con encuestados sintéticos basándose en la duplicación o el remuestreo presenta problemas importantes. Los datos sintéticos auténticos deberían mejorar un conjunto de datos al introducir una variabilidad y una información nuevas y significativas, y no limitarse a exagerar las cifras con contenido reciclado. Si bien los avances sintéticos son prometedores desde el punto de vista teórico, deben probarse y validarse exhaustivamente. Los métodos de datos sintéticos no validados corren el riesgo no solo de no proporcionar información, sino también de socavar la integridad de la investigación.

Kirsty Núñez es el presidente y principal estratega de investigación de Q2 Insights, una firma de consultoría de investigación e innovación con alcance internacional y oficinas en San Diego. Q2 Insights se especializa en muchas áreas de la investigación y el análisis predictivo, y utiliza activamente productos de inteligencia artificial para mejorar la velocidad y la calidad de la entrega de información y, al mismo tiempo, aprovechar los conocimientos y la experiencia de los investigadores humanos.