Big Data y representatividad: Los datos no son investigación

Tendemos a pensar que las grandes cantidades de datos son representativas por definición, pero no es necesariamente así.

Escrito por Robert Heeg.
Lectura 6 minutos
28 de noviembre 2023

Con los seres humanos dejando una huella digital cada vez mayor de lo que piensan, sienten, dicen y hacen, el análisis computacional de volúmenes crecientes de datos para revelar patrones, tendencias y asociaciones clave ha sido -sin duda- clave para ofrecer perspectivas procesables a escala en los últimos años. Esta observación, realizada por Caroline Frankum, CEO global de la división de perfiles de Kantar, viene acompañada de una advertencia. «Tras la implementación del GDPR el pasado mes de mayo, y a medida que la legislación sobre privacidad de datos se intensifica -por ejemplo, la Ley de Privacidad del Consumidor de California (CCPA) que entró en vigor en enero de 2020, y la creciente incertidumbre de las cookies de terceros-, es cada vez más evidente que lo importante no es la cantidad de datos, sino lo que las organizaciones pueden hacer con los datos cumpliendo las normas.»

Aun así, a menudo se sigue creyendo que las grandes cantidades de datos son representativas por definición, señala Andrew Konya, director general de Remesh, una plataforma que permite a los usuarios obtener información cualitativa a escala cuantitativa para tomar mejores decisiones. «Nos encontramos con la idea errónea y común de que más datos -N más grandes- significan mayor confianza en los resultados. Sin embargo, la mayoría de los investigadores parecen muy conscientes de cómo una muestra no representativa de participantes en la investigación cuantitativa se traduce en resultados de menor calidad.»

Honestidad y transparencia

Los macrodatos siguen revolucionando el sector de la información a una velocidad de vértigo, casi como si ignoraran deliberadamente las numerosas señales de alarma. Pero los problemas de representatividad son muy reales y hay que abordarlos. La principal pregunta a la que debe responder cualquier usuario práctico de la investigación es: «¿Tomaré una decisión mejor si utilizo esta fuente de datos?». La respuesta a esta pregunta no siempre está clara.

Algunas de las preocupaciones sobre la representatividad son en realidad preocupaciones sobre la validez. «Inferir el comportamiento de las personas a partir de la actividad de los dispositivos no es sencillo, sobre todo si el dispositivo lo utilizan personas distintas en momentos diferentes».

En cuanto a las señales de alarma, los usuarios deben desconfiar de las empresas que no quieren o no pueden explicar sus fuentes de datos. «Nadie con una perspectiva realista espera la perfección en la investigación, pero deberíamos esperar honestidad y transparencia».

Miles de millones en peligro

Aunque los paneles de acceso en línea han permitido la proliferación de encuestas baratas en la última década, los resultados obtenidos a partir de estos paneles de conveniencia pueden ser sesgados y poco representativos debido a los métodos de muestreo empleados. Podrían aplicarse varias comprobaciones y pruebas de resistencia para disminuir estos efectos.

Estas comprobaciones deben reflejar el uso de los datos y el dinero en riesgo. En el caso de los datos sobre transacciones de medios de comunicación (calificaciones), la supervisión de los Consejos Industriales Conjuntos (y el Consejo de Calificación de Medios de Comunicación en EE.UU.) merece la pena para garantizar la calidad cuando miles de millones de dólares de inversión publicitaria dependen de los datos.

Por eso mismo, estos servicios no utilizan datos baratos de encuestas en línea. Para una investigación con un alcance más limitado y menos dinero en riesgo, los usuarios deberían esperar al menos transparencia en torno a las fuentes de datos, la actualidad de cualquier dato de clasificación, detalles sobre la encuesta, índices de respuesta, tamaños de muestra, edición de datos y métodos de proyección.

Uber y Airbnb

Para ilustrar la tendencia de los paneles online de bajo presupuesto, Caroline Frankum, Global CEO de Kantar’s Profiles Division hace una comparación reveladora: «Los entrantes tecnológicos que ofrecen paneles de acceso online más baratos son como los Uber y Airbnb del mundo de los paneles: no son propietarios de ningún panelista, sino que se centran en alquilar activos de paneles opt-in para aprovechar sus activos técnicos.»

Los clientes buscan cada vez perfiles más ricos de los consumidores. Esto significa cotejar datos de comportamiento con atributos de perfil propios para crear audiencias más específicas, antes de que se haya formulado una sola pregunta de la encuesta. Esto es algo para lo que los paneles de acceso en línea más baratos no están preparados ni acreditados. Por tanto, sus datos tienen un uso más limitado.

Mayor integración

El uso de big data para obtener información está aún en pleno desarrollo y experimentará nuevos cambios en los próximos años. Doe cree que seguirá creciendo y que habrá opciones aún más baratas. «Pero es poco probable que ofrezcan resultados de calidad. Podría haber intentos de aprovechar la IA para sintetizar ideas, por ejemplo deduciendo comportamientos y actitudes a partir de datos en línea, quizá aprovechando los datos de dispositivos activados por voz, dentro de las limitaciones de privacidad».

Para Andrew Konya, Consejero Delegado de Remesh, la infraestructura y los algoritmos a los que la gente se refiere como Big Data permitirán una mayor integración entre los datos recogidos de forma pasiva, a través de múltiples canales, y los datos de investigación en primera persona, predice Konya. Es probable que el resultado genere perspectivas cada vez más parecidas a impactos en el comportamiento.

Cambio profundo

Los datos son una materia prima que hay que refinar antes de utilizarla como parte de un estudio de investigación, y eso requiere conocimientos de investigación y estadística. A medida que sea más fácil disponer de muchos datos, la gente dejará de centrarse en «¿cuál es la N?» para centrarse en «¿hasta qué punto confiamos en este resultado?». Es probable que este cambio haga que el sector pase de trabajar para obtener el mínimo coste por participante -o punto de datos- a trabajar para obtener el menor coste por unidad de confianza.

Fuente: Research World

Traducido con Deepl.com

Sobre el autor

Robert Heeg es periodista freelance.

Es probable que este cambio haga que el sector pase de trabajar para obtener el mínimo coste por participante -o punto de datos- a trabajar para obtener el menor coste por unidad de confianza.

Path Copy Created with Sketch.
X