Big Data y representatividad: «Los datos no son investigación”

Por Robert Heeg Periodista.

Lectura 7 minutos
22 de febrero 2020

Por Robert Heeg Periodista.

Tendemos a pensar que grandes cantidades de datos son representativos por definición, pero no es necesariamente así. Los Big Data también deben ser sometidos a pruebas de estrés. Tres expertos nos iluminan sobre los paneles de acceso online de Uber y Airbnb, el auge de los robots y la promesa de la inteligencia artificial (IA) en este artículo extraído del informe ESOMAR 2019 Global Market Research.

Con los humanos dejando una huella digital cada vez mayor de lo que piensan, sienten, dicen y hacen, el análisis computacional de volúmenes cada vez mayores de datos para revelar patrones, tendencias y asociaciones clave ha sido -sin duda- clave para proporcionar conocimientos procesables a escala en los últimos años. Esta observación, hecha por Caroline Frankum, CEO global de la División de Perfiles de Kantar, viene con una advertencia adicional. «Tras la aplicación de la GDPR el pasado mes de mayo, y a medida que se intensifica la legislación sobre la privacidad de los datos -por ejemplo, la Ley de Privacidad del Consumidor de California (CCPA) que entrará en vigor en enero de 2020, y la creciente incertidumbre de las cookies de terceros- cada vez es más evidente que lo importante no es la cantidad de datos, sino lo que las organizaciones pueden hacer con los datos de conformidad con la ley».

Aun así, a menudo se sigue creyendo que grandes cantidades de datos son representativos por definición, señala Andrew Konya, Director General de Remesh, una plataforma que permite a los usuarios obtener conocimientos cualitativos a escala cuantitativa para tomar mejores decisiones. «Nos encontramos con la idea errónea común de que más datos – mayor N – significa mayor confianza en los resultados. Sin embargo, la mayoría de los investigadores parecen ser muy conscientes de cómo una muestra no representativa de los participantes en la investigación cuantitativa se traduce en resultados de menor calidad».

 

Encuesta presidencial

Pete Doe, Director de Investigaciones de la policía de Chicago, una plataforma de ventas basada en la audiencia para la publicidad televisiva, observó anteriormente que los paneles de acceso online han permitido que proliferen las investigaciones de encuestas baratas en la última década. Ahora confirma que hay una tendencia natural de la gente a pensar que «más grande es mejor», incluso entre algunos profesionales con alguna formación estadística. «A la gente se le enseña que los márgenes de error se reducen a medida que aumenta el tamaño de la muestra, pero no siempre se les enseña sobre los sesgos en la medición. Así que sí, es un concepto erróneo bastante común, pero este no es un problema nuevo».

 

Honestidad y transparencia

El Big Data sigue revolucionando la industria del conocimiento a una velocidad vertiginosa, casi como si ignorara deliberadamente las muchas banderas rojas. Pero las preocupaciones sobre la representatividad son muy reales y deben ser abordadas. Para Doe, la principal pregunta que cualquier usuario de investigación práctica tiene que responder es: «¿Tomaré una mejor decisión si utilizo esta fuente de datos? La respuesta a esa pregunta no siempre es clara, subraya.

Algunas de las preocupaciones sobre la representatividad son en realidad preocupaciones sobre la validez. «Deducir el comportamiento de las personas a partir de la actividad del dispositivo no es sencillo, especialmente si el dispositivo es utilizado por diferentes personas en diferentes momentos».

En cuanto a las banderas rojas, Doe cree que los usuarios deben desconfiar de las empresas que no quieren o no pueden explicar sus fuentes de datos. «Nadie con una perspectiva realista espera la perfección en la investigación, pero debemos esperar honestidad y transparencia.»

 

Miles de millones en riesgo

Si bien los paneles de acceso online han permitido que proliferen las investigaciones de encuestas baratas en el último decenio, los resultados obtenidos de estos paneles de conveniencia pueden ser sesgados y poco representativos debido a los métodos de muestreo empleados. Se podrían aplicar varias comprobaciones y pruebas de estrés para disminuir estos efectos.

Doe cree que estas comprobaciones deben reflejar el uso de los datos y el dinero en riesgo. En cuanto a los datos de las transacciones de los medios de comunicación (clasificaciones), la supervisión de los Consejos Industriales Conjuntos (y el Consejo de Clasificación de los Medios de Comunicación en los EE.UU.) vale la pena para asegurar la calidad cuando miles de millones de dólares de publicidad se gastan en los datos, enfatiza.

«Y estos servicios no utilizan datos de investigación de encuestas online baratas por esa misma razón. Para la investigación con un alcance más estrecho y menos dinero en riesgo, los usuarios deben al menos esperar transparencia en torno a las fuentes de datos, la rectitud de cualquier dato de clasificación, detalles sobre la encuesta, tasas de respuesta, tamaños de muestra, edición de datos y métodos de proyección».

 

Uber y Airbnb

Para ilustrar la tendencia de los paneles online de bajo presupuesto, Frankum hace una comparación reveladora: «Los participantes tecnológicos que ofrecen paneles de acceso online más baratos son como los Ubers y Airbnb del mundo de los paneles – no poseen ningún panelista pero se centran en alquilar los activos de los paneles opcionales para aprovechar sus activos técnicos».

«Los clientes buscan cada vez más perfiles de consumidores más ricos. Esto significa cotejar los datos sobre el comportamiento con los atributos de los perfiles patentados para crear audiencias más accesibles, antes de que se haya formulado una sola pregunta de encuesta. Esto es algo para lo que los paneles de acceso en línea más baratos no están establecidos, ni acreditados para hacerlo. Por lo tanto, sus datos son más limitados en cuanto a la forma en que pueden ser utilizados».

 

Mayor integración

El uso de Big Data para obtener conocimientos está todavía en desarrollo, y se verán más cambios en los próximos años. Doe cree que seguirá creciendo, y habrá opciones aún más baratas disponibles. «Pero es poco probable que estos hallazgos sean de calidad. Podría haber intentos de aprovechar la IA para sintetizar los conocimientos, por ejemplo, deduciendo comportamientos y actitudes a partir de datos en línea, tal vez aprovechando datos de dispositivos activados por voz, dentro de las limitaciones de la privacidad».

 

Andrew Konya, CEO de Remesh

La infraestructura y los algoritmos a los que la gente se refiere como Big Data permitirán una mayor integración entre los datos recopilados pasivamente, a través de múltiples canales, y los datos de investigación en primera persona, predice Konya. Es probable que el resultado genere conocimientos que se comparan cada vez más con los impactos en el comportamiento.

 

Cambio profundo

Doe enfatiza que los datos no son investigación. «Los datos son una materia prima que debe ser refinada antes de poder ser utilizada como parte de un estudio de investigación, y que requiere investigación y conocimientos estadísticos». Como tener muchos datos se hace más fácil, Konya piensa que la gente cambiará su enfoque de «¿qué es la N?» a «¿qué tan confiados estamos en este resultado? Ese cambio probablemente hará que la industria deje de trabajar para ofrecer el costo mínimo por participante – o punto de datos – para trabajar para ofrecer el menor costo por unidad de confianza.

En Kantar, Frankum y su gente están aprendiendo mucho del trabajo con la IA. «La IA también es algo que hay que vigilar de cerca cuando se trata de hacer que el Big Data sea más representativo para las percepciones y la investigación de mercado en el futuro».

Path Copy Created with Sketch.
X