Big Data también es una perspectiva

Rompamos el mito que dice que entre más grande es la muestra, más fidedignos son los resultados

Antes de leer el artículo intentemos llegar a este acuerdo: “todos los enfoques son parciales; es inevitable que no lo sean”. Y ahora, antes de que comencemos a arrojar la respuesta automática del "big datero" que intenta socavar esta afirmación, leamos el siguiente argumento: “uno de los grandes mitos en la recolección de datos es que las muestras grandes siempre son más representativas”. Tenemos aquí dos frases de Colin Strong que en su libro Humanizing Big Data: Marketing at the Meeting of Data, Social Science & Consumer Insight nos las pone en la mesa, para no vanagloriar a las herramientas estadísticas que producen correlaciones de grandes datos (Big Data), ni tampoco desestimarlas del todo.

Ahora bien, un tema que siempre sale a luz en defensa del Big Data, precisamente cuando se habla de forma crítica de las grandes muestras, las veloces correlaciones y los datos numéricos proliferados, es el retrato del panóptico digital como solución final para no producir perspectivas y encontrar totalidades. Mejor dicho, se tiene la idea de que, tarde o temprano, gracias a Internet y los software de extracción y visualización de datos, se tendrá la suficiente información acumulada para predecir, controlar y diagnosticar cualquier tema. Oro puro para los marketeros que desean entender cómo manipular el consumo de las personas hacia su producto, o en otras palabras, vender más.

Aunado a esto, Strong señala que las técnicas de muestreo desde el Big Data son más rentables para los marketeros no sólo por la idea de tener una conjunto de herramientas explica-todo, sino también por temas funcionales. En primer lugar, provee un manejo y costo menor tanto en tiempo como en esfuerzo. Segundo, como se mencionó anteriormente, se piensa que la calidad aumenta con muestras grandes, ya que se tiene la cobertura completa (cero perspectiva), y sobre todo, la velocidad de este tipo de herramientas: proporciona información relevante más rápido. Sólo hay que intentar hacer una etnografía para entender una población o tratar de analizar los datos de una compañía sin este tipo de herramientas, y entenderemos cómo se nos van los minutos hasta convertirse en meses para conseguir un “gran” hallazgo.

Sin embargo, una cosa es tener en cuenta que utilizamos este tipo de herramientas por conseguir atajos analíticos desde el costo menor y la ultra-velocidad de las correlaciones automatizadas, y otra cosa es desestimar las pequeñas muestras o investigaciones de carácter cualitativo desde una supuesta calidad estilo panóptico, esto es, que ve todo, que no tiene perspectiva. Esto por varias razones, algunas técnicas otras de epistemología (¿cómo conocemos el mundo desde el Big Data?).

El tema técnico desde la perspectiva de los estadístico es la siguiente: a pesar de que los investigadores de mercado piensan, desde argumentos matemáticos, que a medida que el tamaño de la muestra aumenta la tendencia apunta a que el margen de error disminuya en cualquier estudio, olvidan que esto no es de duración indefinida: el margen de error disminuye sustancialmente entre los tamaños de muestra de 200 y 1500, después conforme crece la muestra el porcentaje de error tiende nivelarse, así como lo revela la tabla.

Tabla Big Data

Así, las muestras no tan grandes pueden llegar a establecer similares resultados que las muestras grandes o totales. Un ejemplo es el caso de Google que menciona Hal Varian, Google Chief Economist: los ingenieros tomaron un tercio de los datos diarios como muestra, y calcularon todas las estadísticas agregadas desactivadas de la muestra representativa… Generalmente, obtuvieron un resultado igual de bueno de la muestra aleatoria como “mirarlo todo”.

Y por otro lado, pensar que las muestras grandes por sí mismas representan la totalidad es una ingenuidad. Big Data también es una perspectiva. Los datos que se recaban muestran lo que el algoritmo les pide, no lo que la realidad es. Si el algoritmo mide cómo se conectan las personas, no está midiendo qué piensan las personas. Si el algoritmo relaciona el consumo (número de compras repetidas por una personas) no está midiendo qué pensaron las personas cuando hicieron esa compra. Y así podríamos continuar.

Como bien dice Jesper Andersen, estadístico y científico computacional, cuando argumenta que: Cleaning Data (decidir que atributos y variables importan y cuáles no) es una propuesta arriesgada si se le piensa desde la objetividad y la omnipresencia, ya que (…) en realidad, también en el caso de Big Data se “elimina la objetividad de los datos en sí. Es un proceso muy dogmático decidir qué variables son importantes. La gente tiende a pensar que puede tener el método agnóstico de correr sobre los datos, pero la verdad es que en el momento en que se tocan los datos, estos ya fueron estropeados. Para cualquier operación, se ha destrozado la base objetiva.