La parcialidad de los datos

Antes de leer este texto, repitamos hasta el cansancio: los datos no hablan por sí mismos

Toda herramienta tiene sus limitaciones. Toda herramienta es creada o mediada por el hombre. Y, finalmente, toda herramienta o técnica de investigación configura su propia respuesta, tienen su faceta interpretativa. Big Data no es la excepción. A pesar del fanatismo por lo tecnológico, esto es, de construirlo como una dimensión suprahumana, o depositarle la responsabilidad de la verdad, las técnicas informáticas no pueden deslindarse de la parcialidad; tienen sus sesgos, o mejor dicho, inclinaciones.

Un ejemplo que permite entrever cómo los datos configuran la respuesta y el conocimiento es el efecto caverna. En general, según Collins, tenemos la idea de que nuestros ancestros prehistóricos vivían y regulaban su vida dentro de las cuevas no por una cuestión de facto, sino por los datos que se han encontrado: pinturas de hace 40,000 años, sitios de entierro, fosas de huesos y marcas de fogatas; la correlación entre estos permiten que construyamos la vida prehistórica de esta forma. Sin embargo, pudieron haber otros tipos de vida prehistórica (más allá de la cueva) que no es posible pensar porque sus rastros han desaparecido, o simplemente, porque los datos recabados sólo muestran ese estilo de vida.

De ahí que tengamos cuidado en pensar que los datos hablan por sí mismos y son la misma realidad que describen. Como menciona Kate Crawford de MIT Center for Civic Media: “los conjuntos de datos y los mismos datos no son objetivos, son creaciones del diseño humano. Somos nosotros los que le damos a los números su propia voz, los que generamos deducciones de ellos, y definimos su significado a través de interpretaciones”.

La técnicas enmarcadas dentro del Big Data no puede deslindarse de nuestras formas de pensar y ordenar la realidad; sufren invariablemente inclinaciones interpretativas y de recolección de datos que representan riesgos considerables. Verbigracia, dentro de la extracción de la muestra (sea Big o Small), Collins enumera tres tipos de sesgos:

Sesgo de auto-selección: esto puede ocurrir cuando los individuos se seleccionan a ellos mismos dentro de un grupo, ya que las personas que se auto-seleccionan pueden diferir de manera importante de la población que el investigador quiere analizar.
Sesgo de sub-cobertura: esto puede ocurrir cuando un segmento relevante de la población es ignorado.
Sesgo de supervivencia: esto surge cuando el investigador se concentra en las personas o cosas que sobreviven algún proceso de filtración, e inadvertidamente pasa por alto a aquellos que no lo hicieron.

Big Data también contiene estos sesgos. El simple hecho, por ejemplo, de elegir estudiar las relaciones en digital, produce automáticamente que no se piense en la población que no tiene contacto con la red. No importa que se tenga el análisis de un millón de usuarios, hay una inclinación hacia ciertas personas y formas de vida. De ahí que más que pensar en objetividad y conocimiento total, se debe pensar en funcionalidad de la herramienta en función de los objetivos de investigación.

Si uno desea analizar cuantitativamente a las personas que siguen una cuenta, descargar los datos de los seguidores en Twitter y Facebook es suficiente para entender este fenómeno desde correlaciones. En cambio, si lo que se desea es entender cómo las personas que no utilizan Internet entienden las redes cibernéticas, Big Data no funciona, ya que se necesitan otras herramientas más etnográficas, fenomenológicas, y sobre todo, fuera de la base de datos que se tienen tanto en Social Media como en las empresas que se dedican a ello.