CON MARTHA DEBAYLE

La importancia de los datos como "el nuevo petróleo"

Les vamos a dar las claves de por qué son importantes y cómo sacarle provecho al Big Data

Eduardo Carbia, Cofundador de Hexagon Data

TW:@eledurepresent // TW:@HexagonData // hexagondata.com

El auge del big data

A pesar de que el uso sistematizado de los datos pareciera muy reciente con el auge del “big data”, la obtención y registro de los datos se lleva desde hace mucho tiempo, de hecho se podría decir que ha sucedido a lo largo de la evolución como especie humana y eso es lo que nos ha hecho diferentes de otras especies.

El Homo sapiens – “hombre que piensa” surge justo cuando la especie empieza poder tomar cada vez mejores decisiones debido a que la evolución del cerebro logra procesar más “data”, sin embargo tenemos una limitante en el procesamiento de esos datos.

Con el tiempo, esa evolución nos ha permitido inventar y refinar todas las cosas que nos rodean incluyendo la tecnología, que hoy nos habilita gestionar gran cantidad de datos y entender cómo es que se comportan las variables que queremos estudiar.

Entonces, el término “Big Data” surge cuando el procesamiento de cómputo fue tal que nos permitió procesar grandes cantidades de datos (no nada más de internet) y así logramos comprender lo que sucede con las hipótesis de estudio que nos estamos planteando.

Mientras que el término “Data Science” (que va de la mano con el Big Data) se refiere al estudio de los datos y por ende las personas que se dedican a eso, tienen que tener cierto perfil, sobretodo con bases matemáticas, estadísticas y conocimientos de programación, sin embargo el “Data Science” también es sorprendentemente intuitivo, por ejemplo: El cerebro de un bebé tiene que ir aprendiendo a como equilibrarse y estabilizar todo el cuerpo para dar los primeros pasos… después de muchos, muchos pasos, empezamos a correr. O mi abuela, cuando hablábamos en una cena familiar sobre el tipo de mujer con la que yo tendría una mejor relación, ella sin discutir, dijo 5 características “tú tienes que relacionarte con una niña inteligente, buena, divertida, sociable y bonita” que igual son características que cualquier abuela podría desear para su nieto, sin embargo a sus 77 años, ella ya ha vivido lo suficiente como para haber visto pasar “n” cantidad de relaciones exitosas y fallidas, y que para ella, conociéndome, esas 4 variables eran las necesarias para que yo pudiera tener una relación sólida y de largo plazo (cumplo 10 años de casado en Marzo).

La clave del Big Data y Data Science no solo se refiere a la cantidad de datos que se almacena, sino en realidad es el uso apropiado de todos esos datos.

No todos los datos pueden hacer predicciones o revelar tendencias.

Por ejemplo, antes de que Google “inventara” el algoritmo de PageRank (algoritmo para rankear las páginas de internet en la búsqueda de Google), se basaba solo en la frecuencia de las “keywords” y no en la relevancia que tenía el contenido de esa página con la keyword que se estaba buscando.

Los datos: el nuevo petróleo

Por esto es bueno retomar la analogía que los datos son el nuevo petróleo, ya que como el crudo, pueden haber todos los datos del mundo, sin embargo si no se refina, sirve para muy poco (o para nada), sin embargo si se plantea una buena hipótesis, se cuenta con el set de datos adecuado, y con un buen análisis, puede llegar a convertirse en una empresa justo como Google o Facebook que valen millones de dólares ($136.82 billones de usd net revenue en 2018) y de ahí su valor.

Las virtudes del Big Data

El “Big Data” cuenta las siguientes virtudes (que se detallan en el libro “Everybody Lies”):

1. Es el cáliz de la verdad: A diferencia de una encuesta en la calle, no solo la muestra es mayor, sino que lo más importante es le quitamos el “bias” que nos define como sociedad, al no tener nadie que nos juzgue por lo que en realidad nos interesa, es ahí donde surge el verdadero comportamiento. Por ejemplo Sigmund Freud paso su vida estudiando a grupos de personas para definir el comportamiento sexual en los humanos, y que hoy no se si el pobre Sigmund podría babear con los resultados que surgen de los datos análisis que año con año publica pornhub.com (el sitio más popular de pornografía y podemos hablar de estas estadísticas – https://www.pornhub.com/insights/2018-year-in-review), o verdaderamente enojarse al darse cuenta que le estaban mintiendo sus encuestados cuando preguntaba por las fantasías sexuales.

Se pueden correr experimentos controlados (pruebas A/B) en grandes escalas a prácticamente costo cero. Hay mucha información disponible y hay herramientas que lo permiten.

Las cantidades de datos que existen hoy, nos permite hacer zoom en subsets de datos que antes era imposible. Veelo como una foto de un teléfono móvil de hace 10-11 años a una foto con el último smartphone de este año. Antes la calidad de la foto era de 1-2 megabytes y cuando le hacías zoom perdías la imagen y se convertían en pixeles, mientras que hoy las fotos pueden ser de varios gigas y puedes hacerle zoom hasta diferenciar perfectamente las caras en una foto grupal. Es lo mismo con datos, las caras que diferencias en la foto grupal se puede convertir en un “subset” de datos que puede ser estudiado individualmente. Por ejemplo, un profesor en Harvard utilizó un set de datos para comprobar la hipótesis sobre la probabilidad de que una persona se vuelva rico cuando es hijo de padres pobres. Curiosamente el resultado reveló que nacer en una familia pobre en Dinamarca (11.7%) o Canadá (13.5%) es más probable volverse rico, que nacer en una familia pobre y volverse rico en Estados Unidos (7.5%). En el mismo set de datos pero ahora haciendo zoom por estado de U.S.A. es más probable volverse rico si naciste pobre en San José California (12.9%), que en Carolina del Norte (4.4%).

Cargando