El Big Data es un término que se ha acuñado para referirse a la manipulación de una gran cantidad de datos y puede ser analizado para obtener información o insights que a largo plazo lleven a mejores decisiones y estrategias empresariales. Beneficia a áreas tan variadas como las relaciones con los clientes, la optimización de operaciones y la prevención de fraude. El volumen masivo, la variedad y la velocidad que ahora toma la información hace imprescindible capturar, almacenar y analizar todo este complejo engranaje. Por ello, al Big Data le caracterizan las denominadas ‘cinco V’:
Los datos almacenados en los depósitos de las empresas ha pasado de ocupar megabytes a gigabytes y luego a petabytes. El 90% de toda la información existente se ha creado en los últimos 2 años. Para hacernos una idea, Google procesaba más de 20 petabytes al día ¡en 2008!
Se estima que este año se procesarán en el mundo 40 zettabytes de datos y se prevé que la cantidad de datos en el mundo se duplicará cada dos años. Un gran contribuyente del volumen de datos es el Internet de las Cosas (IoT por sus siglas en inglés), el cual obtiene una cantidad ingente de información a través de sensores.
La velocidad del movimiento, proceso y captura de datos dentro y fuera de la empresa ha aumentado significativamente. Los modelos basados en inteligencia de negocios generalmente suelen tardar días en procesarse, frente a las necesidades analíticas de hoy en día que requieren la captura y procesamiento de datos “casi” en tiempo real, gracias al flujo de datos a alta velocidad.
La velocidad prácticamente a tiempo real es gracias a la ubicuidad y la disponibilidad de dispositivos conectados a internet, sean estos inalámbricos o no. Hoy por hoy, la velocidad de transmisión de la información es extraordinaria. Por ejemplo, se estima que se suben 500 horas de vídeo a YouTube por minuto y que en ese mismo tiempo se envían 200 millones de correos electrónicos.
La diversidad de datos ha explotado, pasando de ser datos almacenados y estructurados, guardados en bancos de datos empresariales, a ser desestructurados, semiestructurados y con distintos formatos (audios, vídeos, XMLs, etc.). A modo de ejemplo, más de 3,5 miles de millones de personas realizan llamadas, mandan mensajes de texto, tuitean y navegan por internet con teléfonos móviles.
Se estima que hoy por hoy, el 90% de los datos son generados de manera desestructurada. Y no todos los métodos de análisis valen para todo tipo de datos, por lo que estos deben adecuarse a la naturaleza de la información en cuestión.
Se busca promover la búsqueda de la veracidad de los datos para la obtención de información confiable. A los datos veraces se les puede sacar un mayor provecho por el grado de calidad que presentan. Esto resulta particularmente relevante para organizaciones que centran su negocio en la información.
No obstante, ante la gran cantidad de información existente, hay quienes consideran la veracidad una característica secundaria del Big Data.
Hace referencia a la rentabilidad resultante de la gestión de los datos. La clave del Big Data no es la cantidad ingente de información, sino el uso y/o manejo que se haga de ella. Aunque la implementación de infraestructuras informáticas para lidiar con los grandes volúmenes de datos es costosa, esta puede proporcionar a las empresas importantes ventajas competitivas.
Una referencia habitual que se suele tener en cuenta cuando se habla del valor del Big Data es el número de personas conectadas a Internet en el mundo: 3.149 millones de usuarios hiper-conectados, lo cual supone una gran bolsa de datos cuyo rendimiento aún está por estimar en muchos sectores.
Dos ‘V’ adicionales
Además de las ‘V’ mencionadas anteriormente, hay expertos que proponen incluir también otros aspectos. Como Mark Van Rijmenam, uno de los 10 influencers globales relacionados con esta temática, que asegura que deben agregarse variabilidad y visualización de los datos a las 5 ‘V’ anteriores:
La variabilidad hace referencia a la variabilidad en el significado, en el léxico. Esto es relevante a la hora de llevar a cabo análisis de percepciones. Los algoritmos deben ser capaces de comprender el contexto y descifrar el significado exacto de cada palabra en su respectivo entorno. Este análisis semántico resulta mucho más complejo.
La visualización es lograr que toda la cantidad de datos recolectados y analizados sean comprensibles y sencillos de leer. Sin una visualización adecuada, no se puede sacar el máximo rendimiento y aprovechamiento de los datos en bruto.
¿Te interesan las APIs financieras? Descubre todas las que te ofrece BBVA