Dicen que el hombre más poderoso es el mejor informado. Hoy vivimos en la era de la información, o más exactamente, hoy vivimos en la era de los datos, una auténtica revolución. Estudios recientes estiman que el volumen de información almacenado en Internet supera ya los 2 zettabytes o lo que es lo mismo, alrededor de 2 billones de terabytes.
A diario se generan, almacenan, gestionan y analizan ingentes cantidades de datos cuyo origen es tan variado como:
Archivos de vídeo e imágenes, Archivos MP3, vídeo bajo demanda, televisión a la carta, e-Commerce, informes financieros y comerciales, Transacciones bancarias, movimientos de bolsa, Información sensible, operaciones militares, servicios de inteligencia, Posicionamiento GPS, Blogs y redes sociales, Contenidos e-Learning, Perfiles de usuarios, Registros y puntuaciones en juegos online, apuestas online, Datos generados por centros de investigación y organismos gubernamentales, Informes médicos e investigación sanitaria, etc.....
Sólo dos ejemplos. Diariamente se suben a la red social Facebook más de 300 millones de fotos y se visualizan más de 130 millones de horas de Youtube.
Y esto es sólo la punta de iceberg, sin olvidarnos de toda la información generada por los sensores y dispositivos electrónicos de última generación y que conocemos como el "Internet de las cosas", que hace que el flujo de datos que circula diariamente por la red aumente de forma exponencial.
Un ejemplo elocuente es el dispositivo PAWSCAM, una pequeña cámara que colgada de nuestra mascota genera imágenes de todo aquello que puede ser de interés, y que una vez grabadas son enviadas a la nube para posteriormente ser compartidas o visualizadas en nuestros dispositivos móviles smartphones o tablets.
¿A dónde nos lleva todo esto? Veamos:
Gran parte de la información almacenada corresponde a datos estructurados que pueden ser gestionados por los tradicionales sistemas de gestión de bases de datos relacionales o RDBMS. Sin embargo, otra parte aún más importante corresponde a información no estructurada, tales como documentos, imágenes, vídeos, y no hablamos sólo de información generada por empresas privadas u organismos públicos, sino también aquella generada por individuos en su interacción con dispositivos móviles, redes sociales u otras aplicaciones.
Por otro lado, cuando el volumen de información supera los límites soportados por los sistemas relacionales es posible encontrar soluciones en los denominados Data Warehouse, bases de datos corporativas que a grandes rasgos nos permiten analizar los datos reduciéndolos a bloques más pequeños y más enfocados a un área particular del negocio. Sin embargo estos sistemas tampoco pueden gestionar de forma totalmente eficiente los datos no estructurados.
¿Qué ocurre por lo tanto cuando todo esto no es suficiente?
Aquí es donde entra en juego el concepto de Big Data, es decir, datos que exceden la capacidad de procesamiento de los sistemas de bases de datos relacionales. Big Data no hace referencia a una sola tecnología, sino que combina una amplia variedad de recursos tecnológicos, que juntos nos permiten manipular grandes cantidades de datos, de origen dispar y a una gran velocidad. Podemos resumir el concepto de Big Data atendiendo a tres características fundamentales y que se conocen como las tres V, es decir, volumen de datos, velocidad de procesamiento y variedad en los tipos de datos.
El valor de Big Data en las organizaciones actuales se puede incluir en dos categorías, por un lado el análisis de datos y por otro lado el diseño de nuevos productos que permiten satisfacer nuevas necesidades en diversos escenarios.
¿Qué ha contribuido a la rápida adopción de Big Data en los procesos de toma de decisiones en las grandes organizaciones?
Básicamente dos razones. En primer lugar las arquitecturas Cloud Computing escalables, muy asequibles actualmente, y en segundo lugar el abaratamiento de los costes del hardware así como la aparición de potentes soluciones de software open source que proporcionan a las empresas un conjunto de herramientas de alto rendimiento y disponibilidad.
¿Cómo pueden beneficiarse actualmente las startups del nuevo paradigma de análisis y procesamiento de los datos, o Big Data?
Varios son los factores que condicionan el éxito de una startup, pero si hay alguno que predomina sobre los demás, en mi opinión, es la agilidad, es decir, la rapidez o reducción en los tiempos de invertimos en la experimentación y exploración de nuestro entorno y de las oportunidades de negocio.
Los estudios de mercado, el análisis de tendencias de compra a partir de los datos de compra recogidos a partir de miles de millones de transacciones o los estudios de población derivados de la interacción social y ubicación geográfica de los individuos son sólo una pequeña muestra de los ámbitos en los que el concepto de Big Data puede servir de ventaja competitiva para las organizaciones que buscan posicionarse en un mercado global cada vez más exigente.
En el siguiente artículo analizaremos los componentes tecnológicos asociados a Big Data, como Hadoop, un framework open source para cloud computing y el modelo MapReduce desarrollado por Google.