Luis Molina

tecnologías de la información, experiencias, conocimiento

Sesión de Introducción a Big Data

with 2 comments

Big-Data-Landscape-Jul-4-2012.00111

El pasado 23/04/2013 asistí a un evento organizado por FORMAN en el PTA (Málaga) donde José Álvarez Gómez impartió una sesión introductoria a Big Data desde el punto de vista de Oracle: además de introducir el concepto general de Big Data, también informó sobre Oracle Big Data Appliance.

20130423 Agenda intro Oracle Big DataComparto aquí algunas notas que tomé durante la sesión.

El concepto Big Data

Big Data (en Wikipedia)) se puede definir como un conjunto de técnicas y de tecnologías que permiten analizar eficazmente todos los datos disponibles, estructurados o no, obtenidos de diferentes recursos u orígenes. El uso de estas técnicas y tecnologías se reparte en cuatro fases del análisis:

  1. Adquirir.
  2. Organizar.
  3. Analizar.
  4. Decidir.

Los objetivos de captar toda la información posible deben ser (a) reaccionar a eventos y (b) poder cambiar por los resultados de forma proactiva.

Nos encontramos con grandes retos: enormes volúmenes de datos que se generan a gran velocidad. Pero, sobre todo, la necesidad de obtener los valores que interesan, a partir de estos grandes volúmenes de datos, en el tiempo adecuado.

En general, el término Big Data se aplica sobre todo a esos grandes volúmenes de datos no estructurados que se filtran, se procesan, se almacenan posteriormente en bases de datos estructuradas y se integran con mi aplicación.

Tecnologías y software para Big Data

Me permito poner aquí una diapositiva de la sesión que muestra una arquitectura para Big Data:

2012_10_Bigdata_Overview-18

Destaco algo de tecnologías y software comentados en la sesión:

  • Cloudera: una distribución de Apache Hadoop que se utiliza en las fases de adquisición y organización de datos no estructurados. De esto me llamó  la atención el Hadoop Distributed File System (HDFS), un sistema de ficheros distribuido especialmente útil en este tipo de aplicaciones.
  • Oracle NoSQL Database: base de datos distribuida basada en pares clave-valor, usada sobre todo en la fase de adquisición de datos no estructurados.
  • Oracle Data Integrator: herramienta para integrar datos de diferentes fuentes que se utiliza en la fase de organización de datos junto con los conectores Oracle Loader for Hadoop y Oracle Direct Connector for HDFS.
  • MapReduce: framework para computación distribuida diseñado para dar soporte a grandes cantidades de datos. Forma parte del sistema Hadoop y se utiliza en las fases de adquisición y organización de datos, pues opera con pares clave-valor.
  • R: lenguaje de programación de código abierto diseñado para computación estadística y para generación de gráficas. Oracle también tiene su distribución que se puede utilizar en la fase de análisis de datos.
  • Endeca Information Discovery: otro producto de Oracle que forma parte del Business Intelligence que se utiliza en las fases de análisis y decisión.

Para finalizar, podéis acceder a las diapositivas de la presentación aquí y aquí.

Written by Luis Molina

21 mayo 2013 a 07:40

2 comentarios

Subscribe to comments with RSS.

  1. Gran trabajo.

    GLORIA MARTIN

    29 mayo 2013 at 21:34


Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s