Conociendo Hadoop (MapReduce) Part III

Integratek México

¿Qué es MapReduce?

Es un Framework de software para escribir fácilmente aplicaciones que procesan grandes cantidades de datos en paralelo en grandes grupos de hardware básico de manera confiable y tolerante a fallas.

Un trabajo de MapReduce generalmente divide el conjunto de datos de entrada en fragmentos independientes que son procesados ​​por las tareas de mapa de manera completamente paralela. Se ordenan los resultados de los mapas, que luego se ingresan a las tareas de reducción.

El Framework MapReduce consta de un único Master ResourceManager, Slave NodeManager por Cluster-Node y un MRAppMaster por aplicación.

Entradas y Salidas

El framework MapReduce opera exclusivamente en pares <key, value>, es decir, el marco ve la entrada al trabajo como un conjunto de pares <key, value> y produce un conjunto de pares <key, value> como la salida del trabajo.

Ilustración del Workflow de Mapreduce

El Algoritmo Mapreduce usa los siguientes 3 pasos principales.
Función Map
Función Shuffle
Función Reduce

Función Map

Esto toma las tareas de entrada (llamados Conjuntos de Datos) y los divide en subtareas. Entonces realiza el cómputo requerido en cada subtarea en paralelo.
Este paso realiza los siguientes dos pasos:
Splitting
Mapping
Splitting. toma el Conjunto de Datos del Origen y divide en Sub Conjuntos de Datos pequeños.
Mapping. toma los Subconjuntos de Datos pequeños y realiza la acción o el cálculo requerido.

Función Shuffle
Esta función también es conocida como Función de Combinación. En este paso se realiza los siguientes dos pasos.
Merging
Sorting
Toma la lista de la salida de la Función Map y realiza estos dos pasos secundarios en cada uno de los pares clave-valor.
Merging. Combina todas los pares key-value cual tiene la misma llave. Este paso retorna <Key,List<Value>>.
Sorting. Toma como entrada la salida del Merging y ordena los pares key-value usando key. Este paso retorna <Key, List<Value>> pero ordenado.
La función Shuffle devuelve una lista de <Key,List<Value>> pares ordenadas para el siguiente paso.

Función Reduce
En este paso realiza en un solo paso. Este toma la lista de pares <Key, List<Value>> ordenadas de la
salida de la función Shuffle Function y realiza la operación reduce.

Salida de la función Reduce

Reduce Function Output = List of <Key, Value> Pairs

La salida se parece a la salida del pimer paso. Sin embargo los pares <Key,Value> finales son diferentes
que los primeros pares <Key,Value>. Los pares <Key,Value> del paso final son pares calculados y ordenados.

Integratek México
Data Specialist

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.