Skip to content

Latest commit

 

History

History
91 lines (52 loc) · 5.56 KB

starting_sparkR.md

File metadata and controls

91 lines (52 loc) · 5.56 KB

Máster en Ciencia de Datos e Ingeniería de Computadores. Prácticas de BigData y Cloud Computing. Curso 2016-2017.

Header

Manuel J. Parra Royón ([email protected]) & José. M. Benítez Sánchez ([email protected])

UGR | DICITS | SCI2S | DECSAI

Manuel J. Parra Royón ([email protected]) & José. M. Benítez Sánchez ([email protected])

Primeros pasos SparkR

Antes de comenzar, descarga la MV que contiene todo para poder trabajar (spark, R, hadoop, rstudio, jupyter, etc):

https://drive.google.com/file/d/0ByPBMv-S_GMEakRCVVRTejZKVm8/view?usp=sharing

Objetivos

Los objetivos del taller de SparkR son los siguientes:

  • Conocer la problemática del procesamiento masivo de datos.
  • Fijar concepto y práctica sobre uso R sobre Spark para el procesado masivo de datos.
  • Instalar y configurar el sistema completo para poder trabajar con R y Spark.
  • Trabajar con datos masivos (filtrado, agregado, transformaciones), procesar datasets masivos son SparkSQL, etc..
  • Analizar datasets con las librerías de Machine Learning de los paquetes SparkR y sparklry
  • Utilizar herramientas para visualizar los datos de datasets masivos.

Contenido

En el taller de procesamiento masivo de datos con SparkR veremos lo siguiente:

1.- Introducción al procesamiento de datos masivos. Breve introducción al procesamiento de datos, el problema de trabajar con grandes conjuntos de datos, Hadoop,Motivación de Spark, características, etc...

2.- Notas sobre R, Spark y SparkR
Introducción a R, motivación de R para datos 'pequeños' y datos 'grandes', Spark y sus características, biblioteca de SparkR para análisis de datos masivos con R.

3.- Instalación de las herramientas necesarias para el taller
Veremos todas las herramientas necesarias para poder trabajar con el entorno de SparkR, así como la instalación y puesta en marcha de toda la infraestructura necesaria para el taller. Inicio del entorno de trabajo habitual para trabajar en el taller.

4.- Entorno de trabajo del taller
Detalles del manejo del entorno de trabajo con JupyterNotebooks y Spark + R

5.- Inicio del entorno de trabajo
Flujo de trabajo con Spark + R

6.- Primeros pasos con SparkR
Trabajo con ejemplos de uso de Spark + R

7.- Lectura y Escritura de datos con SparkR
Trabajo con fuentes de datos, y tipos de conjuntos de datos, CSV, JSON, Parquet, ... Lectura y Escritura. Esquemas, y breve trabajo con SparkSQL.

8.- Operaciones y procesado de SparkDataFrames
Trabajamos y procesamos conjuntos de datos masivos con SparkSQL y funciones de agregación, filtrado, selección, etc. Usamos flujos de trabajo con magrittr. Revisamos la funcionalidad completa de la biblioteca de SparkR.

9.- Minería de datos con la biblioteca de SparkR
Aplicamos las técnicas de minería de datos y Machine Learning que proporciona SparkR: GLM, KMeans, NaiveBayes y AFT.

10.- Minería de datos con la biblioteca sparklyr
Utilizamos la funcionalidad de la biblioteca sparklyr para procesar conjuntos de datos. Aplicamos los métodos de minería de datos y otras operaciones.

Taller práctico de SparkR.

Puedes empezar el taller práctico tanto desde Jupyter como RStudio, siguiendo los siguientes enlaces a la documentación: