Pla docent de l'assignatura

 

Tanca imatge de maquetació

 

Imprimeix

 

Dades generals

 

Nom de l'assignatura: Dades Massives

Codi de l'assignatura: 572667

Curs acadèmic: 2018-2019

Coordinació: Jordi Nin Guerrero

Departament: Departament de Matemàtiques i Informàtica

crèdits: 3

Programa únic: S

 

 

Programari

 

API spark, http://spark.apache.org/docs/latest/api.html 

 

 

Hores estimades de dedicació

Hores totals 75

 

Activitats presencials

30

 

-  Teoricopràctica

 

30

Treball tutelat/dirigit

15

Aprenentatge autònom

30

 

 

Competències que es desenvolupen

 

Learn to configure a MapReduce cluster

 

Learn to use Hadoop Distributed Filesystem (HDFS) and hive

 

Know the differences between Hadoop and Spark

 

Know the main Spark data structures

 

Be able to implement data science applications in a cluster

 

Know the main information sources about Big Data

 

 

 

 

Objectius d'aprenentatge

 

Referits a coneixements

Most of date science problems involve to work with big volumes of information that has be stored, cleaned and processed to be useful for machine learning algorithms. This subject focuses on explaining how to develop and end-tone-end data science application to allow students to develop data products based on big data technologies.

 

 

Blocs temàtics

 

1. Introduction

2. MapReduce paradigm

3. HDFS Filesystem

4. Spark ecosystem

5. Spark data structures

 

 

Metodologia i activitats formatives

 

All sessions follow a practical approach, where the teacher will explain a certain concept and the students will apply it autonomously.

 

 

 

Avaluació acreditativa dels aprenentatges

 

NF = Final mark, F = Final Exam, L = Labs

NF =  0,75 * F + 0,25 * L

 

Avaluació única

NF = Final mark, F = Final Exam, L = Labs

NF = 0,6 * F  + 0,4 * L