Big Data

Gérez et analysez des volumes massifs de données

3 à 10 jours
Max 8 participants

Objectifs de la formation

  • Maîtriser l'écosystème Hadoop et Spark
  • Gérer des bases de données NoSQL
  • Construire des pipelines de données scalables
  • Appliquer le Machine Learning sur Big Data
  • Architecturer des solutions Big Data

Public concerné

  • Data Engineers
  • Data Scientists
  • Développeurs Big Data
  • Architectes données

Prérequis

Bonnes connaissances en programmation (Python/Java). Expérience SQL recommandée.

Programme détaillé

Hadoop Ecosystem

3 jours
  • Architecture Hadoop (HDFS, MapReduce)
  • Hive et requêtes SQL
  • HBase et stockage NoSQL
  • Administration cluster

Apache Spark

4 jours
  • RDD et DataFrames
  • Spark SQL et analyses
  • Spark Streaming temps réel
  • MLlib et Machine Learning

Bases NoSQL

2 jours
  • MongoDB et documents
  • Cassandra et colonnes
  • Redis et clé-valeur
  • Choix de la bonne DB

Data Engineering

3 jours
  • Pipelines de données
  • Airflow et orchestration
  • Kafka et streaming
  • Architecture Lambda

Machine Learning

3 jours
  • Introduction au ML
  • Scikit-learn et Python
  • Modèles de classification
  • Deep Learning avec TensorFlow

Stack technique

🐘

Hadoop

Spark

🍃

MongoDB

🐍

Python

📊

Kafka

🔄

Airflow

🧠

TensorFlow

☁️

AWS/Azure

Cas d'usage pratiques

Analytics temps réel

Pipeline de traitement de logs en temps réel avec Kafka et Spark Streaming.

Recommandation ML

Système de recommandation avec algorithmes de Machine Learning sur Spark.

Data Lake

Architecture complète d'un Data Lake avec Hadoop et traitement par batch.

Maîtrisez le Big Data

Formation intensive avec projets sur clusters Hadoop/Spark