Big Data
Gérez et analysez des volumes massifs de données
3 à 10 jours
Max 8 participants
Objectifs de la formation
- Maîtriser l'écosystème Hadoop et Spark
- Gérer des bases de données NoSQL
- Construire des pipelines de données scalables
- Appliquer le Machine Learning sur Big Data
- Architecturer des solutions Big Data
Public concerné
- •Data Engineers
- •Data Scientists
- •Développeurs Big Data
- •Architectes données
Prérequis
Bonnes connaissances en programmation (Python/Java). Expérience SQL recommandée.
Programme détaillé
Hadoop Ecosystem
3 jours- →Architecture Hadoop (HDFS, MapReduce)
- →Hive et requêtes SQL
- →HBase et stockage NoSQL
- →Administration cluster
Apache Spark
4 jours- →RDD et DataFrames
- →Spark SQL et analyses
- →Spark Streaming temps réel
- →MLlib et Machine Learning
Bases NoSQL
2 jours- →MongoDB et documents
- →Cassandra et colonnes
- →Redis et clé-valeur
- →Choix de la bonne DB
Data Engineering
3 jours- →Pipelines de données
- →Airflow et orchestration
- →Kafka et streaming
- →Architecture Lambda
Machine Learning
3 jours- →Introduction au ML
- →Scikit-learn et Python
- →Modèles de classification
- →Deep Learning avec TensorFlow
Stack technique
🐘
Hadoop
⚡
Spark
🍃
MongoDB
🐍
Python
📊
Kafka
🔄
Airflow
🧠
TensorFlow
☁️
AWS/Azure
Cas d'usage pratiques
Analytics temps réel
Pipeline de traitement de logs en temps réel avec Kafka et Spark Streaming.
Recommandation ML
Système de recommandation avec algorithmes de Machine Learning sur Spark.
Data Lake
Architecture complète d'un Data Lake avec Hadoop et traitement par batch.
Maîtrisez le Big Data
Formation intensive avec projets sur clusters Hadoop/Spark