Carif-Oref Provence - Alpes - Côte d'Azur - Big Data : récolte et analyse de données volumineuses module Machine Learning

Formation

Big Data : récolte et analyse de données volumineuses module Machine Learning

Organisme responsable juridiquement de la formation

Cegefos

• Acquérir les bases du Machine Learning
• Apprendre à créer les modèles et les mettre en production
• Comprendre les possibilités du Machine Learning
• Formaliser son problème de Machine Learning
• Apprendre à Manipuler les données
• Apprendre à construire des modèles prédictifs
• Apprendre à utiliser ces modèles en production
• Apprendre à évaluer les performances

Contenu

Jour 1
Faire de l’apprentissage automatique via des outils Open Source

Présentation du Machine Learning et de ses possibilités:
• Les fondamentaux
• Apprendre à formaliser les problématiques
• Exemple du Data Science en entreprise

Créer un premier Problème Prédictif:
• Techniques d’apprentissage(les plus proches voisins, modèles Linéaire, arbre de décision, …)
• Révision des bases de la programmation
• Apprentissage d’un modèle avec librairie Open Source

Préparation des données afin de les utiliser dans un système d’apprentissage:
• Présentation du feature Engineering et les limites
• Technique d’exploration de données
• Procédure de Prétraitement et de nettoyage

Jour 2
Apprendre à évaluer et déployer des modèles prédictifs

Apprendre à évaluer des modèles prédictifs :
• Création des jeux d’apprentissage, mise en place de leur validation et test.
• Tester la représentativité des données
• Mesure de performance des modèles prédictifs
• Apprendre à faire une matrice de confusion et de coût

Apprendre à Sélectionner les modèles
• Déterminer l’exactitude des prédictions avec les ensembles de modèles
• Apprendre à créer des arbres de décisions

Apprendre à déployer :
• Déterminer l’importance des APIs en production.
• Vue d’ensemble des solutions Open Source
• Apprendre à créer des APIs
• Apprendre à Gérer l’authentification
• Savoir utiliser Amazon Machine Learning et BigML

Utilisation du ML sur du texte:
• Conseils de prétraitement des données textuelles
• Mise en pratique avec la librairie open source NLTK

Jour 3
Aller plus loin avec le Machine Learning

Techniques avancées:
• Principe du Gradient Boosting et utilisation de la librairie open source XGBoost
• Pipelines de Machine learning: enrichissement et sélection de features, modélisation
• Techniques d'optimisation des paramètres de pipelines de Machine learning: grid search, random search et utilisation de la librairie open source hyperopt
• Autres problèmes d'apprentissage:
• Réseaux de neurones et Deep Learning:
• Développer son propre cas d’usage:

31036 Administration base de données

Rome (Métiers) :

M1801 Administration de systèmes d'information

NSF (Spécialités de formation) :

326 Informatique, traitement de l'information, réseaux de transmission des données

Entrées/sorties permanentes

Formation 100% à distance

Niveau de sortie : Sans niveau spécifique

Organisme formateur :
Cegefos

Big Data : récolte et analyse de données volumineuses module Machine Learning

Cegefos

Public visé

Objectifs

Contenu

Prérequis

Durée

Contact(s)

Référentiels de formation (Formacode, Rome, NSF)

Du 07/05/2021 au 31/12/2025

Validation : BIG DATA : Récolte et analyse de données volumineuses

Contact