Formation Talend, gérer la qualité des données version 2022

Présentation

Open Studio for Data Quality, un des principaux outils de profilage de données open source du marché. Vous apprendrez à manipuler efficacement cet outil de Talend afin d’évaluer le niveau de qualité des données de votre système d’information. Vous mettrez en œuvre des analyses, et mesurerez la conformité des données aux normes internes ou externes et définirez des stratégies de nettoyage des données erronées.

Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :
  • Se connecter aux sources de données, produire des statistiques, identifier les données à profiler
  • Choisir les différents types d’indicateurs et d’analyses adaptés aux données à contrôler
  • Mettre en œuvre des analyses complexes permettant de vérifier des règles métiers
  • Définir des stratégies de correction des données erronées via des jobs de Talend Data Integration

Publique visé

Analystes métiers, intégrateurs de données, gestionnaires de données.

Prérequis

Bonnes connaissances des bases de données relationnelles et du SQL. Connaissances de base de Talend Open Studio for Data Integration.

Prix

  • 2000€ HT par personne.

Programme de formation

  • L’évaluation de la qualité des données d’un système d’information.
  • Critères fondamentaux : exhaustivité, précision et intégrité des données.
  • Positionnement du produit Talend Open Studio for Data Quality dans la suite Talend.
Travaux pratiques
Installation du produit, configuration des préférences.
 

Les concepts fondamentaux de TOS for Data Quality

  • Les métadonnées : connexions aux bases, fichiers délimités et fichiers Excel.
  • Présentation des différents types d’analyses.
  • Les outils et indicateurs d’aide à la réalisation des analyses.
  • L’explorateur de données.
Travaux pratiques
Effectuer une première analyse de colonne sur des données issues d’un fichier csv, exploitation des résultats obtenus.
  • Recherche de doublons, respect de contraintes d’intervalle, format de date, d’email…
  • Métriques d’une table, dépendances fonctionnelles entre colonnes.
  • Identification des redondances de valeurs.
  • Contrôles de cohérence entre clefs étrangères et primaires.
  • Utiliser les indicateurs, les modèles, les règles et les fichiers sources.
Travaux pratiques
Réaliser une analyse de chaque type sur un jeu de données partiellement erronées.
 

Les analyses avancées

  • Analyse de schéma et de la structure des tables via l’explorateur de données.
  • Analyse multitable et multicolonne, respect de règles métiers.
  • Recherche et visualisation de corrélation entre colonnes.
  • Créer ses propres indicateurs et fichiers sources.
  • Gérer les analyses.
Travaux pratiques
Créer une règle métier complexe impliquant plusieurs tables et l’associer à une tâche. Publier la règle dans la forge Talend.
  • Utiliser des variables de contexte.
  • Créer des modèles basés sur des expressions régulières.
  • Exporter/importer les analyses et les données analysées.
  • Corriger les données erronées avec Talend Data Integration.
Travaux pratiques
Paramétrer les métadonnées et les analyses à l’aide de variables de contexte, exporter les données analysées pour les corriger dans Talend Data Integration.

Méthodes pédagogiques​

Stage Pratique : 70% Pratique, 30% Théorie.
Support de la formation distribué au format numérique à tous les participants.
L’accès aux serveurs et bases de données ainsi que des PC sont fourni pour la pratique.

Modalité d’évaluation​

L’évaluation des objectifs se fait tout au long de la session au travers des multiples exercices à réaliser (70% du temps).

Formateur

Notre formation est assurée par Mohand LARABI, Docteur d’état en informatique et expert de la solution Talend.

Organisation

Les cours commencent à 9h du matin jusqu’à 12h30 puis de 14h jusqu’à 17h30 du soir. Soit 7 heures par jour.

Lieu et dates des sessions

26 avenue Perrichont 75016 Paris

16 au 18 Mai 2022(inclus)​

26 avenue Perrichont 75016 Paris

20 au 22 Juin 2022 (inclus)​

AVIS CLIENTS

Satisfaction

100
%

Assiduité

95
%