Formation IBM InfoSphere Advanced DataStage - Parallel Framework v11.5


REFERENCE
 
 
KM404G
DUREE
 
 
3 jours
TARIFS
 
 
2150 € HT
Niveau : Intermédiaire
Cours à distance: Possible
E-learning: Possible
Cours officiel: IBM
OBJECTIFS :
 

Cette formation InfoSphere Advanced DataStage - Parallel Framework v11.5 est consacrée aux techniques avancées de développement de jobs en parallèle dans DataStage v11.5. Vous approfondissez votre connaissance de l'architecture de DataStage, ainsi que de ses environnements de développement et d'exécution. Vous pourrez ainsi créer des tâches en parallèle robustes, plus fiables, réutilisables et optimisées pour de meilleures performances.

À l'issue de cette formation, les participants auront acquis les connaissances et les compétences nécessaires pour :

  • Décrire l’architecture parallèle
  • Décrire les rôles et éléments des fichiers de configuration de DataStage
  • Décrire le processus d’exécution du runtime job
  • Décrire comment fonctionne le partionnement et la collecte de données dans la structure parallèle
  • Lister et sélectionner les algorythmes de partionnement et de collecte
  • Décrire les techniques d’optimisation de tri
  • Décrire la fonction tampon dans la structure parallèle
  • Décrire les techniques d’optimisation de tampon
  • Décrire et travailler les types de données et éléments de la structure parallèle
  • Décrire le fonctionnement et l’utilisation de la propagation de la colonne Runtime (RCP)
  • Créer des composants réutilisables d’emploi à l’aide de conteneurs partagés
  • Décrire le fonctionnement et l’utilisation de l’optimisation équilibré
  • Optimiser les travaux parallèles DataStage
PRÉ-REQUIS :
 

Pour suivre ce cours, il est nécessaire d'avoir suivi la formation InfoSphere DataStage Essentials et d'avoir au minimum une année d'expérience en développement de jobs parallèles avec DataStage.

PUBLIC :
 

Ce cours est destiné aux développeurs DataStage expérimentés souhaitant perfectionner leurs techniques de jobs et comprendre l'architecture du framework Parallel.

PROGRAMME :
 

Introduction à l'architecture du framework Parallel 

Comprendre l'architecture de Parallel
Comprendre le pipeline et la partition
Comprendre le rôle du fichier de configuration
Créer un job de test de données robuste

Compilation et d'exécution de jobs

Connaître les parties principales du fichier de configuration
Connaître le processus de compilation et l'OSH
Connaître le rôle et les parties principales du Score
Connaître le processus d'exécution des tâches

Le partitionnement et la collecte des données

Comprendre le partitionnement dans le framework
Voir le partitionnement dans Score
Sélectionner les algorithmes de partitionnement
Générer des séquences de nombres (clés de substitution) dans un environnement parallèle partitionné

Trier les données

Trier les données dans Parallel
Trouver des types de tris dans le Score
Réduire le nombre de tris 
Optimiser les tâches Fork-Join
Utiliser la fonction Sort stages pour déterminer la dernière ligne d'un groupe
Décrire les clés de tri et la logique de la clé de partition dans Parallel

Les buffers dans les tâches en parallèle

Comprendre le fonctionnement des buffers dans les jobs en parallèle
Régler les buffers
Éviter les restrictions de buffers

Les types de données dans Parallel

Connaître les ensembles de données virtuelles
Connaître les schémas
Connaître le mapping et les conversions de types de données
Comprendre le traitement des données externes
Gérer les valeurs nulles
Travailler avec des données complexes

Les composants réutilisables

Créer un fichier Schéma
Lire un fichier séquentiel en utlisant un schéma
Connaître Runtime Column Propagation (RCP)
Activer et désactiver RCP
Créer et utiliser des containers partagés

L'optimisation et équilibrage

Activer la fonction Balanced Optimization dans Designer
Connaître le déroulement de l'optimisation équilibrée
Connaître les différentes options de la fonction d'optimisation
Pousser le stage processing vers une source de données
Pousser le stage processing vers une cible de données
Optimiser ses tâches à l'aide d'Hadoop HDFS
Comprendre les limites de l'optimisation équilibrée.

S'INSCRIRE À CETTE
FORMATION INFOSPHERE V11.5
Cliquez sur une date pour vous inscrire
Information pratiques sur
LA FORMATION
Lieu de la formation Paris - LA DEFENSE
Nous contacter 01 43 34 90 94
CETTE FORMATION SUR-MESURE Ce cours est réalisable en intra-entreprise, dans vos locaux ou nos salles de cours CONTACTER NOTRE SERVICE INTRA
D'autres formations
SUR LE MÊME THÈME

3 j

 
Ce cours est remplacé par la formation en v11.5 IBM InfoSphere Advanced DataStage - Parallel Framework v11.5 (KM404G) Cette formation InfoSphere DataStage Parallel Framework 11.3...

3 j

 
Cette formation "Les bases d'IBM Infosphere BigInsights" présente aux participants une vue d'ensemble de la stratégie Big Data d'IBM et de la solution...

4 j

 
Cette version n'est plus dispensée en INTER, pour suivre la formation v4, reportez-vous au cours Programming for InfoSphere Streams V4 with SPL (DW724G) Cette formation est...

4 j

 
This course is designed to teach you about the Streams Processing Language. It will begin with the basic concepts of InfoSphere Streams and the basic Streams Processing Language operators used in...
Plus de formations sur le même thème

Des questions ?

ON VOUS RAPPELLE

 

0

Formations
Informatique
et Management
en ligne à ce jour

+ 0

Stagiaires dans nos
salles de cours sur
l'année

0%

De participants
satisfaits ou très
satisfaits de nos
formations

0

Formateurs experts
validés PLB