Formation Big Data : Les techniques d'Analyse et de Visualisation


  • HIVE, PIG, IMPALA, SPARK, DRILL, ELASTICSEARCH, LOGSTASH, KIBANA, DATAVIZ
REFERENCE
 
 
OTAV
DUREE
 
 
4 jours
TARIFS
 
 
2390 € HT
Niveau : Débutant
Cours à distance: Possible
OBJECTIFS :
 

L’objectif de cette formation est de vous rendre autonome dans l’analyse et la visualisation des données dans un contexte Big Data.

Un premier rappel permet de replacer les technologies dans le contexte du Big Data afin de clairement comprendre pourquoi de nouveaux outils apparaissent par rapport aux standards SQL ou de visualisation.
Ensuite, la progression logique de la formation vous permettra de savoir structurer vos données, les alimenter, les analyser et enfin de les visualiser avec le bon outil. On se situe ainsi dans un scénario cohérent et réaliste autour du cycle de vie des données.
Les nombreuses manipulations réalisées durant la formation vous permettront non seulement de disposer d’une vue générale très précise des différents concepts et outils, y compris sur le plan méthodologique, mais aussi d’être véritablement opérationnel sur les standards du marché comme Hive, Pig, Impala, ou Spark. Vous saurez également choisir le bon outil de visualisation pour restituer des présentations dynamiques sur des analyses plus ou moins complexes (Drill, Elasticsearch…) en communiquant de manière efficace et accessible (Dataviz, Data Storytelling).

PRÉ-REQUIS :
 

Des connaissances de base sur le langage SQL, le développement et les statistiques (de niveau scolaire) sont nécessaires pour suivre ce cours.

PUBLIC :
 

Cette formation est destinée aux statisticiens, analystes de données (Data Analyst), consultants en informatique décisionnelle (BI), dataminers, développeurs, chefs de projets.

PROGRAMME :
 

Comprendre les spécificités du Big Data

Les origines du Big Data
Les données au cœur des enjeux (volume, diversité, IoT etc.)
Les limites des architectures actuelles et de la BI
Sécurité, éthique, environnement juridique (données personnelles, CNIL, accords internationaux, etc.)

Les technologies Big Data (stockage, recherche, visualisation)

Comprendre Hadoop et ses composants
Le système de fichiers répartis HDFS
Philosophie de MapReduce
Quelles différences entre les distributions (Hortonworks, Cloudera, MapR) pour l’analyste ?
Différentes catégories de bases NoSQL (clé/valeur, documents, colonnes, graphes)
Indexer et rechercher des données avec Elasticsearch
Les visualiser à l’aide de KIBANA
Quand utiliser le couplage Elasticsearch, Logstash, Kibana (ELK) ?
Le moteur de recherche SolR
SAS VA et autres solutions mixtes Cloud/On Premice pour explorer vos données
IBM Watson (fédération des informations)
Solution BI Classique
Impacts techniques et financiers

Gestion des données structurées ou non

Exemples de données non structurées
Manipuler les données avec différents formats de fichiers :
- Mode tableau
- Fichiers plats : CSV, JSON
- Structures optimisées : Parquet
- Organisation relationnelle : Hive metastore
Le Master Data Management (MDM) pour réconcilier les référentiels
Stocker et manipuler des données HDFS
Structurer vos données avec Hive (bases, tables, etc.)

La collecte de données

Intégrer les données avec un ETL
Utiliser Scoop pour intégrer les données depuis une base de données relationnelle
Travailler en streaming avec Kafka et Spark Streaming
Utiliser le langage Pig latin pour intégrer les données

L’analyse des données

Choisir le bon outil en fonction de la structure des données et du traitement (Pig, Hive, Impala, etc.)
Liens avec les outils décisionnels
Vue générale des différentes méthodes d’analyse (exploration, segmentation, classification, estimation, prédiction)
Requêter avec Hive (jointure sur des données non structurées, tri, regroupement, etc.)
Analyser les données avec Pig (script et interactif avec Grunt)
Interagir avec Hadoop en temps réel (traitement parallèle avec Impala, interroger les données Hive avec Spark)
Analyse interactive de données avec Drill
Analyse des données de log avec Elasticsearch

La visualisation des données (Dataviz)

Ce que les statistiques ne disent pas
Les objectifs de la visualisation
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)

REMARQUES :
 

Il est possible de suivre cette formation Big Data à distance. Vous participez en temps réel à la même session en même temps que les autres participants présents eux en salle de cours. Un kit spécial formation à distance vous sera envoyé avec notamment le matériel (casque micro). Vous n’avez besoin que d’un navigateur et d’une connexion internet pour suivre dans les meilleures conditions ce cours à distance Big Data. Contactez-nous pour plus d’informations sur cette formation en direct de chez vous ou depuis votre bureau.

TRAVAUX PRATIQUES :
 

Ce stage est illustré par une étude de cas qui s'attache à la chaîne globale du traitment des données et pas uniquement à leur analyse.
Les travaux pratiques portent sur les points suivants :
- Utilisation d’Elasticsearch et analyse de logs avec Hive et Pig sur des serveurs WEB
-Analyse de tweets avec Kibana
- Création d’un dashboard avec SAS VA.

S'INSCRIRE À CETTE
FORMATION BIG DATA ANALYSE VISUALISATION
Cliquez sur une date pour vous inscrire
Information pratiques sur
LA FORMATION
Lieu de la formation Paris - LA DEFENSE
Nous contacter 01 43 34 90 94
CETTE FORMATION SUR-MESURE Ce cours est réalisable en intra-entreprise, dans vos locaux ou nos salles de cours CONTACTER NOTRE SERVICE INTRA
D'autres formations
SUR LE MÊME THÈME

1 j

 
La DataViz ou encore Data Visualisation ou enfin en français la visualisation des données regroupe les techniques permettant de comprendre plus facilement la signification des...

4 j

 
Cette formation vous présente les principales technologies concernant le développement d’applications Big Data. Elle forme un ensemble cohérent dans la mesure où,...

3 j

 
Cette formation Concevoir et piloter un projet Big Data vous permet de comprendre le contexte spécifique, le vocabulaire et les enjeux du Big Data afin de bien positionner les fondations...

3 j

 
Cette formation s’adresse aux personnes qui participent à des projets Big Data, Data Mining ou décisionnel et qui souhaitent soit comprendre le vocabulaire des statisticiens,...
Plus de formations sur le même thème

Des questions ?

ON VOUS RAPPELLE

Tampon du Fafiec indiquant que PLB Consultant est partenaire de ses actions collectives

Votre formation Big Data prise en charge à 100% ! *

Depuis Janvier 2017, le Fafiec a sélectionné PLB Consultant pour vous proposer les meilleures formations autour du Big Data.

Sessions inter-entreprise sur  Paris, Lyon et Lille. 

Sessions intra-entreprise sur  toute la France.

*100% des coûts pédagogiques, offre valable dans la limite des fonds mutualisés dédiés aux actions collectives, en application des critères de prise en charge en vigueur (voir conditions détaillées sur le site du FAFIEC)

 

0

Formations
Informatique
et Management
en ligne à ce jour

+ 0

Stagiaires dans nos
salles de cours sur
l'année

0%

De participants
satisfaits ou très
satisfaits de nos
formations

0

Formateurs experts
validés PLB