Technologies

25.09.2019
Data Lake pour la gestion de données non structurées
Data Lake
La sauvegarde d'un grand volume de données non structurées

Depuis plus de 30 ans, nos systèmes de contrôle qualité automatisés et nos bancs de test génèrent une très importante quantité de données. Certains de nos systèmes ont acquis des données de 100% de produits sortants des lignes de production de nos clients depuis plus de 10 ans. Nous voulons maintenant proposer de nouvelles fonctions mettant en valeur les données par exemple pour mieux comprendre les processus de production. Pour ce faire, il est nécessaire de centraliser toutes les données et de pouvoir faire des recherches intelligentes. Le Data Lake est l'outil idéal, nous avons donc engagé une démarche pour ajouter leur maitrise  au portfolio de savoir-faire de QMT.

Logiciels QMTMesure
 
Mise en oeuvre d'un Data Lake performant
La gestion des données et leurs valorisations
Qu’est-ce qu’un Data Lake

Un data lake est un moyen de stockage de données de natures différentes dans leurs formats originaux. À l’échelle macro, il y a 3 types de données présentes dans un data lake :

  • Les données structurées telles que des données dans une base de données, ou un fichier Excel
  • Les données semi-structurées telles que des fichiers *.xls, *.csv, *.json ou des logs
  • Les données non-structurées telles que des fichiers image, son ou texte

La distinction entre les données structurées et non-structurées se fait par la caractéristique d’une donnée avec laquelle un utilisateur travaille. Sur une donnée structurée, il travaille sur la ou les valeurs de la donnée alors que pour la donnée non-structurée il travaille avec les informations sur cette donnée. Ces informations sont les métadonnées ou « Tags ».

A gauche : exemple de données structurées (un fichier Excel) ; A droite : une bibliothèque qui schématise un Data lake avec des données non-structurées mais reconnaissables avec leurs labels (« Tag »).

Benchmarking des solutions existantes

Amazon, Microsoft et Google sont les leaders sur les outils de data lake. Nous avons comparé AWS d’Amazon et Azure de Microsoft.

Amazon AWS

  • Solution Cloud de base avec option de localisation interne (prévu en 2020)
  • Les différents services sont proposés "à la carte" afin de pouvoir créer sa solution idéale
  • Les coûts sont faibles

Microsoft Azure

  • Large base de clientèle avec le nom Microsoft
  • Lourdeur dans la mise en place et faible visibilité sur les évolutions et leurs impacts
  • Coûts élevés et peu transparents

Nous avons choisi la solution AWS pour standardiser nos solutions

Le Data lake QMT

Nous avons mis en place un  Data Lake pour notre utilisation avec les éléments suivants :

  • Un serveur de donnée S3 Bucket en Irlande
  • Catalogue de données structurées AWS Glue (ETL & Data Catalog)
  • Moteur requêtes de données structurées Amazon Athena (Interactive queries)
  • Moteur de recherche élastique des données non-structurées ou semi-structurées Amazon ES (Elastic Search)avec son interface graphique Kibana
  • Outil d’Affichage de données QuickSight

Intégration dans les logiciels QMT

Nous avons développé un outil logiciel qui s’intègre facilement à nos systèmes pour ajouter des labels aux données, les envoyer dans le data lake et de les retrouver avec l’Elastic search.

Les prochaines étapes

Les prochaines étapes sont de standardiser les labels (ou tags), d’adapter l’outil QMT à la gestion de catalogues standards de tags et de simplifier la recherche des Tags par notre outil.

Nous seront ainsi prêts pour appliquer des outils d’intelligence artificielle aux données afin d'étudier les corrélations entre les données.

Partagez cette page
sur votre plateforme favorite