Big Data et DataViz : possibilités et performances

Big Data et DataViz : possibilités et performances

La DataViz, ou « visualisation de données », est un ensemble de méthodes de représentation graphique d’ensembles complexes de données permettant une analyse précise et servant généralement d’outil de suivi d’activités et/ou d’outil d’aide à la décision.

La DataViz est devenue un outil essentiel de pilotage de l’activité des entreprises. Toutefois, les outils existants du marché imposent un certain nombre de contraintes techniques sur le format et le type de données utilisables. Dans un contexte où le « Big Data » est en plein essor, qu’en est-il de la compatibilité de ces outils avec les lacs de données de type Hadoop déployés dans beaucoup d’entreprises ? Quels sont les apports et les niveaux de performance atteignables ?

La DataViz dans un contexte Big Data

L’essor des plateformes et des technologies Big Data a permis aux entreprises de tous les secteurs du marché de centraliser des volumes gigantesques de données dans des « lacs de données » hébergeant des TeraOctets de données brutes ou transformées. Ces données sont soit internes soit externes à l’entreprise.
Le cumul et la centralisation de toutes ces données développent considérablement les possibilités d’analyse. Ces dernières rendent possible tous les types d’agrégats et de croisement de données. De nouveaux axes d’analyses qui font le bonheur des analystes de données et des décideurs qui ont désormais la possibilité d’avoir une vision très précise de leur activité et de son évolution.
D’une part, avoir la possibilité de travailler avec l’ensemble des données, sans induire de biais par l’utilisation d’agrégats identifiés à l’avance et calculés par des traitements nocturnes, et d’autre part, être en prise directe avec les données en temps réel et les confronter aux données prédictives, apporte une valeur indiscutable aux managers et aux équipes métier.

Nous avons voulu vérifier concrètement la faisabilité technique d’un interfaçage entre quelques outils de DataViz et une plateforme Hadoop, solution largement déployée dans l’univers du « Big Data ».

La plupart des sociétés disposent déjà d’outils de DataViz déployés, maitrisés et utilisés par les Data Analysts et les responsables d’activité pour suivre, mesurer, surveiller les indicateurs clé de leur domaine.

Parmi ces outils, nous avons testé les solutions de DataViz suivantes :
•    Tableau Software ;
•    PowerBI ;
•    Apache Superset.

Les deux premiers font partie des outils les plus utilisés en entreprise.
Apache Superset a la spécificité d’être un produit open source de la Fondation Apache soutenu par AirBnb et capable d’interagir directement et nativement avec l’écosystème Hadoop.

 

Principe de fonctionnement

L’accès à des données Hadoop HDFS ou HBASE se fait via une gateway d’interopérabilité appelée « Thrift » qui va exposer les données Hadoop au monde extérieur et être en mesure d’exécuter des commandes SQL grâce à l’utilisation du moteur HIVE.
Pour accéder aux données HBase, nous avons adossé une couche Apache Phoenix en plus de la gateway Thrift. Apache Phoenix est une surcouche à Apache HBase qui permet de réappliquer un modèle relationnel par-dessus la base de données NoSQL d’Apache.

L’intégration de l’écosystème Hadoop dans les outils de DataViz sus-cités se fait de 2 manières différentes :
•    Intégration utilisant le protocole natif de la gateway Thrift ;
•    Intégration utilisant le driver ODBC Spark écrit par Simba Technologies.

Le driver de Simba Technologies est soumis à licence, il est parfois proposé inclus dans le coût de la solution de DataViz.
Il est à noter que l’utilisation du driver ODBC Spark permet d’exploiter toutes les données du datalake Hadoop pour toutes les solutions de DataViz s’appuyant sur Windows, même si la solution en question n’a pas prévu d’intégration native avec Spark.

Ce driver ouvre la porte à de nombreuses possibilités, mais vient avec un surcoût financier.

Les performances

Les tests ont été réalisés avec plusieurs jeux de données de taille progressive:
•    Jeu de taille faible : 13 703 lignes de données (parquet) ;
•    Jeu de taille moyenne : 167 888 lignes de données (parquet) ;
•    Jeu de taille élevée :  1 133 450 lignes de données (parquet) ;
•    Jeu de taille très élevée : 145 081 600 lignes de données (parquet) ;
•    Jeu de taille « BigData » : 3 128 457 896 lignes de données (HBase).

Les données sont intégrées à la fois dans une base de données relationnelle MySQL et sous forme de fichier parquet ou de fichier HBase suivant le profil de données.
Il est à noter que des tests additionnels qui ne font pas l’objet de cet article ont montré que l’utilisation de HBase ou de fichiers parquet était similaire en temps de réponse.

Les temps de réponse correspondent au temps d’affichage de 6 graphes regroupés dans un dashboard reproduit dans chaque solution de Dataviz identifiée.

Exemple de Dashboard de test (Superset)


Voici les résultats des tests en moyenne sur les 3 outils.

Il est à noter que l’utilisation de la Plateforme Spark/Hadoop pour réaliser les traitements implique un temps initial de réservation de ressources distribuées non compressible d’une dizaine de secondes.
Ce temps n’existe pas lors de l’utilisation d’une base de données relationnelle classique, si bien que les solutions seront toujours plus réactives en mode SGBDR (Système de Gestion de Bases de Données Relationnelles) pour de faibles volumes de données.
Toutefois, si le volume de données à exploiter dépasse quelques millions de lignes, l’utilisation d’un cluster Hadoop/Spark devient préférable, voire indispensable.

 

La visualisation de l’intégralité des données d’un datalake ouvre d’importantes perspectives fonctionnelles et d’analyse à mesure que s’étend l’ère de la « Visual Culture ».
Par l’utilisation des outils de connectivité Hadoop/Spark, il est possible d’interfacer les principales solutions de DataViz du marché avec les données d’un datalake.
Si l’utilisation de ces technologies semble lourde et peu réactive sur des jeux de données en faible volumétrie, elle devient très vite indispensable (à partir de quelques millions de lignes) pour traiter dynamiquement les gros volumes de données du Big Data en mode interactif.
Tirer parti de la valeur significative des données cumulées depuis des années est désormais possible en utilisant les outils de DataViz déjà déployés dans l’entreprise.
Etant donné la valeur apportée par ce type d’analyses, il y a fort à parier que les plateformes Big Data déployée en complément des data warehouse traditionnels de l’entreprise verront leur essor dans les mois et les années à venir.