Big Data et IA en mode SaaS : une démarche concrète

BIG DATA ET IA EN MODE SaaS : UNE DÉMARCHE CONCRÈTE

Ces dernières années, avec l’avènement des technologies de traitement distribués et la récolte de plus en plus importantes des données grâce aux nouvelles technologies de la data volumineuse, il est maintenant possible de les exploiter afin d’en maximiser l’usage dans beaucoup de domaines. La mise en œuvre de ces solutions peut néanmoins nécessiter des projets importants, et nécessite des compétences spécifiques. Nous allons voir comment les offres SaaS orientées Big Data peuvent être la solution pour mettre en œuvre ces changements, dans un système métier existant sans en bouleverser l’organisation.

Le Big Data as a service 

L’analyse des données faites précédemment à peut-être permis de mettre en valeur certains problèmes, voir certains comportements anormaux du système. Ces problèmes peuvent probablement être gommés, voir corrigés, et ainsi améliorer les processus métiers ou la fiabilité du système. Si nous reprenons le cas d’un site e-commerce, l’analyse a, par exemple, permis de faire le lien entre des cas rapportés comme frauduleux et le comportement de ces utilisateurs lors de leurs visites. Étant sur une plateforme Spark, il est tout à fait possible d’exploiter ces données afin de créer un système basé sur le Machine Learning, qui permettra de détecter ces comportements frauduleux. Cette partie nécessitera peut-être plus de capacités de traitement, et dans ce cas il suffira d’augmenter la taille du cluster utilisé, même temporairement.

 

Une fois le modèle mis en place et en fonctionnement, il arrive à détecter ces comportements mais, avec le temps, les comportements peuvent être amenés à évoluer pour contourner ce genre de système. Dans ce cas, il sera nécessaire de mettre à jour le modèle en entraînant de nouveau celui-ci. Pour ce faire, les nouvelles données devront être réimportés. Plutôt que de réitérer l’ensemble des étapes, la plupart des plateformes permettent d’automatiser l’envoi des données, de manière sécurisée. Les nouvelles données peuvent alors être utilisées pour la visualisation, ou même être intégrés dans un dashboard, et bien évidemment intégrées dans l’entraînement d’un nouveau modèle…

Analyse et visualisation  

Grâce aux différents outils mis à disposition sur des plateformes Big Data en mode SaaS, les données peuvent être rapidement intégrées. Que ce soit par un dépôt de fichiers sur un serveur FTP, par un transfert via HTTP, ou bien encore par un glisser-déposer depuis un poste client, les données sont transférées puis stockées pour alimenter le datalake. Dans l’exemple d’un site e-commerce, cela pourrait être par exemple les informations de visite du site web. Il est alors possible d’analyser ces informations via les outils type notebook mis à disposition. Ces outils peuvent par exemple être Apache Zeppelin ou Jupyter.

Branchés sur un cluster Spark, ces outils permettent de charger rapidement les données et de commencer à les analyser. Grâce à une première analyse et un nettoyage des données, celles-ci sont prêtes à être exploitées. Les notebooks permettent en général de générer des représentations graphiques orientées « analyse », ce qui permet un premier niveau de visualisation. Mais cela pourrait s’avérer insuffisant dans le cas de données géographiques par exemple. Ce qui dans le cas d’un site e-commerce pourrait s’avérer utile.

Pour aller plus loin, un outil de dataviz deviendra vite indispensable. Ce genre d’outil est en général mis à disposition sur une plateforme Big Data. Dans notre cas il s’agit d’Apache Superset. À partir d’un notebook, il sera, par exemple, possible d’exposer ces données sous forme de table de données, puis de les exploiter grâce à ce genre d’outils. Bien évidemment, comme tous les outils ont été configurés ensemble, le passage d’un outil à l’autre se fait sans heurt. Nous retrouvons donc la table de données en question, puis, grâce à Superset, les données sont affichées sous forme de cartes, de graphiques, de tableau… Ces données peuvent également être filtrées, mettant à jour en temps réel les graphiques affichés. Celles-ci étant manipulées par le cluster, l’outil peut manipuler plusieurs dizaines/centaines de millions de lignes sans problème, voire plus, et avec une latence faible.

Capture d’écran d’Apache Superset – Source : Site Officiel

La mise en place d’un algorithme 

L’analyse des données faites précédemment à peut-être permis de mettre en valeur certains problèmes, voir certains comportements anormaux du système. Ces problèmes peuvent probablement être gommés, voir corrigés, et ainsi améliorer les processus métiers ou la fiabilité du système. Si nous reprenons le cas d’un site e-commerce, l’analyse a, par exemple, permis de faire le lien entre des cas rapportés comme frauduleux et le comportement de ces utilisateurs lors de leurs visites. Étant sur une plateforme Spark, il est tout à fait possible d’exploiter ces données afin de créer un système basé sur le Machine Learning, qui permettra de détecter ces comportements frauduleux. Cette partie nécessitera peut-être plus de capacités de traitement, et dans ce cas il suffira d’augmenter la taille du cluster utilisé, même temporairement.

 

Une fois le modèle mis en place et en fonctionnement, il arrive à détecter ces comportements mais, avec le temps, les comportements peuvent être amenés à évoluer pour contourner ce genre de système. Dans ce cas, il sera nécessaire de mettre à jour le modèle en entraînant de nouveau celui-ci. Pour ce faire, les nouvelles données devront être réimportés. Plutôt que de réitérer l’ensemble des étapes, la plupart des plateformes permettent d’automatiser l’envoi des données, de manière sécurisée. Les nouvelles données peuvent alors être utilisées pour la visualisation, ou même être intégrés dans un dashboard, et bien évidemment intégrées dans l’entraînement d’un nouveau modèle…

Comme nous avons pu le voir, la modularité et la disponibilité de ce genre de plateforme seront des atouts clés, qui permettront à partir des données issues des systèmes métiers et des outils à disposition d’apporter une vraie valeur ajoutée, par l’analyse, la visualisation, voir la mise en œuvre d’algorithme. Le Big Data en mode SaaS, c’est l’Intelligence Artificielle à portée de clic.