Glossaire

ALGORITHME

Ensemble d’opérations ordonné et fini devant être suivi dans l’ordre pour résoudre un problème.

AMAZON TEXTRACT

Service inclus dans l’environnement fourni par AWS, disponible depuis 2018. Il permet d’extraire le texte de documents scannés. Ce service est basé sur les technologies d’OCR.

APACHE HADOOP

Framework qui intègre les fonctionnalités de base pour le développement d’applications distribuées. Ses composants principaux sont HDFS, son système de fichier distribué, et YARN, un gestionnaire ressources.

APACHE HBASE

Base de données orientée colonnes. S’appuie sur le framework Hadoop pour la distribution des données.

APACHE HDFS (HADOOP DISTRIBUTED FILE SYSTEM)

Système de fichier distribué du framework Hadoop. Assure la redondance de la donnée sur plusieurs serveurs.

APACHE KAFKA

Bus de messages qui intègre les technologies NoSQL pour apporter performance et haute disponibilité. Géré par la communauté Apache.

APACHE PHOENIX

Permet des accès OLTP (OnLine Transaction Processing) et des accès analytiques sur Hadoop pour des applications à faible temps de réponse. Fournit nativement un driver JDBC permettant une utilisation native depuis tout environnement Java. Géré par la communauté Apache.

APACHE SPARK

Outil de traitement distribué qui intègre des fonctionnalités de Data Science et de Machine Learning. Géré par la communauté Apache.

APACHE SUPERSET

Géré par la communauté Apache. Outil de visualisation qui permet de traiter des très gros volumes de données.

API (APPLICATION PROGRAMM INTERFACE)

Définition des fonctions exposées par un composant logiciel utilisable par d’autres composants logiciels.

Aws (aMAZON WEB SERVICES)

Amazon Web Services (AWS) est une plateforme évolutive de Cloud computing proposée par Amazon.com. Permet d’instancier des serveurs dynamiquement en mode Infrastructure as a Service ou d’instancier des services dynamiquement en mode Platform as a Service.

Big Data

Le « Big Data » ou « Méga-données » désigne le domaine de l’informatique qui cherche à traiter des données inédites en termes de volumes, de vitesse de génération et de variété de formats. On parle généralement de « Big Data » quand les solutions traditionnelles de l’informatique (bases de données relationnelles par exemple) ne permettent pas l’exploitation des données considérées.

BPM (BUSINESS PROCESS MANAGEMENT)

Approche qui vise à rendre les flux de travail (workflows) et les process d’une entreprise plus efficaces grâce à des outils IT dédiés.

BRE (BUSINESS RULE MANAGEMENT)

Moteur de règles. Exécute des règles métier définies par des experts du domaine métier d’une application. Règles qui sont gérées en toute autonomie par les experts métier.

CLOUD

Le Cloud (ou cloud computing) est une technologie qui permet de mettre sur des serveurs localisés à distance des données de stockage ou des logiciels qui sont habituellement stockés sur l’ordinateur d’un utilisateur, voire sur des serveurs installés en réseau local au sein d’une entreprise.

CLUSTER

Regroupement logique de serveurs hébergeant un même type de services ou de logiciels. Héberger un service en mode cluster permet de gérer efficacement la montée en charge du service et la résistance aux pannes de ce service. Exemple : Cluster d’applications web

CONTAINER DOCKER

Un conteneur Docker est une unité standard de logiciel qui regroupe le code et toutes ses dépendances afin que l’application s’exécute directement et de manière fiable d’un environnement à un autre.

CNN (CONVOLUTIONAL NEURAL NETWORKS)

Algorithme Deep Learning. Ils reçoivent des images en entrée, détectent les features de chacune d’entre elles, puis entraînent un classifieur dessus. Les features sont apprises automatiquement. Les CNN réalisent eux-mêmes tout le boulot fastidieux d’extraction et description de features : lors de la phase d’entraînement. L’erreur de classification est minimisée afin d’optimiser les paramètres du classifieur ET les features.

DATALAKE

Référentiel de stockage qui conserve une grande quantité de données brutes dans leur format natif jusqu’à ce qu’elles soient nécessaires.

DATA SCIENTIST

Le data scientist a pour objectif de donner du sens aux données brutes et d’en extraire de la valeur pour aider les entreprises à prendre des décisions stratégiques ou opérationnelles. Dans ce cadre, ils conçoivent des algorithmes utilisant l’intelligence artificielle pour collecter, stocker, traiter et restituer les données. 

DATAVIZ

La DataViz, ou « visualisation de données », est un ensemble de méthodes de représentation graphique d’ensembles complexes de données permettant une analyse précise et servant généralement d’outil de suivi d’activité et/ou d’outil d’aide à la décision.

DATA WAREHOUSE

Le data warehouse, ou « entrepôt de données », désigne une base de données utilisée pour collecter, ordonner, journaliser et stocker des informations provenant de base de données opérationnelles et fournir ainsi un socle à l’aide à la décision en entreprise.

DEEP LEARNING

Le deep learning ou apprentissage profond est un type d’intelligence artificielle dérivé du machine learning (apprentissage automatique). Cette technologie permet, en plus d’effectuer des prédictions à partir de données, de laisser le logiciel décider sur quelles données faire sa prédiction.

DOCKER

Solution open-source développé depuis 2003, elle repose sur des fonctionnalités du noyau Linux pour pouvoir isoler dans un espace séparé des containers capables d’utiliser le même noyau mais avec une couche différente de librairies et un espace utilisateur séparé. Souvent opposé à la virtualisation, cette solution est plus légère mais ne fonctionne que pour des environnements Linux.

DOCKER SWARM

Outil développé par l’équipe derrière Docker, il permet de gérer comme un seul ensemble plusieurs serveurs gérant des containers Docker. Il permet également la scalabilité et le monitoring. C’est une solution concurrente à Kubernetes notamment.

DRIVER

Dans le contexte Skapánê, il s’agit d’un composant de Spark qui pilote le traitement distribué.

GCp (GOOGLE CLOUD platform)

GCP (Google Cloud Platform) est une plateforme évolutive de Cloud computing proposée par Google. Permet d’instancier des serveurs dynamiquement en mode Infrastructure as a Service ou d’instancier des services dynamiquement en mode Platform as a Service.

GCV (GOOGLE CLOUD VISION)

API fourni par Google, également inclus dans l’offre GCP. Elle permet l’analyse d’image sur base d’intelligence artificielle. Détecte et reconnaît les éléments contenus dans une photo ou un document texte. Elle permet également d’extraire le texte de ces documents.

Intelligence artificielle

Domaine de l’informatique qui cherche à reproduire les capacités cognitives des êtres vivants, et en particulier des humains. Même si cette discipline existe depuis les débuts de l’informatique, elle est l’objet d’une activité importante depuis quelques années grâce à l’arrivée de technologies permettant de remplacer ou d’améliorer des activités humaines inaccessibles jusqu’ici à des logiciels.

IOT

Le terme IoT est apparu la première fois en 1999 dans un discours de Kevin ASHTON, un ingénieur britannique. L’internet Of Things (IoT) désigne le réseau créé par l’interconnexion de tout un ensemble d’objets capables de se connecter à Internet et d’échanger des données entre eux, ou avec des plateformes de gestion de ces objets. Les objets ayant cette capacité sont appelés « Objets Connectés ».

JDBC (JAVA DATABASE CONNECTIVITY)

JDBC est une interface de programmation initialement créée par Sun Microsystems et liée au monde JAVA permettant d’interagir de manière simple et normalisée avec n’importe quelle base de données relationnelle (Oracle, MySQL, Microsoft SQLServer, …).

KERBEROS

Protocole d’authentification qui peut être utilisé dans l’écosystème Hadoop pour sécuriser les échanges entre les différents éléments d’un cluster. Il est alors nécessaire de s’authentifier auprès de Kerberos pour pouvoir communiquer avec celui-ci.

KUBERNETES

Solution open-source d’orchestration de conteneur développé par Google depuis 2015, elle est orientée production et gère la continuité de service, la scalabilité et le monitoring via un outil comme Dashboard.

KMS : Key management server

Service Hadoop permettant de gérer les clés de chiffrement lorsque la fonction « Transparent Encryption » est utilisée sur un cluster

LSTM (LONG SHORT-TERM MEMORY)

Typologie de réseau de neurone récurrents répondant à la problématique de disparition de gradient. Majoritairement utilisée dans le traitement automatisé du langage.

MACHINE LEARNING

Science moderne permettant de découvrir des patterns et d’effectuer des prédictions à partir de données en se basant sur des statistiques, sur de la fouille de données, sur la reconnaissance de patterns et sur les analyses prédictives.

MODÈLE PRÉDICTIF

Les modèles prédictifs analysent les performances passées pour estimer la probabilité que peut avoir un individu ou un système de montrer un comportement spécifique dans le futur afin d’améliorer l’efficacité.

Moteur de règles métier

C.f. Business Rule Engine (BRE)

Moteur HIVE

Moteur permettant l’analyse et le requêtage des données. S’appuie sur le framework Hadoop.

MySQL (Structured Query Language)

MySQL est un moteur de base de données relationnelle OpenSource, qui appartient à Oracle depuis 2009 suite au rachat de Sun Microsystems par Oracle, et très largement déployé sur les plateformes de service informatique.

NoSQL (Not only SQL)

Base de données qui s’appuie sur un modèle autre que relationnel. (Base orientée documents / clé-valeur). NoSQL signifie « Not Only SQL ».

OCR (Optical Character Recognition)

Ensemble des technologies visant à extraire le texte d’un document, qu’il soit la photographie ou le scan d’un document papier.

ODBC Spark (Open DataBase Connectivity)

Interface permettant à une application d’accéder à une base de données.

OPEN DATA

Les Open Data, ou données ouvertes, sont des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation.

Plateforme logicielle distribuée

Plateforme hébergeant un ou des logiciels capables de fonctionner en mode distribué, c’est-à-dire localisés sur un ensemble de machines distinctes plutôt que sur une machine unique. Les différentes machines échangent des données entre elles via un réseau pour permettre au logiciel de fonctionner. Chaque machine effectue une partie du traitement du logiciel.

Plateforme logicielle mono-machine

Plateforme hébergeant un ou des logiciels ne fonctionnant que sur une unique machine.

PYTHON

Python est un langage de programmation interprété, multi-paradigme et multiplateforme.

Random Forests

L’algorithme des « forêts aléatoires » est un algorithme de classification qui réduit la variance des prévisions d’un arbre de décision seul, améliorant ainsi leurs performances. Pour cela, il combine de nombreux arbres de décisions dans une approche de type bagging.

RPA (Robotic Process Automation)

L’automatisation de processus robotiques permet à des robots d’exécuter les tâches successives d’une activité métier. Pour être automatisées, ces activités doivent être chronophages, répétitives et à faible valeur.

SGBDR (Système de Gestion de Bases de Données Relationnelles)

Un SGBD (Système de Gestion de Bases de Données) est un logiciel qui stocke des données de façon organisées et cohérentes sous forme de tables. Un SGBDR (Système de Gestion de Bases de Données Relationnelles) est un type particulier de SGBD qui permet de stocker les données dans plusieurs tables et de maintenir des relations entre ces tables pour construire un ensemble complexe et organisé de données facilement exploitables.

SPA (Smart Process Automation)

Utilisation des approches RPA couplées à de l’intelligence artificielle.

Storm

Apache Storm est un framework de traitement de flux distribué disponible en OpenSource. Storm agit comme un outil de transformations de données en temps réel. Il est notamment utilisé par Twitter.

Tesseract-ocr

Logiciel d’OCR conçu à l’origine par HP puis repris dans son développement par Google. Sous licence Apache, il est l’outil open-source phare dans le domaine du traitement documentaire.

Text mining

Ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains.

Thrift

Thrift est un langage de définition d’interface (IDL) conçu pour la création et la définition de services pour de nombreux langages. Il est utilisé en tant que framework RPC dans de nombreuses applications. Il est par exemple utilisé par Apache Spark et Apache Hbase pour fournir un accès aux données et aux traitements stockés dans l’ecosystème HADOOP, et ce quel que soit le langage utilisé.

Visual Culture

Ensemble des représentations visuelles ou graphiques dans une culture. Par extension, tendance à utiliser des représentations visuelles des informations pour faciliter la compréhension.

Workflow

Ensemble de tâches humaines ou automatiques qui suivent un séquencement prédéfini.

Yarn

Composant du framework Hadoop responsable de la gestion des ressources techniques mises à disposition.

Zookeeper

Base de données hiérarchisée pour la coordination des applications distribuées. Zookeeper est composé de nœuds nommés Znode qui ont une latence très faible avec des temps de réponse inférieurs à la milliseconde. Zookeeper est hautement disponible. Zookeeper est au coeur de Hadoop, pour les NameNode, YARN, HBase, Kafka, Storm.