Data…lab

Un Datalab : dans quel but ? Comment ? Cette vidéo vous donnera des pistes de réflexion pour sa mise en place et ses objectifs.

Publié le 2 décembre 2020

Développer un Transformer Spark en Scala et l’appeler depuis Python

Les Transformers sont des incontournables de l’étape de « feature engineering ». Pour des raisons d’interopérabilité ou de performance, il est parfois nécessaire de les développer en Scala pour les utiliser en Python. Cet article présente une façon de procéder.

Publié le 17 novembre 2020

IA, Cloud ou infra-physique : un tour d’horizon

Entre infrastructure physique et cloud, public ou privé, le débat existe depuis des années. Mais quel est le choix le plus avisé lorsqu’il s’agit d’IA et de ses besoins particuliers ?

Publié le 8 juin 2020

Text mining : optimisation de Spacy avec Spark

Le text mining nécessite de penser à une approche d’optimisation de temps de traitements surtout lorsque le dataset à étudier se compte en millions voire en milliards de phrases. Spacy, l’une des librairies les plus populaires du NLP, suffit-elle à traiter ce type de données ? De tels volumes de données ne nécessitent-ils pas également de travailler sur l’aspect technique de l’environnement ?

Publié le 27 avril 2020

Spark Streaming et Kafka Streams : un rapide tour d’horizon

Au-delà de la gestion des données du datalake, les plateformes distribuées doivent maintenant traiter/transformer/structurer, en temps réel, des flux de données de plus en plus importants. Spark et Kafka y répondent. Mais comment ?

Publié le 30 mars 2020

Les auto-encodeurs

La lutte contre le blanchiment de capitaux et le financement du terrorisme (LCB-FT) est un enjeu majeur pour le monde, qui justifie des dispositifs adaptés afin d’identifier des opérations suspectes.

Publié le 24 février 2020