Text mining : optimisation de Spacy avec Spark

Le text mining nécessite de penser à une approche d’optimisation de temps de traitements surtout lorsque le dataset à étudier se compte en millions voire en milliards de phrases. Spacy, l’une des librairies les plus populaires du NLP, suffit-elle à traiter ce type de données ? De tels volumes de données ne nécessitent-ils pas également de travailler sur l’aspect technique de l’environnement ?

Publié le 27 avril 2020

Spark Streaming et Kafka Streams : un rapide tour d’horizon

Au-delà de la gestion des données du datalake, les plateformes distribuées doivent maintenant traiter/transformer/structurer, en temps réel, des flux de données de plus en plus importants. Spark et Kafka y répondent. Mais comment ?

Publié le 30 mars 2020

Les auto-encodeurs

La lutte contre le blanchiment de capitaux et le financement du terrorisme (LCB-FT) est un enjeu majeur pour le monde, qui justifie des dispositifs adaptés afin d’identifier des opérations suspectes.

Publié le 24 février 2020

L’IA au coeur de l’Industrie

Le monde de l’Industrie est en pleine révolution : la notion d’« Industrie 4.0 » a envahi notre quotidien. Quelle est la nature de cette révolution ? Quels en sont les enjeux technologiques ? Quelle est la place de l’Intelligence Artificielle dans ce contexte et comment la mettre en œuvre ?

Publié le 27 janvier 2020

5 min pour comprendre l’OCR – Partie 2

Tesseract-OCR amène une option ouverte et performante au paysage de l’OCR. Nous allons voir comment il est possible de fine-tuner son moteur basé sur du Deep Learning.

Publié le 6 janvier 2020

5 min pour comprendre l’OCR – Partie 1

L’extraction de données textuelles d’une image est un problème complexe, de nombreux outils ont tenté d’apporter une solution mais la mise en œuvre d’une solution efficace reste un sujet délicat.

Publié le 23 décembre 2019