IA, Cloud ou infra-physique : un tour d’horizon

Entre infrastructure physique et cloud, public ou privé, le débat existe depuis des années. Mais quel est le choix le plus avisé lorsqu’il s’agit d’IA et de ses besoins particuliers ?

Publié le 8 juin 2020

Text mining : optimisation de Spacy avec Spark

Le text mining nécessite de penser à une approche d’optimisation de temps de traitements surtout lorsque le dataset à étudier se compte en millions voire en milliards de phrases. Spacy, l’une des librairies les plus populaires du NLP, suffit-elle à traiter ce type de données ? De tels volumes de données ne nécessitent-ils pas également de travailler sur l’aspect technique de l’environnement ?

Publié le 27 avril 2020

Spark Streaming et Kafka Streams : un rapide tour d’horizon

Au-delà de la gestion des données du datalake, les plateformes distribuées doivent maintenant traiter/transformer/structurer, en temps réel, des flux de données de plus en plus importants. Spark et Kafka y répondent. Mais comment ?

Publié le 30 mars 2020

Utiliser Docker pour développer une application Spark

Nous allons voir comment s’adapter aux contraintes de Spark pour pouvoir développer et tester les différents cas d’usage : la montée de version, un environnement Kerberos, tester un nouvel orchestrateur.

Publié le 27 juin 2019