Une part importante des projets Data Science du client reposait sur de la classification de documents texte. À chaque nouveau projet, les Data Scientists recommençaient les mêmes étapes : pré-traitement, vectorisation, entraînement, évaluation. Le code n'était ni mutualisé ni réutilisable, ce qui ralentissait chaque projet, créait des incohérences entre les approches et rendait les résultats inexploitables par les profils non techniques. Il fallait industrialiser ces briques communes en un outil générique, fiable et accessible.
Outil de classification de documents
Les Data Scientists du client réinventaient la roue à chaque projet de classification de texte : mêmes étapes de pré-traitement, mêmes modèles, mêmes fonctions recodées à chaque fois. Nous avons développé un package Python générique, interprétable et accessible aux non-spécialistes, aujourd'hui utilisé en standard sur plusieurs projets.

Problématique

Solution
Ce que nous avons construit
Nous avons déployé 1 Data Scientist pour concevoir et publier un package Python de classification de documents, pensé pour être utilisé aussi bien par des Data Scientists que par des profils moins techniques.
Étape 1 — Pipelines de pré-traitement. Développement de pipelines de nettoyage et de transformation de données textuelles, standardisés et paramétrables, couvrant l'ensemble des étapes classiques du NLP.
Étape 2 — Intégration scikit-learn. Le package s'appuie nativement sur les objets scikit-learn pour garantir la compatibilité avec l'écosystème existant. Chaque étape de la pipeline est customisable par l'utilisateur sans casser l'ensemble.
Étape 3 — Interprétabilité et optimisation. Intégration d'un module d'interprétabilité (LIME, SHAP) pour expliquer les prédictions, et d'un module de recherche d'hyperparamètres (Optuna) pour optimiser automatiquement les performances des modèles.
Étape 4 — Publication et adoption. Publication du package en interne, démonstrations aux équipes de Data Scientists, et ajout itératif de fonctionnalités en fonction des besoins remontés par les utilisateurs.
Projets dans la même catégorie





