Le client disposait de centaines de milliers de pages web sur ses sites, mais aucune n'était classifiée de manière fiable. Sans catégorisation du contenu, impossible d'exploiter les logs de connexion des utilisateurs pour comprendre leurs parcours et leur recommander les bons produits. Le défi technique : construire un modèle de classification performant et interprétable à partir d'un échantillon d'entraînement très restreint moins de 1 500 pages annotées sur un corpus de plusieurs centaines de milliers.
Classification de pages Web
Un acteur du secteur bancaire possédait des centaines de milliers de pages web non catégorisées et aucun moyen de relier le contenu consulté aux produits pertinents pour chaque utilisateur. Nous avons développé un modèle de classification textuelle atteignant 95% de précision sur un échantillon réduit, ouvrant la voie à une recommandation produit personnalisée à grande échelle.

Problématique

Solution
Ce que nous avons construit
Nous avons déployé une équipe de 2 Data Scientists et 1 Data Engineer pour concevoir un système complet d'aide à la découverte moléculaire.
Étape 1 — Scraping et préparation des données. Extraction automatisée du contenu des pages web, nettoyage et normalisation des textes pour éliminer le bruit HTML et les éléments non informatifs.
Étape 2 — Encodage sémantique. Transformation du texte en représentations vectorielles exploitables par les modèles, en testant plusieurs approches : TF-IDF pour la baseline, Word2Vec et Doc2Vec pour capturer la sémantique au-delà des mots-clés.
Étape 3 — Modélisation Deep Learning. Développement d'un réseau de neurones séquentiel bidirectionnel (Bidirectional LSTM) capable de classifier les pages selon les catégories définies par le métier. Le modèle exploite le contexte du texte dans les deux sens de lecture pour maximiser la compréhension du contenu.
Étape 4 — Interprétabilité. Mise en place de heatmaps permettant aux équipes métier de visualiser quels mots et passages du texte ont influencé la classification. Le métier peut vérifier que le modèle se base sur les bons signaux.
Projets dans la même catégorie





