Bienvenido
/
Casos de negocios
/
Clasificación de páginas web
Banco

Clasificación de páginas web

Un actor del sector bancario tenía cientos de miles de páginas web sin categoría y no había forma de vincular el contenido visto con los productos que eran relevantes para cada usuario. Hemos desarrollado un modelo de clasificación textual que alcanza una precisión del 95% en una muestra pequeña, lo que allana el camino para recomendaciones de productos personalizadas a gran escala.

Problema

El cliente tenía cientos de miles de páginas web en sus sitios, pero ninguna estaba clasificada de manera confiable. Sin categorizar el contenido, es imposible aprovechar los registros de conexión de los usuarios para comprender sus viajes y recomendarles los productos adecuados. El desafío técnico: crear un modelo de clasificación eficiente e interpretable basado en una muestra de formación muy pequeña (menos de 1500 páginas anotadas en un corpus de varios cientos de miles).

Vue rapprochée d’une coupe transversale colorée d’une géode montrant des couches concentriques de minéraux en jaune, marron, rouge et vert.

Solución

Lo que construimos

Desplegamos un equipo de 2 científicos de datos y 1 ingeniero de datos para diseñar un sistema integral de apoyo al descubrimiento molecular.

Paso 1 — Raspado y preparación de datos Extracción automatizada del contenido de las páginas web, limpieza y normalización de textos para eliminar el ruido del HTML y los elementos no informativos.

Paso 2 — Codificación semántica Transformación del texto en representaciones vectoriales que pueden utilizar los modelos, probando varios enfoques: TF-IDF para la línea de base, Word2Vec y Doc2Vec para capturar la semántica más allá de las palabras clave.

Paso 3 — Modelado de aprendizaje profundo Desarrollo de una red neuronal secuencial bidireccional (LSTM bidireccional) capaz de clasificar las páginas según las categorías definidas por la empresa. El modelo utiliza el contexto del texto en ambas direcciones de lectura para maximizar la comprensión del contenido.

Paso 4 — Interpretabilidad: implementación de mapas de calor que permiten a los equipos empresariales visualizar qué palabras y pasajes de texto han influido en la clasificación. La empresa puede verificar que el modelo se basa en las señales correctas.

Proyectos de la misma categoría