Una parte importante de los proyectos de ciencia de datos del cliente se basaron en la clasificación de los documentos de texto. Con cada nuevo proyecto, los científicos de datos repetían los mismos pasos: preprocesamiento, vectorización, capacitación y evaluación. El código no se compartía ni se reutilizaba, lo que ralentizaba cada proyecto, creaba inconsistencias entre los enfoques y hacía que los resultados fueran inutilizables para perfiles no técnicos. Era necesario industrializar estos componentes básicos comunes y convertirlos en una herramienta genérica, confiable y accesible.
Herramienta de clasificación de documentos
Los científicos de datos del cliente reinventaron la rueda para cada proyecto de clasificación de texto: los mismos pasos de preprocesamiento, los mismos modelos, las mismas funciones recodificadas cada vez. Hemos desarrollado un paquete de Python genérico, interpretable y accesible para personas no especializadas, que ahora se utiliza de serie en varios proyectos.

Problema

Solución
Lo que construimos
Implementamos 1 científico de datos para diseñar y publicar un paquete de clasificación de documentos en Python, diseñado para ser utilizado por científicos de datos y por perfiles menos técnicos.
Paso 1 — Canalizaciones de preprocesamiento Desarrollo de tuberías para la limpieza y transformación de datos textuales, estandarizadas y configurables, que abarcan todos los pasos clásicos de la PNL.
Paso 2 — Integración de Scikit-learn El paquete se basa de forma nativa en objetos de scikit-learn para garantizar la compatibilidad con el ecosistema existente. El usuario puede personalizar cada etapa del proceso sin estropearlo todo.
Paso 3 — Interpretabilidad y optimización Integración de un módulo de interpretabilidad (LIME, SHAP) para explicar las predicciones y un módulo de búsqueda de hiperparámetros (Optuna) para optimizar automáticamente el rendimiento de los modelos.
Paso 4 — Publicación y adopción Publicación del paquete internamente, demostraciones a los equipos de científicos de datos y adición iterativa de funcionalidades de acuerdo con las necesidades informadas por los usuarios.
Proyectos de la misma categoría





