Herramientas transversales y de ciencia de datos

Herramienta de clasificación de documentos

Los científicos de datos del cliente reinventaron la rueda para cada proyecto de clasificación de texto: los mismos pasos de preprocesamiento, los mismos modelos, las mismas funciones recodificadas cada vez. Hemos desarrollado un paquete de Python genérico, interpretable y accesible para personas no especializadas, que ahora se utiliza de serie en varios proyectos.

Problema

Una parte importante de los proyectos de ciencia de datos del cliente se basaron en la clasificación de los documentos de texto. Con cada nuevo proyecto, los científicos de datos repetían los mismos pasos: preprocesamiento, vectorización, capacitación y evaluación. El código no se compartía ni se reutilizaba, lo que ralentizaba cada proyecto, creaba inconsistencias entre los enfoques y hacía que los resultados fueran inutilizables para perfiles no técnicos. Era necesario industrializar estos componentes básicos comunes y convertirlos en una herramienta genérica, confiable y accesible.

Vue rapprochée d’une coupe transversale colorée d’une géode montrant des couches concentriques de minéraux en jaune, marron, rouge et vert.

Solución

Lo que construimos

Implementamos 1 científico de datos para diseñar y publicar un paquete de clasificación de documentos en Python, diseñado para ser utilizado por científicos de datos y por perfiles menos técnicos.

Paso 1 — Canalizaciones de preprocesamiento Desarrollo de tuberías para la limpieza y transformación de datos textuales, estandarizadas y configurables, que abarcan todos los pasos clásicos de la PNL.

Paso 2 — Integración de Scikit-learn El paquete se basa de forma nativa en objetos de scikit-learn para garantizar la compatibilidad con el ecosistema existente. El usuario puede personalizar cada etapa del proceso sin estropearlo todo.

Paso 3 — Interpretabilidad y optimización Integración de un módulo de interpretabilidad (LIME, SHAP) para explicar las predicciones y un módulo de búsqueda de hiperparámetros (Optuna) para optimizar automáticamente el rendimiento de los modelos.

Paso 4 — Publicación y adopción Publicación del paquete internamente, demostraciones a los equipos de científicos de datos y adición iterativa de funcionalidades de acuerdo con las necesidades informadas por los usuarios.

Proyectos de la misma categoría

Ver todos los proyectos

Aplicación de optimización de la cadena de suministro

Un actor de distribución farmacéutica tuvo que replantearse toda su cadena de suministro: el surtido de farmacias, la gestión del inventario y los canales de entrega. La investigación operativa por sí sola ya no era suficiente. Creamos la aplicación que transformó sus operaciones.

Detección de tendencias en redes sociales

En un mercado en el que los comportamientos de los consumidores cambian más rápido que los ciclos de decisión, el cliente necesitaba anticiparse a las tendencias en lugar de experimentarlas. Creamos la plataforma que convierte el ruido de las redes sociales en señales prácticas.

Rendimiento de los campos agrícolas

La filial climática de un líder asegurador francés necesitaba predecir los rendimientos de los campos en toda Alemania para fijar el precio de una nueva oferta de seguro contra sequías. Los datos internos no eran suficientes. Creamos los modelos predictivos que hicieron que el producto fuera comercializable.

Plataforma de análisis de las necesidades de los clientes

Un gran grupo francés necesitaba entender las necesidades actuales y futuras de sus clientes mediante la agregación de un enorme volumen de datos sobre los consumidores. Tras un POC de 8 semanas, industrializamos una plataforma completa implementada en todas las entidades francesas y ahora la estamos ampliando a nivel de grupo.

Puntuación y análisis de la piel

Un importante actor de la cosmética de lujo había desarrollado un algoritmo de puntuación cutánea. Problema: nadie pudo verificar en qué se basaba la IA para hacer su diagnóstico. Creamos el sistema de visualización que hace que las predicciones sean transparentes y se puedan implementar en tiendas y dispositivos móviles.

Diseño e implementación de Data Hub

Un operador de transporte había multiplicado las iniciativas de datos sin resultados. Sin centralización, sin cultura de datos, proyectos abortados. Empezamos el tema desde cero: estrategia, infraestructura, casos de uso concretos y aculturación de equipos. Como resultado: un centro de datos operativo, 4 paneles en producción y 7 modelos de ciencia de datos implementados.