Accueil
/
Business Cases
/
Ferramenta de classificação de documentos
Ferramentas transversais/de ciência de dados

Ferramenta de classificação de documentos

Os cientistas de dados do cliente reinventaram a roda para cada projeto de classificação de texto: mesmas etapas de pré-processamento, mesmos modelos, mesmas funções recodificadas a cada vez. Desenvolvemos um pacote Python genérico, interpretável e acessível a não especialistas, que agora é usado como padrão em vários projetos.

Problématique

Uma parte importante dos projetos de Ciência de Dados do cliente foi baseada na classificação de documentos de texto. A cada novo projeto, os cientistas de dados repetiam as mesmas etapas: pré-processamento, vetorização, treinamento e avaliação. O código não era compartilhado nem reutilizável, o que retardava cada projeto, criava inconsistências entre as abordagens e tornava os resultados inutilizáveis por perfis não técnicos. Era necessário industrializar esses blocos de construção comuns em uma ferramenta genérica, confiável e acessível.

Vue rapprochée d’une coupe transversale colorée d’une géode montrant des couches concentriques de minéraux en jaune, marron, rouge et vert.

Solution

Ce que nous avons construit

Implantamos 1 cientista de dados para projetar e publicar um pacote de classificação de documentos em Python, projetado para ser usado por cientistas de dados e por perfis menos técnicos.

Etapa 1 — Tubulações de pré-tratamento. Desenvolvimento de canais padronizados e configuráveis de limpeza e transformação de dados textuais, abrangendo todas as etapas clássicas da PNL.

Etapa 2 — Integração Scikit-learn. O pacote depende nativamente de objetos scikit-learn para garantir a compatibilidade com o ecossistema existente. Cada estágio do pipeline pode ser personalizado pelo usuário sem interromper tudo.

Etapa 3 — Interpretabilidade e otimização. Integração de um módulo de interpretabilidade (LIME, SHAP) para explicar as previsões e um módulo de busca de hiperparâmetros (Optuna) para otimizar automaticamente o desempenho do modelo.

Etapa 4 — Publicação e adoção. Publicação interna do pacote, demonstrações para equipes de cientistas de dados e adição iterativa de funcionalidades de acordo com as necessidades relatadas pelos usuários.

Projets dans la même catégorie