Ferramentas transversais/de ciência de dados

Ferramenta de classificação de documentos

Os cientistas de dados do cliente reinventaram a roda para cada projeto de classificação de texto: mesmas etapas de pré-processamento, mesmos modelos, mesmas funções recodificadas a cada vez. Desenvolvemos um pacote Python genérico, interpretável e acessível a não especialistas, que agora é usado como padrão em vários projetos.

Problemática

Uma parte importante dos projetos de Ciência de Dados do cliente foi baseada na classificação de documentos de texto. A cada novo projeto, os cientistas de dados repetiam as mesmas etapas: pré-processamento, vetorização, treinamento e avaliação. O código não era compartilhado nem reutilizável, o que retardava cada projeto, criava inconsistências entre as abordagens e tornava os resultados inutilizáveis por perfis não técnicos. Era necessário industrializar esses blocos de construção comuns em uma ferramenta genérica, confiável e acessível.

Vue rapprochée d’une coupe transversale colorée d’une géode montrant des couches concentriques de minéraux en jaune, marron, rouge et vert.

Solution

O que construímos

Implantamos 1 cientista de dados para projetar e publicar um pacote de classificação de documentos em Python, projetado para ser usado por cientistas de dados e por perfis menos técnicos.

Etapa 1 — Tubulações de pré-tratamento. Desenvolvimento de canais padronizados e configuráveis de limpeza e transformação de dados textuais, abrangendo todas as etapas clássicas da PNL.

Etapa 2 — Integração Scikit-learn. O pacote depende nativamente de objetos scikit-learn para garantir a compatibilidade com o ecossistema existente. Cada estágio do pipeline pode ser personalizado pelo usuário sem interromper tudo.

Etapa 3 — Interpretabilidade e otimização. Integração de um módulo de interpretabilidade (LIME, SHAP) para explicar as previsões e um módulo de busca de hiperparâmetros (Optuna) para otimizar automaticamente o desempenho do modelo.

Etapa 4 — Publicação e adoção. Publicação interna do pacote, demonstrações para equipes de cientistas de dados e adição iterativa de funcionalidades de acordo com as necessidades relatadas pelos usuários.

Projetos na mesma categoria

Voir tous les projets

Assistência na criação de medicamentos

Um laboratório farmacêutico precisava identificar novas combinações moleculares patenteáveis de milhões de publicações médicas. A pesquisa manual havia atingido seus limites. Nós construímos o sistema que mudou o jogo.

Detectando tendências nas redes sociais

Em um mercado em que o comportamento do consumidor muda mais rápido do que os ciclos de decisão, o cliente precisava antecipar tendências em vez de vivenciá-las. Criamos a plataforma que transforma o ruído das mídias sociais em sinais acionáveis.

Rendimento de parcelas agrícolas

A subsidiária climática de um líder de seguros francês precisava prever os rendimentos de campo em toda a Alemanha para precificar uma nova oferta de seguro contra secas. Os dados internos não foram suficientes. Criamos os modelos preditivos que tornaram o produto comercializável.

Plataforma de análise das necessidades do cliente

Um grande grupo francês buscou entender as necessidades atuais e futuras de seus clientes agregando um grande volume de dados de consumidores. Após um POC de 8 semanas, industrializamos uma plataforma completa implantada em todas as entidades francesas e agora está sendo estendida para o nível do grupo.

Análise do fórum

Uma empresa farmacêutica precisava entender os problemas reais dos pacientes com síndrome de Sjögren — não aqueles dos ensaios clínicos, aqueles que os pacientes expressam uns aos outros. Criamos o sistema de PNL que pode extrair tendências, temas e sinais fracos de milhares de discussões em fóruns.

Aplicativo de otimização da cadeia de suprimentos

Uma empresa de distribuição farmacêutica teve que repensar toda a sua cadeia de suprimentos: sortimento de farmácias, gerenciamento de estoque e canais de entrega. A pesquisa operacional por si só não era mais suficiente. Criamos o aplicativo que transformou suas operações.