O cliente tinha centenas de milhares de páginas da web em seus sites, mas nenhuma era classificada de forma confiável. Sem categorizar o conteúdo, é impossível explorar os registros de conexão dos usuários para entender suas jornadas e recomendar os produtos certos para eles. O desafio técnico: criar um modelo de classificação eficiente e interpretável com base em uma amostra de treinamento muito pequena (menos de 1.500 páginas anotadas em um corpus de várias centenas de milhares).
Classificação das páginas da web
Um player do setor bancário tinha centenas de milhares de páginas da web não categorizadas e não tinha como vincular o conteúdo visualizado aos produtos relevantes para cada usuário. Desenvolvemos um modelo de classificação textual que atinge 95% de precisão em uma pequena amostra, abrindo caminho para recomendações personalizadas de produtos em grande escala.

Problématique

Solution
Ce que nous avons construit
Implantamos uma equipe de 2 cientistas de dados e 1 engenheiro de dados para projetar um sistema abrangente de suporte à descoberta molecular.
Etapa 1 — Raspagem e preparação de dados. Extração automatizada de conteúdo de páginas da web, limpeza e padronização de textos para eliminar ruídos de HTML e elementos não informativos.
Etapa 2 — Codificação semântica. Transformação de texto em representações vetoriais que podem ser usadas por modelos, testando várias abordagens: TF-IDF para a linha de base, Word2Vec e Doc2Vec para capturar semânticas além das palavras-chave.
Etapa 3 — Modelagem de aprendizado profundo. Desenvolvimento de uma rede neural sequencial bidirecional (LSTM bidirecional) capaz de classificar páginas de acordo com categorias definidas pela empresa. O modelo utiliza o contexto do texto em ambas as direções de leitura para maximizar a compreensão do conteúdo.
Etapa 4 — Interpretabilidade. Implementação de mapas de calor, permitindo que as equipes de negócios visualizem quais palavras e passagens de texto influenciaram a classificação. A empresa pode verificar se o modelo é baseado nos sinais corretos.
Projets dans la même catégorie





