SOTAVerified

Segmentation de texte non-supervis\'ee pour la d\'etection de th\'ematiques \`a l'aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings )

2020-06-01JEPTALNRECITAL 2020Unverified0· sign in to hype

Alex Benamar, ra

Unverified — Be the first to reproduce this paper.

Reproduce

Abstract

Cet article pr\'esente les principales m\'ethodes de segmentation automatique de documents textuels sp\'ecifiques. La t\^ache de segmentation th\'ematique de texte consiste \`a analyser un document pour en extraire des sections coh\'erentes. Les m\'ethodes de segmentation non supervis\'ees cherchent \`a optimiser une fonction de probabilit\'e de segmentation ou une fonction de similarit\'e qui peut \^etre calcul\'ee entre les blocs ou au sein des blocs. Elles sont r\'eparties en trois cat\'egories : les m\'ethodes statistiques, les m\'ethodes \`a base de graphes et les approches neuronales. Parmi les approches neuronales utilis\'ees, nous nous int\'eressons tout particuli\`erement \`a celles qui utilisent des plongements lexicaux pour repr\'esenter des phrases et d\'efinir des segments th\'ematiques. Tout d'abord, nous montrons que les plongements lexicaux permettent une am\'elioration nette des performances par rapport \`a des m\'ethodes statistiques. Ensuite, nous \'evaluons l'impact du choix de la repr\'esentation vectorielle des phrases pour cette t\^ache de segmentation non supervis\'ee.

Tasks

Reproductions