Bien choisir son outil d'extraction de contenu \`a partir du Web (Choosing the appropriate tool for Web Content Extraction )
2020-06-01JEPTALNRECITAL 2020Unverified0· sign in to hype
Ga{\"e}l Lejeune, Adrien Barbaresi
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Nous proposons une d\'emonstration sur l'extraction de contenu textuel dans des pages web ainsi que son \'evaluation. Nous nous concentrons sur les pages web contenant du texte (articles de presse, magazines en ligne et blogs) et montrons que les textes peuvent varier grandement selon diff\'erentes dimensions : diachronique, g\'eographique et typologique. D\`es lors, les outils et mesures d'\'evaluation correspondantes sont sujettes \`a caution : les indicateurs commun\'ement utilis\'es et cens\'es pr\'esider au choix de l'outil appropri\'e par les utilisateurs finaux sont \`a la fois impr\'ecis et difficiles \`a interpr\'eter.