Calcul de similarit\'e entre phrases : quelles mesures et quels descripteurs ? (Sentence Similarity : a study on similarity metrics with words and character strings )
Davide Buscaldi, Ghazi Felhi, Dhaou Ghoul, Joseph Le Roux, Ga{\"e}l Lejeune, Xu-Dong Zhang
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Cet article pr\'esente notre participation \`a l'\'edition 2020 du D\'efi Fouille de Textes DEFT 2020 et plus pr\'ecis\'ement aux deux t\^aches ayant trait \`a la similarit\'e entre phrases. Dans notre travail nous nous sommes int\'eress\'e \`a deux questions : celle du choix de la mesure du similarit\'e d'une part et celle du choix des op\'erandes sur lesquelles se porte la mesure de similarit\'e. Nous avons notamment \'etudi\'e la question de savoir s'il fallait utiliser des mots ou des cha\^ nes de caract\`eres (mots ou non-mots). Nous montrons d'une part que la similarit\'e de Bray-Curtis peut \^etre plus efficace et surtout plus stable que la similarit\'e cosinus et d'autre part que le calcul de similarit\'e sur des cha\^ nes de caract\`eres est plus efficace que le m\^eme calcul sur des mots.