Caract\'eriser les discours acad\'emiques et de vulgarisation : quelles propri\'et\'es ?
Amalia Todirascu, Beatriz Sanchez Cardenas
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
L'article pr\'esente une \'etude des propri\'et\'es linguistiques (lexicales, morpho-syntaxiques, syntaxiques) permettant la classification automatique de documents selon leur genre (articles scientifiques et articles de vulgarisation), dans deux domaines diff\'erentes (m\'edecine et informatique). Notre analyse, effectu\'ee sur des corpus comparables en genre et en th\`emes disponibles en francais, permet de valider certaines propri\'et\'es identifi\'ees dans la litt\'erature comme caract\'eristiques des discours acad\'emiques ou de vulgarisation scientifique. Les premi\`eres exp\'eriences de classification \'evaluent l'influence de ces propri\'et\'es pour l'identification automatique du genre pour le cas sp\'ecifique des textes scientifiques ou de vulgarisation.