SOTAVerified

Apprentissage bay\'esien incr\'emental pour la d\'etermination de l'\^age et du genre d'utilisateurs de plateformes du web social (UGC text-based age \& gender author profiling through incrementally semi-supervised bayesian learning)

2016-07-01JEPTALNRECITAL 2016Unverified0· sign in to hype

Jugurtha A{\"\i}t Hamlat

Unverified — Be the first to reproduce this paper.

Reproduce

Abstract

Les m\'ethodes de classification textuelles bas\'ees sur l'apprentissage automatique ont l'avantage, en plus d'\^etre robustes, de fournir des r\'esultats satisfaisants, sous r\'eserve de disposer d'une base d'entra\^ nement de qualit\'e et en quantit\'e suffisante. Les corpus d'apprentissage \'etant co\^uteux \`a construire, leur carence \`a grande \'echelle se r\'ev\`ele \^etre l'une des principales causes d'erreurs. Dans un contexte industriel \`a forte volum\'etrie de donn\'ees, nous pr\'esentons une approche de pr\'ediction des deux plus importants indicateurs socio-d\'emographiques « \^age » et « genre » appliqu\'ee \`a des utilisateurs de forums, blogs et r\'eseaux sociaux et ce, \`a partir de leurs seules productions textuelles. Le mod\`ele bay\'esien multinomial est construit \`a partir d'un processus d'apprentissage incr\'emental et it\'eratif sur une vaste base d'entra\^ nement semi-supervis\'ee. Le caract\`ere incr\'emental permet de s'affranchir des contraintes de volum\'etrie. L'aspect it\'eratif a pour objectif d'affiner le mod\`ele et d'augmenter ainsi les niveaux de rappel \& pr\'ecision.

Tasks

Reproductions