Majirus Fansi est l'invité de ce 10ème épisode du podcast Fréquence Valtech, sur le thème de la classification de textes avec Apache Lucene/SOLR et LibSVM (1). Le problème est : “Comment attribuer automatiquement une ou plusieurs catégories à un texte donné” ? La façon la plus simple mais non automatisée est de demander à un expert du domaine de lire le texte et de décider à quelles catégories il appartient. Dans cet épisode, Majirus nous explique quelle démarche unique il a utilisé pour répondre à ce problème.
Vous pouvez télécharger ce podcast au format ogg ou mp3 ou encore vous abonner via le flux rss dédié.
Liens:
- L'article de Vapnik et Cortes sur l'algorithme SVM (Support Vectors Machine). Le nom initial est SVN (Support Vectors Network). (Référence scientifique: Journal of Machine Learning, September 1995, Vol 20, Issue 3, pp 273-297.)
- L'article qui compare SVM à d'autres algorithmes dans le cadre de la classification des textes. (Référence scientifique: Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceeding of ECML '98 Proceedings of the 10th European Conference on Machine Learning, Pages 137-142.)
- LIBSVM - A Library for Support Vector Machines: l'implémentation de l'algorithme SVM par le laboratoire de l'université de Tapei.
- La session de Majirus à la conférence SOLR/Lucene Revolution, et la vidéo avec les slides.
N’hésitez pas à nous faire part de vos retours par email à l’adresse <podcast-at-valtech.fr> ou alors via les commentaires ci-dessous.Le thème musical provient de podcastthemes.