podcast

Fréquence Valtech n°10 : Classification de textes avec Apache Lucene/SOLR et LibSVM

Majirus explique revient sur son talk Publié par Éric Le Merdy

Majirus Fansi est l'invité de ce 10ème épisode du podcast Fréquence Valtech, sur le thème de la classification de textes avec Apache Lucene/SOLR et LibSVM (1). Le problème est : “Comment attribuer automatiquement une ou plusieurs catégories à un texte donné” ? La façon la plus simple mais non automatisée est de demander à un expert du domaine de lire le texte et de décider à quelles catégories il appartient. Dans cet épisode, Majirus nous explique quelle démarche unique il a utilisé pour répondre à ce problème.

Vous pouvez télécharger ce podcast au format ogg ou mp3 ou encore vous abonner via le flux rss dédié.

Majirus et Éric

Liens:

  1. L'article de Vapnik et Cortes sur l'algorithme SVM (Support Vectors Machine). Le nom initial est SVN (Support Vectors Network). (Référence scientifique: Journal of Machine Learning, September 1995, Vol 20, Issue 3, pp 273-297.)
  2. L'article qui compare SVM à d'autres algorithmes dans le cadre de la classification des textes. (Référence scientifique: Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Proceeding of ECML '98 Proceedings of the 10th European Conference on Machine Learning, Pages 137-142.)
  3. LIBSVM - A Library for Support Vector Machines: l'implémentation de l'algorithme SVM par le laboratoire de l'université de Tapei.
  4. La session de Majirus à la conférence SOLR/Lucene Revolution, et la vidéo avec les slides.

N’hésitez pas à nous faire part de vos retours par email à l’adresse <podcast-at-valtech.fr> ou alors via les commentaires ci-dessous.Le thème musical provient de podcastthemes.