RSS et filtrage bayésien

Cet article décrit un projet proposé à mes étudiants du Master SIO.
Le but du projet est de développer un aggrégateur de flux RSS qui utilise un apprentissage par filtrage bayésien pour classer les articles contenus dans les différents flux. L’interface graphique sera implémentée en Java avec la toolkit SWT.

L’idée n’est pas de moi (pour être plus précis, disons que c’est une idée personnelle mais que nous sommes plusieurs à avoir eu la même). Voici quelques références:

L’idée est d’améliorer le fonctionnement d’un aggrégateur de flux RSS avec une fonction de classement des articles qui intègre un mécanisme d’apprentissage bayésien (le même utilisé par Thunderbird pour filtrer les spams): l’utilisateur sélectionne des articles jugés intéressants et l’aggrégateur filtre les articles par un critère de similarité.
Pour le bootstrap de l’apprentissage, il est clair que l’aggrégateur doit aussi proposer une fonction plus standard de recherche dans les articles.
Bien que l’idée semble séduisante, il n’est pas certain qu’elle marche: le filtrage du spam par cette technique marche bien, mais le spam et les RSS sont deux choses relativement différentes. Un point faible potentiel me semble être que le système risque de ne proposer que des nouvelles similaires, alors que l’intérêt des nouvelles est qu’elles sont… nouvelles. Le filtrage risque de « sur-trier », un peu comme un journal qui ne vous proposerait plus que des articles sur le chant diphonique parce que vous avez un jour lu et trouvé intéressant un article sur le chant diphonique. L’introduction dans le filtrage de perturbations aléatoires permet peut-être de résoudre ce problème ( l’idée de la perturbation aléatoire me fait penser que finalement, ce n’est pas de filtrage bayésien dont on a besoin, mais d’algorithmes génétiques. Une idée à creuser…)

Tags : ,

2 réponses à “RSS et filtrage bayésien”

  1. Davide dit :

    Bonjour François
    je vois que tu te pose la question et te donne la réponse toi meme :)
    Moi j’avait pensé à quelque chose de ce genre, mais au lieu d’un filtre bayésien je voyait mieux ça:
    http://www.research.ibm.com/UIMA/
    qu’est-ce que t’en penses?
    cordialement,
    Davide

  2. francois dit :

    Bonjour Davide,
    Oui, la toolkit UIMA semble intéressante. D’ailleurs, c’est peut être possible d’utiliser les deux, UIMA + filtrage bayésien: d’après ce que j’ai lu, UIMA fournit une notation des résultats de la recherche, et le résultat peut éventuellement être utilisé comme entrée de l’apprentissage.
    En plus, UIMA c’est open source et Java, donc ça devrait être possible de l’intégrer dans l’aggrégateur dont il est question ici.
    François

Laisser un commentaire