Class-Y Project


Presentation

Activities

Private Sections

Overview


L’apprentissage statistique s’est imposé en quelques années comme une technologie clé pour le traitement et l’analyse des grandes masses de données, qu’elles proviennent de bases d’entreprises ou de données diffusées sur le web. Il est aujourd’hui employé dans une multitude de domaines sous la forme d’applications clé en main. En contrepartie, la croissance des données, leur complexification, la multiplication des besoins exprimés par les nouvelles applications liées aux nouveaux moyens d’accès aux données (web, mobilité, sites collaboratifs, etc,) génèrent quantité de nouveaux problèmes de traitement de données pour lesquels l’apprentissage n’a pas de réponse aujourd’hui. Ces demandes, liées à l’évolution de la technologie, font exploser le cadre classique de l’apprentissage qui se trouve actuellement devant un ensemble de défis fondamentaux. Par exemple, la classification, qui consiste à attribuer une ou plusieurs classes à un objet est un problème générique de l’apprentissage étudié depuis plus de 40 ans. Aujourd’hui, de nombreuses applications requièrent de faire de la classification avec des milliers ou dizaines de milliers de classes et il n’existe aujourd’hui aucune réponse à ce saut qualitatif des besoins. La recherche dans ce domaine en est encore à un stade préliminaire. Une des raisons est que les principes fondamentaux utilisés sont principalement hérités de modèles classiques de l'apprentissage automatique et ont été développés pour des problèmes de reconnaissance des formes simples avec un faible nombre de catégories sans relations entre elles. Les modèles les plus sophistiqués considèrent des taxonomies de catégories qui sont loin de refléter la nature et la complexité des problèmes de classification rencontrés actuellement.

Nous proposons dans ce projet un travail fondamental sur la classification avec un très grand nombre de classes. Il s’agit de revisiter les bases et les algorithmes du domaine, d’étudier et de développer un ensemble de nouvelles méthodes permettant de faire progresser cette problématique pour arriver à des algorithmes réellement opérationnels. La cible est le traitement de grands corpus de données à contenu sémantique. Ce travail sera couplé à un travail expérimental qui sera conduit dans le cadre d’un challenge international sur des données de très grande taille, organisé par les partenaires du projet.

Les challenges majeurs sont :

  • la mise au point d’algorithmes capables de passer à l’échelle sur de très grandes quantités de catégories. Par exemple les bases de brevets (http://www.wipo.int/classifications/ipc/en/) contiennent environ 70 000 catégories, DMOZ un des gros repository du web, contient plus de 600 000 catégories.
  • La prise en compte de relations complexes entre ces catégories. Par exemple, l’encyclopédie en ligne Wikipedia a plus de 20000 catégories reliées les unes aux autres par différents types de relations.

Le projet propose d’explorer trois familles d’approches :

  • Les modèles dit « Big Bang » qui traitent le problème sans exploiter l’information structurelle ou relationnelle inter-classes.
  • Les modèles dits « Top Down » qui exploitent une taxonomie de classes ou concepts pré-existante.
  • Les modèles qui infèrent automatiquement les relations entre classes à partir des données sans utiliser de connaissance a priori.

Enfin, le projet propose une tâche d’évaluation sur deux très grands corpus représentatifs de ces différentes situations. Elle fera l’objet d’une proposition de challenge international.