next up previous contents
Next: Analyse de documents bibliographiques Up: List of Tables Previous: List of Tables

Introduction générale

L'objet de cette thèse est l'étude d'un système de raisonnement généraliste utilisant les principes d'émergence et d'analogie. L'émergence met en valeur les concepts (connaissances) les plus importants à un instant donné, issus directement du problème posé. L'analogie consiste à valider ces concepts en les rapprochant des connaissances a priori du système.

L'intérêt de ce type de schéma est d'éviter les inconvénients des méthodes ascendantes et descendantes qui impliquent une résolution déterministe du problème. En effet, pour des données bruitées, ces méthodes échouent souvent, faute de pouvoir s'adapter à la modélisation forcément imprécise et incomplète de ces données. Dans ce cas, une solution souvent utilisée est l'ajout d'heuristiques rendant le système moins élégant et moins générique.

L'architecture proposée permet de traiter ce type de données, en essayant de trouver des points d'ancrage sûrs servant de points de départ à une analyse plus poussée. La progression se fait à la fois par élargissement de ces points d'ancrage à des contextes locaux plus riches (nouveaux points d'ancrage, ou concepts) et par renforcement de leur cohérence au travers de connaissances provenant du modèle.

Nous nous sommes inspirés des travaux de HOFSTADTER et MITCHELL qui ont proposé une architecture de ce type [Hofstadter et Mitchell1992, Mitchell1993] appelée COPYCAT. Celle-ci est fondée sur la notion de flexibilité des concepts pour établir un raisonnement plutôt par association que par mise en correspondance directe. La flexibilité traduit pour les concepts leur nature associative et enchevêtrée, leurs frontières floues, leur pertinence dynamique et variable, leur souplesse en tant que fonction du contexte -- en un mot, leur adaptabilité aux différentes situations. Une telle adaptabilité est propre à la pensée humaine, et son origine n'est pas bien comprise.

Utilisée au départ pour l'étude de l'analogie entre chaînes de caractères, nous l'avons adaptée à un problème de plus grande taille, la reconnaissance des champs logiques des références bibliographiques. L'analogie exploitée se place à la fois au niveau de l'égalité des termes, de la cohérence des champs qui les contiennent, mais également au niveau de leur proximité sémantique. Cette dernière constitue l'originalité de ce travail en permettant une prise en compte plus profonde du contexte sémantique.

Les références bibliographiques subissent des variations de différentes natures, dues soit à des règles spécifiques de catalogage, soit à des styles de rédaction particuliers des auteurs. Selon l'application, les champs logiques peuvent changer de position et de constitution, être parfois optionnels, et avoir une typographie variable. De plus, leur contenu n'a pas une syntaxe conventionnelle : la structure n'est pas une structure de phrase, et plusieurs mots peuvent être abrégés. Une grammaire classique représentant toutes ces irrégularités est très difficile à concevoir.


Notre premier travail a consisté en l'étude du type d'architecture de COPYCAT, à s'imprégner de ce type de raisonnement et à réécrire les mécanismes de contrôle inhérents à cette architecture. La notion d'émergence statistique est fondamentale dans cette architecture. Elle émane d'un réseau de concepts qui représente des connaissances génériques sur les références et sur leur structure, et des connaissances spécifiques des références de la base de départ. Les concepts émergés (devenus pertinents au cours du traitement) activent des agents qui leur sont propres. Contrairement à des architectures plus déterministes, l'exécution de ces agents est soumise à un contrôle indéterministe fluctuant (dépendant de l'état de la solution). L'utilisation de cette architecture pour les références a impliqué la définition du réseau de concepts et des agents.

La définition du réseau de concepts et l'automatisation de sa construction à partir d'une base de références réelle sont une partie importante de cet ouvrage. Le domaine traité est en effet suffisamment différent des analogies de chaînes de caractères pour nécessiter une refonte complète de la structure interne du modèle. Nous l'avons séparé en deux : une partie générique contenant la structure hiérarchique des champs et une partie spécifique contenant des termes, instances des champs de la partie générique. Le modèle requiert une pondération des liens entre ses noeuds, traduite en termes de co-occurrences normalisées. Ces co-occurrences sont extraites par comptage des occurrences des termes dans les différents champs et leurs associations inter- et intra-champs. L'originalité de cette construction réside dans son caractère entièrement automatique, qui permet d'obtenir un modèle dont la cohérence et la consistance seraient difficiles à obtenir manuellement.

Le lecteur doit garder à l'esprit que le but de cette thèse n'est en aucun cas la conception d'une application aboutie et optimisée, mais plutôt de proposer et valider une architecture originale et son adaptation à une application particulière, ainsi que de soulever les bonnes questions concernant son amélioration.


Ce mémoire expose d'abord le problème de l'analyse des documents bibliographiques, décrit ensuite le système de reconnaissance des références bibliographiques en s'appuyant sur la description de l'architecture de COPYCAT. Le mémoire se répartir en cinq chapitres comme suit :

  1. Nous décrivons d'abord les documents bibliographiques en général et les systèmes d'analyse de notices existants.
  2. Ensuite, nous présentons les particularités de la reconnaissance des références bibliographiques, qui sont des notices particulières, et un système les traitant dont nous tirons les caractéristiques idéales d'une architecture de reconnaissance de ces documents.
  3. Nous présentons alors un système de raisonnement possédant la plupart de ces caractéristiques, en synthétisant quelques écrits sur COPYCAT, un système d'analogie entre chaînes de caractères. Puis nous détaillons les composants de BASCET notre système généraliste qui s'inspire de COPYCAT, dont le nom est un acronyme de ses composants : Blackboard, AgentS, Concepts, Exemples et Température.
  4. Enfin, nous décrivons l'application de BASCET à la reconnaissance des références bibliographiques et la construction automatique d'un modèle et d'agents adaptés à cette application. Nous détaillons son fonctionnement et évaluons ses performances.
  5. En conclusion, nous mettons en évidence les avantages et les inconvénients du système et proposons quelques perspectives à ce travail.

next up previous contents
Next: Analyse de documents bibliographiques Up: List of Tables Previous: List of Tables
François Parmentier
6/19/1998