next up previous contents
Next: Comparaison notices - références Up: Exemple Previous: Contraintes lexicales

Reconnaissance

  Pour reconnaître une référence en utilisant le modèle construit, on utilise un algorithme de propagation de contraintes  (de type AC4, voir [Mohr et Henderson1986]), les contraintes étant les séparateurs des champs. Cet algorithme vérifie l'existence d'un étiquetage consistant par arc.

Chaque arc représente les séparateurs possibles entre deux champs représentés par des nœuds. Les étiquettes des nœuds sont les sous-chaînes possibles de la référence.

Le graphe final est consistant s'il ne subsiste aucune ambiguïté, c'est-à-dire si plus aucune étiquette n'apparaît deux fois dans des nœuds différents. Dans le cas des références, il faut que chaque mot puisse être classé dans un seul champ. Si c'est le cas et si tout s'est bien passé, la référence est reconnue parfaitement. S'il demeure quelque ambiguïté, on cherche de nouvelles contraintes et on relance la propagation de contraintes.

En n'utilisant que le modèle des séparateurs et les contraintes locales aux champs author et editor, ces deux champs sont bien reconnus, ainsi que title. Mais les autres champs sont encore sujets à des ambiguïtés.

En revanche, lorsque toutes les contraintes sont prises en compte, on s'aperçoit que le système n'est indécis que pour quelques mots. L'étiquetage de certains mots qu'on peut retrouver dans différents champs pose encore quelques problèmes (par exemple, le mot IEEE est classé dans organization, mais aussi address et publisher).

La figure 2.10 contient la référence dont les résultats de reconnaissance par le système sont dans le tableau 2.2. Ici, le mot IEEE n'a pas été gênant à classer, car il appartient au champ booktitle qui est introduit par le séparateur ._In_.


  
Figure 2.10 : Exemple de référence.
[AE 90] S. Al-Emani and M. Usher. On-line Recognition of Handwritten Arabic
Characters. In IEEE Transactions on Pattern Analysis and Machine Intelligence,
volume 12, n. 7, pages 704-710, 1990.


 
Tableau 2.2 : Résultats de reconnaissance de la référence de la figure 2.10.
Champ Contenu
author S. Al-Emani and M. Usher
title On-line Recognition of Handwritten Arabic Characters
year 1990
volume 12
number 7
pages 704-710
booktitle IEEE Transactions on Pattern Analysis and Machine Intelligence
 


Sur 400 références testées, plus de 380 ont été parfaitement reconnues. Les problèmes restants ne portent pour la plupart que sur un seul mot. Pour que le graphe devienne tout-à-fait consistant, il faut ajouter des contraintes pour les champs qui posent encore problème (à savoir organization, address et publisher).

Mêmes avec les limites imposées à ce système, le résultat n'est pas parfait, ce qui signifie que pour un système avec plus de liberté (plusieurs styles bibliographiques, plusieurs types de références, ...), il doit être capable de décider de la solution à adopter lorsqu'il y a une ambiguïté.


next up previous contents
Next: Comparaison notices - références Up: Exemple Previous: Contraintes lexicales
François Parmentier
6/19/1998