L'exemple suivant, développé dans l'équipe READ par Abdel
Belaïd et Nicolas Galmiche, illustre un schéma de
reconnaissance de références fondé sur la recherche de séparateurs
entre champs. Le modèle est construit à partir d'une base
bibliographique au format BIBTEX. Il décrit une référence comme une
suite de champs logiques délimités par des séparateurs. Les
séparateurs peuvent être de différents types : ponctuation, changement
de style, de mode, etc.
Voulant simplement étudier l'efficacité d'une analyse syntaxique
fondée sur la propagation de contraintes, nous nous sommes limités aux
cas suivants :
un seul type de référence : InProceedings (un des plus
courants dans les bases bibliographiques locales) ;
un seul style bibliographique : plain (le style le plus
commun, dans notre domaine tout au moins) ;
format de départ : PostScript (ce qui évite d'avoir à
reconnaître les caractères, et permet de se concentrer sur la
reconnaissance pure) ;
format de sortie : BIBTEX (correspondant au format de la base
de connaissances). Ce format a été choisi pour pouvoir comparer les
résultats avec la base existante.