La reconnaissance des références bibliographiques est l'application principale de BASCET dans cette thèse. Ce chapitre présente tout d'abord la problématique, puis l'adaptation du système à cette application. Elle utilise un Réseau de Concepts et des agents adaptés. Ensuite nous verrons comment fonctionne ce système grâce à des exemples et des résultats que nous interpréterons.
Le but de cette étude est d'extraire la structure logique des références bibliographiques situées à la fin des articles scientifiques. On peut les trouver sous forme papier ou bien sous forme de documents électroniques ne contenant que des informations physiques (formats PostScript, PDF, HTML, etc.). Le bruit est très gênant pour la reconnaissance des caractères quand on travaille sur des documents numérisés. C'est pourquoi nous nous limitons au cas des documents électroniques sans structure logique, qui est suffisamment difficile pour lui consacrer cette étude.
Nous avons choisi, principalement pour des raisons de disponibilité des bases de données et des outils correspondants, de travailler sur des références en BIBTEX. Nous utilisons donc la structure hiérarchique de ce format. Les données seront en format PostScript générées automatiquement à partir d'une base BIBTEX. Pour limiter la complexité du problème, nous ne travaillons que sur le style bibliographique le plus courant, proposé par défaut par BIBTEX: plain.