next up previous contents
Next: Analyse de références bibliographiques Up: Analyse de documents bibliographiques Previous: Projet facit

Conclusion

  Ce qui ressort de ces trois systèmes, du point de vue de l'analyse structurelle, est le besoin d'un modèle de structure robuste. Il faut également de bons outils de bas niveau pour extraire les données sur lesquelles travailler (OCR, mais aussi extraction d'indices visuels). C'est particulièrement vrai quand les documents sont riches et complexes.

Cela étant, il reste toujours des notices impossibles à reconnaître pour diverses raisons.

La principale difficulté réside à l'évidence dans la construction du modèle. En fait, quand les modèles sont ambigus ou complexes, la spécification précise de poids (pour les objets et les attributs, dans le cas de la BRB) rend leur conception encore plus ardue et mène facilement à des incohérences. Quand les modèles sont simples, on les multiplie (cf. FACIT). Il faudrait un système aidant à l'élaboration des modèles (que ce soient des grammaires, attribuées ou non), s'il n'était pas possible de concevoir un système les construisant entièrement.

De plus, la reconnaissance de la structure de ce type de documents est un réel problème de compréhension de texte. Leur interprétation ne repose pas seulement sur la reconnaissance de mots ou caractères, mais aussi sur la détection d'expressions spécifiques, voire de phrases complètes. Pour compliquer encore la tâche d'un tel système, le style de ces phrases n'est pas toujours fixe, ni connu à l'avance. Ici, le problème n'est pas seulement un problème de reconnaissance syntaxique, mais aussi de compréhension sémantique. Pour cela, une connaissance profonde du domaine du catalogage mais aussi du domaine des notices à reconnaître est nécessaire. Dans le chapitre 4, nous montrerons comment nous avons pris en compte les connaissances sémantiques propre au domaine des références à reconnaître.


next up previous contents
Next: Analyse de références bibliographiques Up: Analyse de documents bibliographiques Previous: Projet facit
François Parmentier
6/19/1998