next up previous contents
Next: Résultats et discussion Up: Bibliothèque Nationale Previous: Modèle

Analyse structurelle

L'extraction des indices joue un rôle primordial dans le traitement.

L'analyse est conduite à la fois par le modèle et par les points d'ancrage (ou îlots de confiance)  extraits des indices visuels de la notice. Elle suit une stratégie ascendante/descendante. Pour chaque point d'ancrage, le système propose, de manière ascendante, l'hypothèse du modèle la plus probable et essaye de vérifier, de manière descendante, ses contextes droit et gauche. Cette stratégie est adaptée aux éléments dont le début est bruité, ne favorisant pas une action descendante. Pourtant cette stratégie n'est efficace que quand le nombre de points de départ fiables et d'hypothèses sont limités ; ce qui n'est pas le cas pour les notices traitées. En effet, les indices visuels ne sont pas suffisants pour générer assez de points d'ancrages et ceci pour différentes raisons : plusieurs réponses peuvent être associées à un fragment de contenu lors de la recherche d'un indice (exemple : « [ » 57%; « ( » 35%), les réponses ne sont pas toujours fiables (exemple : un mot gras a été trouvé mais ne comporte pas assez de composantes pour que la mesure soit sûre), et la plupart des fragments de contenu n'ont pas de caractéristiques physiques propres (notamment en ce qui concerne les notices dactylographiées dont la représentation physique est la plus pauvre). C'est pourquoi les points d'ancrages considérés sont ceux qui minimisent le nombre d'hypothèses. Ces points sont recherchés par des outils qui ont été développés spécialement pour cette application : ce sont des programmes de reconnaissance de caractères et de mots spécifiques, ainsi que de reconnaissance du style et du mode des mots.

La compilation du modèle   permet de transformer le modèle en une structure plus directement utilisable. Le modèle est d'abord analysé pour déterminer les indices visuels à chercher dans les notices (séparateurs, styles, etc.). Puis, pour chaque objet du modèle, trois ensembles sont construits : l'ensemble des initiales (séparateurs précédant un champ), l'ensemble des finales (séparateur suivant un champ), et l'ensemble des compatibilités de voisinage entre les champs. Ces ensembles servent pendant la propagation des contraintes et l'analyse mixte.


next up previous contents
Next: Résultats et discussion Up: Bibliothèque Nationale Previous: Modèle
François Parmentier
6/19/1998