La principale difficulté est de segmenter le texte de la notice en une hiérarchie de champs et de sous-champs (appelée structure logique) suivant le standard. Pour cela, on utilise un modèle structurel de la classe de la notice et une approche analytique capable d'extraire de l'image une instance valide selon le modèle. Pour l'analyse de la structure, le principe est d'utiliser un modèle générique donnant des informations sur l'apparence générale des champs dans les chaînes données. À cause de la pauvreté relative de la structure physique, l'accent est plutôt mis sur la structure logique, plus instructive. La hiérarchie est révélée par des constructeurs mettant en valeur les différentes occurrences structurelles. À cause des caractères « répétitif » et « optionnel » des champs rendant leur séparation non triviale, l'analyse de la structure est fondée sur une gestion conséquente d'hypothèses de segmentation.
Ce schéma a été appliqué dans l'équipe READ
sur les catalogues de deux bibliothèques. Comme les besoins
n'étaient pas les mêmes, deux approches différentes ont
été utilisées. Dans un cas, la méthode est influencée
par l'image, qui oriente l'analyse vers un processus d'analyse regroupant
les composants en sous-champs et champs grâce à des indices
visuels. Dans l'autre cas, la stratégie est plus influencée
par le modèle qui conduit la segmentation du texte d'une manière
descendante. Nous reviendrons plus tard sur la description de ces deux modèles
(sections 1.4.2 et 1.4.3).