next up previous contents
Next: Analyse structurelle Up: Projet de la Bibliothèque Previous: Aspects structurels

Système

Le système est composé de quatre modules principaux : le pré-traitement, le filtrage, l'analyse structurelle et le post-traitement.

Le pré-traitement consiste à numériser les catalogues, à les segmenter en notices, puis à reconnaître leurs caractères.

Le filtrage isole les unités syntaxiques (mots, fragments de mots, ponctuation, etc.) puis extrait leurs attributs (style, affiliation lexicale, mode, etc.).

L'analyse structurelle fonctionne suivant un processus de prédiction-vérification d'hypothèses  de segmentation en champs. La segmentation est fondée sur l'analyse des commencements et fins possibles des champs de la notice courante en fonction des connaissances du modèle. Pour chaque champ analysé, les hypothèses correspondantes sont rangées dans un agenda, puis prises en compte de manière opportuniste pendant l'analyse (en commençant par les hypothèses les plus probables). Le résultat de l'analyse est une instance du modèle, appelée structure spécifique.

Le post-traitement consiste à produire une sortie structurée et balisée en UNIMARC. Cette sortie contient la structure spécifique identifiée par le système.



François Parmentier
6/19/1998