L'utilisation d'outils génériques
de reconnaissance de l'information bibliographique pose presque toujours
les mêmes problèmes. Ils sont liés aux faits suivant
:
Contenu hétérogène : les catalogues
de notices bibliographiques ont la plupart du temps été produits
sur une longue période durant laquelle les règles de catalogage
ont changé. Ils peuvent contenir des notices produites par des agences
de catalogage différentes, appliquant chacune des règles
particulières. Beaucoup de catalogues à convertir contiennent
de nombreux types de notices : des entrées principales avec des
entêtes représentant les auteurs ou les titres, des entrées
supplémentaires par auteurs secondaires, titre, thème, etc.,
des entrées couvrant plus d'une notice. Un système de reconnaissance
devrait être capable de différencier ces types et de manipuler
les informations en fonction de ce type. La figure 1.5 montre des structures
de notices extraites de trois bibliothèques européennes :
danoise, belge et française.
Figure: Différentes macro-structures de
notices de bibliothèques européennes.
Imperfections typographiques : l'information bibliographique
est composée de texte contenant beaucoup de mots abrégés,
pas seulement dans la langue du document, mais aussi dans la langue de
catalogage. Elle contient aussi des informations numériques, quelquefois
en chiffres romains, et une importante quantité de noms propres.
On peut y ajouter la multiplicité des langues représentées
et l'utilisation d'un grand nombre de caractères accentués.
La fréquence des caractères de ponctuation est plus élevée
que dans un texte ordinaire. En plus de leur rôle habituel, les signes
de ponctuation sont utilisés comme séparateurs délimitant
les éléments logiques. La présence de quelques ensembles
de caractères similaires, comme le trait-d'union et le tiret long,
les parenthèses et les crochets, augmente encore leur fréquence.
Les catalogues imprimés se servent de la typographie pour différencier
des ensemble d'éléments appartenant à la même
catégorie logique. Leur structure est plus élaborée
que celle des catalogues sur fiches, incluant systématiquement la
justification du texte, l'espacement variable, et la coupure des mots en
fin de ligne. Une partie des mots coupés appartient à une
des langues présentes dans le catalogue à convertir.
Variations linguistiques : la reconnaissance de certains
champs repose sur la reconnaissance de certains mots-clés de lexiques
spécifiques. Dans ces lexiques, on peut trouver tout le vocabulaire
propre au catalogage, et tous les mots présents dans les titres
des descriptions bibliographiques, et des insertions concernant la «
mention de responsabilité ». La ponctuation, dans les notices
pré-isbd est moins fiable que celle des notices respectant l'isbd.
Certains mots sont liés à la langue de publication (dans
les champs de titre, d'édition, d'adresse et de collection) et d'autres
sont liés à la langue de catalogage (collation et notes).
Enfin, tous les mots doivent être pris en compte, aussi bien les
mots complets que ceux qui sont abrégés.
Structure trop dense : le principal problème posé
par les notices bibliographiques réside dans la densité de
leur structure logiqueet dans leur grand choix de
séquences d'éléments. En fait, plusieurs entités
de catalogage sont optionnelles et répétitives. Ces éléments
d'information ne sont obligatoires que pour le catalogueur, quand l'information
existe pour le document à décrire. De plus ces éléments
peuvent dépendre du type de document (monographie, publication en
série, etc.), et bien sûr du type des entrées
(principale, secondaire, etc.). Enfin, l'usage actuel des signes
de ponctuations pour condenser la représentation d'information a
été hérité des catalogues imprimés.
La norme internationale isbd renforce cet usage.