next up previous contents
Next: Lexiques Up: Schéma de reconnaissance Previous: Schéma de reconnaissance

Acquisition des données

Les problèmes de saisie des catalogues sont liés à l'alimentation automatique des scanners par des feuilles ou des fiches cartonnées, à l'existence de fiches imprimées des deux côtés, et à la qualité variable des fiches dactylographiées usées.

L'acquisition des données inclut aussi le formatage des données. Parce qu'elles sont données individuellement, les images de chaque page de notices sont altérées : elles peuvent être inclinées, utiliser plusieurs polices de caractères, avoir des caractères coupés ou bien connectés (à cause du bruit), etc.

Des algorithmes de pré-traitement existent pour pallier ces altérations : la correction de l'inclinaison [Postl1986, Baird1987, Lam et al. 1993, Le et al. 1994], la segmentation en blocs (pour séparer les notices et leurs zones) [Belaïd et Akindele1993]. Il arrive fréquemment que les documents numérisés soient légèrement inclinés. Cette inclinaison est néfaste à la reconnaissance des caractères, c'est pourquoi il faut évaluer l'angle d'inclinaison du document et le redresser.

Dans le cadre d'une étude de faisabilité pour la Bibliothèque Nationale, aucune reconnaissance de caractères n'a été effectuée, mais le système appliquait une mise en correspondance de formes pour tous les indices visuels recherchés (style de la police, signes de ponctuation, etc.).

Dans le projet more, qui traitait des catalogues de la Bibliothèque Royale de Belgique, divers systèmes d'OCR[*] commerciaux ont été utilisés.


next up previous contents
Next: Lexiques Up: Schéma de reconnaissance Previous: Schéma de reconnaissance
François Parmentier
6/19/1998