next up previous contents
Next: Analyse de la structure Up: Schéma de reconnaissance Previous: Acquisition des données

Lexiques

Le nombre de langues qu'on trouve dans le même catalogue interdit l'usage de grands dictionnaires  standards (entre 200 et 300 000 formes de mots). Il est courant de trouver quinze langues différentes dans le même catalogue. Un système de rétroconversion se doit d'inclure une procédure d'identification de la langue du champ courant. Pour la vérification, un ensemble de lexiques  généraux et spécifiques est nécessaire. Les lexiques spécifiques comprennent les signes de ponctuation, les lieux de publication (avec les codes des pays), des noms types (noms de famille, noms spéciaux, comme le nom des rois, des princes et des papes, les noms des éditeurs, des expressions typiques du catalogage, comme « edited by », etc.).



François Parmentier
6/19/1998