next up previous contents
Next: Compréhension de la langue Up: Perspectives Previous: Traitement simultané de références

Extraction des références

 

Pour permettre l'intégration du système dans une application complète de traitement de documents en format électronique, il serait utile d'écrire un outil pour extraire les références des fichiers PostScript. Les difficultés se situent à plusieurs niveaux : il faut d'abord interpréter le PostScript pour en obtenir les informations voulues (texte et typographie), puis repérer les références et les extraire (ce qui peut être très simple dans un document bibliographique, mais très compliqué pour un document comprenant plusieurs articles sur deux colonnes, par exemple). Enfin, il faut reconnaître les références afin de les inclure dans une base existante. Ceci pose le problème de la mise en correspondance de références : en effet, avant d'ajouter une référence dans une base, il faut vérifier qu'elle n'y est pas, et ce sous la forme reconnue, ou bien, ce qui est plus difficile, dans une forme proche mais différente. Une comparaison stricte risque d'engendrer une multiplication des doublons : la référence reconnue risque d'avoir plus ou moins de champs que la référence correspondante, ou bien de classer le contenu de certains champs dans d'autres champs (de la même manière que les auteurs se trompe en écrivant leur références).

Des systèmes d'extraction et de reconnaissance des références bibliographiques dans des fichiers PostScript sont intéressants pour plusieurs applications. Certaines d'entre elles existent déjà mais effectuent le travail d'extraction et de reconnaissance manuellement. Citons d'abord les grandes bases de références bibliographiques électroniques : Medline, Pascal, Francis, etc..

Une utilisation moins classique des références est faite par le Science Citation Index[*] qui compte le nombre de documents dans lesquels apparaît une citation d'un autre document. Ceci permet une évaluation de la pertinence, et/ou de la lisibilité et de la pertinence du document cité.


next up previous contents
Next: Compréhension de la langue Up: Perspectives Previous: Traitement simultané de références
Francois Parmentier
6/19/1998