next up previous contents
Next: Contraintes lexicales Up: Construction du modèle Previous: Extraction des séparateurs

Contraintes locales

 Les contraintes de deuxième niveau, locales aux champs eux-mêmes, c'est-à-dire concernant les sous-champs et leurs séparateurs, et pour certains champs leur syntaxe, n'ont pas subi de traitement automatique. Voici quelques exemples de ces contraintes :

champ author :
ce champ se compose d'un ou plusieurs auteurs, chaque auteur pouvant être considéré comme un sous-champ de author. Les séparateurs délimitant ces « sous-champs » varient selon le nombre des auteurs présent dans le champ.

Les sous-champs eux-mêmes sont composés d'un ou de plusieurs prénoms suivis d'un nom qui peut être composé ou comporter une particule. Même en ne tenant compte que des noms propres « à la française » (nous ignorons le Jr. américain, les noms composés, et nombre de particularités propres à chaque langue) la syntaxe de ce champ reste très complexe. Nous l'avons décrite dans une grammaire.

champ title :
ce champ est composé de mots séparés par des espaces, mais parfois par d'autres caractères de ponctuation (tiret, virgule, deux-points, etc.).
champ booktitle :
le champ du nom de la conférence a une structure assez complexe, qu'on peut décrire par 8 zones différentes :

Un n-gramme comptabilisant le nombre de fois où un mot appartenant à l'une des zones se trouve avant un mot étiqueté dans une autre zone a été construit, mais n'a pas été utilisé dans cette étude. On constate cependant que les positions relatives des zones ne sont pas fixes : le pays peut se trouver avant ou après la zone du type de la conférence, par exemple. Ces données ne sont utilisables que pour départager deux solutions : on choisit la solution la plus fréquemment rencontrée dans la base d'apprentissage.


next up previous contents
Next: Contraintes lexicales Up: Construction du modèle Previous: Extraction des séparateurs
François Parmentier
6/19/1998