next up previous contents
Next: Reconnaissance Up: Construction du modèle Previous: Contraintes locales

Contraintes lexicales

 Quelques champs contiennent des mots, ou des expressions spécifiques, ce qui signifie que si l'on peut détecter de tels mots ou expressions, on peut être quasiment sûr du nom du champ contenant cette expression ou ce(s) mot(s). Mais cette certitude n'est que partielle, car le champ title est susceptible de contenir n'importe quelle chaîne de caractère (une année, un sigle, ...), et qu'il existe toujours des cas imprévus pour lesquels une expression a priori discriminante peut se trouver dans un autre champ.

Les champs pour lesquels les contraintes lexicales sont les plus utiles sont :

publisher :
les mots discriminants sont ici « press », « éditions », et tous les mots commençant par « publish » ;
month :
on dispose ici de la liste des mois en français et en anglais, ainsi que de leurs abréviations (Sept., Oct., ...) ;
booktitle :
le lexique utilisé contient les mots de la zone « type de conférence » (Workshop, Conference, Congress, etc.) ;
address :
une liste de noms de villes, et d'états est ici utile.


François Parmentier
6/19/1998