Les contraintes de deuxième niveau, locales aux champs eux-mêmes, c'est-à-dire concernant les sous-champs et leurs séparateurs, et pour certains champs leur syntaxe, n'ont pas subi de traitement automatique. Voici quelques exemples de ces contraintes :
Les sous-champs eux-mêmes sont composés d'un ou de plusieurs prénoms suivis d'un nom qui peut être composé ou comporter une particule. Même en ne tenant compte que des noms propres « à la française » (nous ignorons le Jr. américain, les noms composés, et nombre de particularités propres à chaque langue) la syntaxe de ce champ reste très complexe. Nous l'avons décrite dans une grammaire.
Un n-gramme comptabilisant le nombre de fois où un mot appartenant à l'une des zones se trouve avant un mot étiqueté dans une autre zone a été construit, mais n'a pas été utilisé dans cette étude. On constate cependant que les positions relatives des zones ne sont pas fixes : le pays peut se trouver avant ou après la zone du type de la conférence, par exemple. Ces données ne sont utilisables que pour départager deux solutions : on choisit la solution la plus fréquemment rencontrée dans la base d'apprentissage.