Les notices sont physiquement organisées en zones rectangulaires alors que les zones des références ne sont pas d'ordre physique. Elle suivent tout-de-même l'ordre logique de lecture, mais s'étendent sur plusieurs lignes physiques. Cela rend très difficile le découpage a priori des références en zones, alors qu'un algorithme de segmentation classique suffit à découper les zones des notices. La localisation de ces zones dans les références doit s'appuyer sur la compréhension de leur contenu plus que sur leur apparence. Elle peut aussi s'aider d'exemples contenus dans une base, en fonctionnant par analogie avec des références « proches ».