Champ | Reconnus | Apparitions | Reconnus BT | Apparitions BR |
à 100% | BT | Proportion | Proportion | |
address | 1031 | 5 460 | 18% | 41% |
author | 4504 | 11 150 | 40% | 99% |
booktitle | 413 | 5 230 | 7% | 44% |
chapter | 0 | 10 | 0% | 2% |
editor | 2 | 760 | 0% | 8% |
howpublished | 0 | 490 | 0% | 3% |
institution | 13 | 30 | 43% | 6% |
journal | 248 | 1 070 | 23% | 31% |
month | 2 656 | 6 180 | 42% | 28% |
note | 0 | 440 | 0% | 1% |
number | 169 | 710 | 23% | 21% |
organization | 0 | 100 | 0% | 2% |
pages | 1 262 | 1 630 | 77% | 63% |
publisher | 238 | 1 040 | 22% | 16% |
school | 42 | 570 | 7% | 4% |
series | 0 | 10 | 0% | 0% |
title | 3 513 | 11 170 | 31% | 99% |
type | 184 | 2 510 | 7% | 4% |
volume | 111 | 1 060 | 10% | 33% |
year | 9 042 | 11 170 | 80% | 99% |
TOTAL | 23 428 | 60 790 |
pages est constitué de chiffres séparés par un tiret, c'est le seul champ de ce genre. year par contre est constitué exclusivement de quatre chiffres, commençant la plupart du temps par « 19 ».
Il pourrait sembler étonnant qu'avec de si bonne propriétés ces champs n'aient pas été mieux reconnus. En fait cela vient souvent de mauvaises reconnaissances d'autres champs. Il arrive qu'un champ découvert soit mal délimité (lorsque les bons séparateurs n'ont pas été trouvés), et qu'il recouvre d'autres champs, empêchant ainsi leur reconnaissance. Le champ year est quelquefois confondu avec un mot du titre (dans la base de référence, il est arrivé qu'un titre contienne une année). Étant donné les connaissances du système, cette confusion est alors compréhensible.
Les champs dont 40% ont été parfaitement reconnus sont victimes du débordement précédemment décrit : soit ils sont eux-mêmes trop grands (et ne sont donc pas parfaitement reconnus), soit ils ont été tronqués par un champ voisin qui était trop grand. C'est ce qui arrive souvent au champ author : de trop nombreux candidats comme séparateur droit entraînent une mauvaise délimitation du champ. En effet, le séparateur author-title, dans le style bibliographique plain est le point suivi d'un espace. Il se trouve très souvent dans une référence, y compris dans le champ author lui-même (les initiales du prénom d'un auteur). Le champ institution est bien plus rare. D'ailleurs il n'apparaît que 30 fois dans les références à reconnaître (3 références). Il est rare aussi dans la base d'apprentissage (55 apparitions, ce qui représente 6% des références), c'est pourquoi le système connaît peu de choses sur lui. Le champ month a des délimiteurs très passe-partout : une virgule suffit à le séparer des champs qui l'environnent. De plus, contrairement à un champ comme author qui est le plus souvent suivi du champ title, il est entouré de toutes sortes de champs facultatifs, ce qui ne facilite pas la tâche du système (il ne peut pas « déduire » qu'après un certain champ viendra forcément celui-là, qui est lui aussi facultatif).
Les champs qui ne sont jamais reconnus à 100% sont ceux qui apparaissent le moins souvent dans la base de (BT) test, et surtout dans la base d'apprentissage (BR). Ce sont aussi des champs optionnels, dont les séparateurs sont « anodins », comme une virgule. Ainsi, le champ chapter, qui n'apparaît que dans 2% des références de la base d'apprentissage n'est jamais parfaitement reconnu. Le champ editor, n'apparaissant que dans 8% des références connues, est reconnu à 100% deux fois. C'est plus souvent que le champ howpublished, qui apparaît aussi moins souvent dans la base de référence (3% des cas). De même, pour le champ type qui caractérise une référence de type techreport, le système en connaît peu de choses car il n'est apparu que dans 4% des références de la base d'apprentissage.
Les champs pour lesquels il pourrait certainement être intéressant d'apporter plus de connaissances procédurales sont ceux qui apparaissent souvent dans la base de références et qui malgré ça sont assez mal reconnus. C'est par exemple le champ address, qui pourrait profiter d'un lexique de noms de villes et d'états. C'est le cas du champ booktitle, qui a structure assez particulière, commençant presque systématiquement par une chaîne du type « Actes de », « Proceedings of », suivi de « Workshop of », « International Conference on », puis du domaine de la conférence et enfin d'une année (souvent sur deux chiffres). Ces connaissances sont implicites dans le Réseau de Concepts, mais elles ne sont pas structurées, et le système ne peut pas comprendre que « Actes de » et « Proceedings of » jouent le même rôle dans ce champ, et que ce sont des chaînes discriminantes : si elles apparaissent, elle ne peuvent apparaître dans aucun autre champ (sauf exception, si elles sont dans le titre). De plus elles sont au début du champ booktitle, elles pourraient donc jouer un rôle similaire aux séparateurs, avec l'inconvénient qu'elles ne sont pas extractibles automatiquement d'un corpus.
Le champ volume est très difficile à découvrir car il ne contient souvent qu'une lettre ou quelques chiffres. Il est souvent mal localisé car ces lettres peuvent se trouver dans d'autres champs. Le fait de connaître la structure de ce champ pourrait aussi aider à mieux le localiser. Deux ou trois caractères entourés de virgules seraient de bons candidats pour ce champ. Encore une fois, cette connaissance pourrait faire partie d'un agent spécialisé dans la détection de ce champ.
Le tableau 4.29 montre le nombre total d'agents exécutés lors du traitement des 11 170 références tests. Ce nombre total est assez conséquent, mais on peut relativiser cet apparent gigantisme.
Agent | Exécutés | (% / Total) | Réussis | (% / Exécutés | / Total réussis ) |
DS | 2 738 956 | (4%) | 295 291 | (10% | 11%) |
DC | 1 676 334 | (2%) | 67 060 | (4% | 2%) |
DI | 62 150 861 | (92%) | 2 063 025 | (3% | 82%) |
DZ | 384 046 | (0%) | 64 962 | (16% | 2%) |
AR | 378 931 | (0%) | 0 | (0% | 0%) |
Total | 67 329 128 | (100%) | 2 490 338 | (3% | 100%) |
D'une part, tous les agents ne représentent pas la même somme de calculs (même si l'agent qui consomme le plus de temps machine est l'agent DI qui représente 92% des agents exécutés).
D'autre part, de nombreux agents réduisent leur temps de calcul simplement en vérifiant s'il est oui ou non utile qu'ils s'exécutent (comme les détecteurs de champs qui ne s'exécutent pas si aucun séparateur pertinent n'existe dans le Blackboard).
De plus, la moyenne d'agents exécutés pour chaque traitement est 6027, qui est le nombre de noeuds dans le Réseau de Concepts. On pourrait croire que chaque noeud a été sollicité à un moment de chaque traitement, et qu'il ne sert à rien d'employer une telle architecture pour, finalement, exécuter un agent par noeud. Il n'en est rien car nous savons que certains agents se sont exécutés plusieurs fois (rien qu'en considérant le nombre de cycles par exécution, certains agents sont ré-exécutés au moins tous les 4 cycles), et nous savons aussi que les agents qui ont échoué une fois ne sont ré-exécutables que de plus en plus de cycles après avoir été choisis.
Le plus « efficace » des agents est, selon ce tableau (16% de réussite), le détecteur de zones, qui cherche un champ à partir de ses composants dans le Blackboard. Ensuite vient le détecteur de séparateurs (DS), qui trouve le séparateur qu'il cherche dans 10% des cas. Son rendement est meilleur que l'autre détecteur d'instance, DI, car il n'est souvent lancé que lorsqu'un détecteur de champ trouve qu'il serait utile de trouver un certain séparateur. Cela signifie qu'un objet indiquant la présence d'un tel champ aurait été trouvé. Donc le détecteur de champ active les détecteurs de tous les séparateurs pouvant entourer le champ qu'il veut chercher.
L'efficacité dont nous parlons est relative car elle est fonction de la réussite des agents mesurée par le système lui-même. Le système considère qu'un agent a réussi sa tâche lorsqu'il a réussi à construire l'élément qu'il était chargé de trouver dans le Blackboard. Cette réussite est relative, car quelquefois l'objet construit est assez éloigné de ce que l'agent cherchait. Un agent peut éventuellement être considéré comme ayant réussi, et avoir pourtant détruit à tort le travail d'un autre agent. Heureusement le mécanisme d'évaluation du résultat (à travers la satisfaction de l'objet construit) est là pour empêcher autant que possible de telles destruction.