next up previous contents
Next: Exemples extrêmes Up: Résultats et interprétations Previous: Présentation de la base

Évaluation des résultats

 

Pour évaluer le système, nous avons utilisé les quatre mesures présentées au paragraphe 4.3.2 :

Mesure Proportionnelle (MP) :
tient compte de la proportion de la référence qui a été reconnue, donc des scores de reconnaissance de chacun des champs et de leur longueur ;
Mesure Numéraire (MN) :
tient compte du nombre de champs justes reconnus et de leur score, mais pas de leur longueur, soit le total des scores des champs attendus divisé par le nombre de champs attendus ;
Rappel :
mesure la proportion de champs pertinents retrouvés par rapport au nombre de champs à trouver. Si les champs à trouver ne sont pas tous retrouvés, cette mesure sera faible. Elle sera maximale lorsque tous les champs auront été retrouvés ;
Précision :
tient compte de la « dispersion » des résultats trouvés par rapport à ceux espérés. S'il n'y a qu'un petit nombre de champs pertinents parmi une pléthore de champs proposés, cette mesure sera peu élevée.

Ces quatre mesures sont comprises entre 0 et 100. Nous avons aussi utilisé une estimation globale de la solution en les additionnant. Une solution parfaite aurait alors un score global de 400. Tout ce qui aurait été reconnu l'aurait été parfaitement (MP) ; tous les champs trouvés auraient été parfaitement reconnus (MN) ; tous les champs voulus auraient été trouvés (Rappel) ; aucun champ inexistant dans la référence n'aurait été trouvé (Précision).

Pour ne pas être astreint à des mesures aléatoires, puisque chaque exécution du système peut donner un résultat différent, nous avons calculé des statistiques sur 10 traitements de chaque référence. Par exemple, pour la référence hermann88a que nous avons détaillée au paragraphe 4.3.2, le tableau 4.21 donne les valeurs de chaque estimation, sachant que cette exécution particulière avait des évaluations respectives de 71%, 74%, 83% et 83% (donc un score global de 311).


 
Table: Résultat des 10 traitements de la référence hermann88a.
Numéro MP MN Rappel Précision Total
1 38 59 66 100 263
2 82 79 83 83 327
3 54 66 66 100 286
4 54 66 66 66 252
5 89 83 83 83 338
6 54 66 66 80 266
7 54 66 66 80 266
8 69 73 83 83 308
9 54 66 66 80 266
10 70 74 83 71 298
Moyenne 62 70 73 83 287
 


Sachant que le meilleur score global de ces exécutions est celui de l'exécution numéro 5, attardons-nous sur le résultat qu'elle fournit. Le résultat a été fourni en 10 cycles, ce qui est assez court. La température finale était de 13. Les champs fournis sont : author (100%), title (99%), month (100%), year (100%), booktitle (100%), organization (non demandé). Ce résultat est presque parfait, mise à part la confusion entre organization et address à cause du mot Bristol (que le système confond avec le terme iso qu'il connaît, alors qu'il ne connaît pas le terme Bristol).

Voyons ce qu'il en est du résultat fourni le moins bon (le numéro 1, avec un score global de 263). Seuls les champs author, month et year ont été parfaitement reconnus. Le système a amalgamé le reste de la référence dans un improbable champ title, omettant ainsi les champs address et booktitle. On ne peut pour autant pas dire que le résultat est nul, puisque 3 champs ont été exactement retrouvés (author avec une satisfaction de 87%, month de 99%, et year de 99%). De plus, le mauvais champ title n'est crédité que d'une satisfaction de 19%, rendant ainsi compte du fait que le système n'est pas très sûr de la solution qu'il a fournie au 29e cycle avec une température de 22. Cela signifie que le système n'a pas voulu s'arrêter trop tôt, à cause d'une température trop haute, mais qu'il a préféré s'arrêter tout-de-même plutôt que de chercher encore une solution qu'il aurait sans doute eu du mal à améliorer. Sa précision est de 100% car il n'a proposé que des champs effectivement présents dans la référence.


Les résultats du système sur les 1117 références de tests sont exprimés dans le tableau 4.22. Ce sont des statistiques représentant les valeurs moyennes des résultats obtenus. Ce qui signifie que de meilleurs résultats ont pu être obtenus que ceux fournis dans la ligne MAX. Ainsi, la référence dont les résultats moyens sont les meilleurs est fayard90a, pour laquelle le système n'a pu trouver le champ adresse (Nantes). Mais le meilleur résultat, pour une seule exécution, a été obtenu 10 fois sur les exécutions, avec un score global de 398 (99,5% de moyenne sur chaque score).


 
Table: synthèse des résultats moyens des 1117 références de test.
  MP MN Rappel Précision Global Normalisé
MIN 4% 7% 18% 29% 76 19%
MAX 97% 94% 96% 100% 368 92%
Moyenne 58% 66% 64% 75% 262 65,5%
 


De plus, sur les 11170 exécutions, il en est 860 qui ont un score global dépassant 350 (moyenne de 87,5% à chaque mesure), c'est-à-dire qui ont un excellent résultat, ce qui donne 344 référence très bien reconnues au moins une fois.

La moyenne de ce score global est de 262 (65,5%).

Le tableau 4.23 donne une idée de la répartition des références selon leur score global moyen (ramené en pourcentage de reconnaissance). La figure 4.25 est plus précise.


 
Table: Répartition des scores de reconnaissance.
intervalle nombre de références
0-9% 0
10-19% 1
20-29% 4
30-39% 13
40-49% 92
50-59% 212
60-69% 388
70-79% 301
80-89% 101
90-99% 5
 



  
Figure: Répartition des scores de reconnaissance moyens des 1117 références.
Répartition des scores de reconnaissance moyens des 1117 références.

La figure 4.26, quant à elle, fournit le score maximal de reconnaissance de chaque référence sur les dix exécutions que chacune a subies. La moyenne de ces meilleurs scores est de 80%, ce qui est largement au-dessus des 65,5% obtenus précédemment.


  
Figure: Répartition des scores maximaux de reconnaissance sur les 1117 références.
Répartition des scores maximaux de reconnaissance sur les 1117 références.

Étant donné que l'objectif initial était de vérifier que BASCET était capable de s'adapter à la reconnaissance des références bibliographiques, et sachant qu'il n'est ni complètement bien réglé, ni écrit spécifiquement pour cette application (ses agents ne sont que génériques), les résultats montrés dans le tableau 4.24 sont encourageants. De plus, il n'existe à notre connaissance aucun autre système traitant le même problème, il n'y a donc pas de comparaison possible. Pour un seuil « de reconnaissance » fixé à 60%, on trouve 71% des références satisfaisant ce seuil (c'est-à-dire ayant un score global moyen normalisé supérieur ou égal à 60%). Pour améliorer les résultats du systèmes, des solutions sont proposées dans la section 5.2 de ce manuscrit.


 
Table: Pourcentage de références ayant un score de reconnaissance au-dessus du seuil.
Nb au dessus du seuil % Seuil
5 0,4% 90%
34 3% 85%
106 9% 80%
219 19% 75%
407 36% 70%
630 56% 65%
795 71% 60%
926 82% 55%
1007 90% 50%
1070 95% 45%
1099 95% 40%
1111 99% 35%
1112 99% 30%
 



next up previous contents
Next: Exemples extrêmes Up: Résultats et interprétations Previous: Présentation de la base
Francois Parmentier
6/19/1998