Évaluation des résultats

Pour évaluer le système, nous avons utilisé les quatre mesures présentées au paragraphe 4.3.2 :

Ces quatre mesures sont comprises entre 0 et 100. Nous avons aussi utilisé une estimation globale de la solution en les additionnant. Une solution parfaite aurait alors un score global de 400. Tout ce qui aurait été reconnu l'aurait été parfaitement (MP) ; tous les champs trouvés auraient été parfaitement reconnus (MN) ; tous les champs voulus auraient été trouvés (Rappel) ; aucun champ inexistant dans la référence n'aurait été trouvé (Précision).

Pour ne pas être astreint à des mesures aléatoires, puisque chaque exécution du système peut donner un résultat différent, nous avons calculé des statistiques sur 10 traitements de chaque référence. Par exemple, pour la référence hermann88a que nous avons détaillée au paragraphe 4.3.2, le tableau 4.21 donne les valeurs de chaque estimation, sachant que cette exécution particulière avait des évaluations respectives de 71%, 74%, 83% et 83% (donc un score global de 311).

Table: Résultat des 10 traitements de la référence hermann88a.
Numéro MP MN Rappel Précision Total

1 38 59 66 100 263

2 82 79 83 83 327

3 54 66 66 100 286

4 54 66 66 66 252

5 89 83 83 83 338

6 54 66 66 80 266

7 54 66 66 80 266

8 69 73 83 83 308

9 54 66 66 80 266

10 70 74 83 71 298

Moyenne 62 70 73 83 287

**Table:** Résultat des 10 traitements de la référence `hermann88a`.
Numéro	MP	MN	Rappel	Précision	Total
1	38	59	66	100	263
2	82	79	83	83	327
3	54	66	66	100	286
4	54	66	66	66	252
5	89	83	83	83	338
6	54	66	66	80	266
7	54	66	66	80	266
8	69	73	83	83	308
9	54	66	66	80	266
10	70	74	83	71	298
Moyenne	62	70	73	83	287

Sachant que le meilleur score global de ces exécutions est celui de l'exécution numéro 5, attardons-nous sur le résultat qu'elle fournit. Le résultat a été fourni en 10 cycles, ce qui est assez court. La température finale était de 13. Les champs fournis sont : author (100%), title (99%), month (100%), year (100%), booktitle (100%), organization (non demandé). Ce résultat est presque parfait, mise à part la confusion entre organization et address à cause du mot Bristol (que le système confond avec le terme iso qu'il connaît, alors qu'il ne connaît pas le terme Bristol).

Voyons ce qu'il en est du résultat fourni le moins bon (le numéro 1, avec un score global de 263). Seuls les champs author, month et year ont été parfaitement reconnus. Le système a amalgamé le reste de la référence dans un improbable champ title, omettant ainsi les champs address et booktitle. On ne peut pour autant pas dire que le résultat est nul, puisque 3 champs ont été exactement retrouvés (author avec une satisfaction de 87%, month de 99%, et year de 99%). De plus, le mauvais champ title n'est crédité que d'une satisfaction de 19%, rendant ainsi compte du fait que le système n'est pas très sûr de la solution qu'il a fournie au 29^e cycle avec une température de 22. Cela signifie que le système n'a pas voulu s'arrêter trop tôt, à cause d'une température trop haute, mais qu'il a préféré s'arrêter tout-de-même plutôt que de chercher encore une solution qu'il aurait sans doute eu du mal à améliorer. Sa précision est de 100% car il n'a proposé que des champs effectivement présents dans la référence.

Les résultats du système sur les 1117 références de tests sont exprimés dans le tableau 4.22. Ce sont des statistiques représentant les valeurs moyennes des résultats obtenus. Ce qui signifie que de meilleurs résultats ont pu être obtenus que ceux fournis dans la ligne MAX. Ainsi, la référence dont les résultats moyens sont les meilleurs est fayard90a, pour laquelle le système n'a pu trouver le champ adresse (Nantes). Mais le meilleur résultat, pour une seule exécution, a été obtenu 10 fois sur les exécutions, avec un score global de 398 (99,5% de moyenne sur chaque score).

Table: synthèse des résultats moyens des 1117 références de test.
MP MN Rappel Précision Global Normalisé

MIN 4% 7% 18% 29% 76 19%

MAX 97% 94% 96% 100% 368 92%

Moyenne 58% 66% 64% 75% 262 65,5%

De plus, sur les 11170 exécutions, il en est 860 qui ont un score global dépassant 350 (moyenne de 87,5% à chaque mesure), c'est-à-dire qui ont un excellent résultat, ce qui donne 344 référence très bien reconnues au moins une fois.

**Table:** synthèse des résultats moyens des 1117 références de test.
	MP	MN	Rappel	Précision	Global	Normalisé
MIN	4%	7%	18%	29%	76	19%
MAX	97%	94%	96%	100%	368	92%
Moyenne	58%	66%	64%	75%	262	65,5%

Le tableau 4.23 donne une idée de la répartition des références selon leur score global moyen (ramené en pourcentage de reconnaissance). La figure 4.25 est plus précise.

Table: Répartition des scores de reconnaissance.
intervalle nombre de références

0-9% 0

10-19% 1

20-29% 4

30-39% 13

40-49% 92

50-59% 212

60-69% 388

70-79% 301

80-89% 101

90-99% 5

**Table:** Répartition des scores de reconnaissance.
intervalle	nombre de références
0-9%	0
10-19%	1
20-29%	4
30-39%	13
40-49%	92
50-59%	212
60-69%	388
70-79%	301
80-89%	101
90-99%	5

**Figure:** Répartition des scores de reconnaissance moyens des 1117 références.

La figure 4.26, quant à elle, fournit le score maximal de reconnaissance de chaque référence sur les dix exécutions que chacune a subies. La moyenne de ces meilleurs scores est de 80%, ce qui est largement au-dessus des 65,5% obtenus précédemment.

**Figure:** Répartition des scores maximaux de reconnaissance sur les 1117 références.

Étant donné que l'objectif initial était de vérifier que BASCET était capable de s'adapter à la reconnaissance des références bibliographiques, et sachant qu'il n'est ni complètement bien réglé, ni écrit spécifiquement pour cette application (ses agents ne sont que génériques), les résultats montrés dans le tableau 4.24 sont encourageants. De plus, il n'existe à notre connaissance aucun autre système traitant le même problème, il n'y a donc pas de comparaison possible. Pour un seuil « de reconnaissance » fixé à 60%, on trouve 71% des références satisfaisant ce seuil (c'est-à-dire ayant un score global moyen normalisé supérieur ou égal à 60%). Pour améliorer les résultats du systèmes, des solutions sont proposées dans la section 5.2 de ce manuscrit.

Table: Pourcentage de références ayant un score de reconnaissance au-dessus du seuil.
Nb au dessus du seuil % Seuil

5 0,4% 90%

34 3% 85%

106 9% 80%

219 19% 75%

407 36% 70%

630 56% 65%

795 71% 60%

926 82% 55%

1007 90% 50%

1070 95% 45%

1099 95% 40%

1111 99% 35%

1112 99% 30%

Nb au dessus du seuil	%	Seuil
5	0,4%	90%
34	3%	85%
106	9%	80%
219	19%	75%
407	36%	70%
630	56%	65%
795	71%	60%
926	82%	55%
1007	90%	50%
1070	95%	45%
1099	95%	40%
1111	99%	35%
1112	99%	30%