next up previous contents
Next: Construction de la partie Up: Construction du Réseau de Previous: Construction du Réseau de

Influence et co-occurrence

    Comment fixer les valeurs des poids des liens dans le Réseau de Concepts ? C'est lors de la réflexion sur l'exploitation des termes de la base (instances de champs appartenant à la partie générique) que l'utilisation de la co-occurrence de deux termes s'est imposée.

Dans le domaine de l'acquisition des connaissances, on tient pour acquis qu'il existe deux façons de procéder : l'une est descendante et l'autre ascendante. La descendante est dite « onomasiologique »   et part du niveau conceptuel (un modèle) pour comprendre les textes. Cette manière de faire est efficace lorsque les documents traités sont fortement structurés, mais reste silencieuse sur des connaissances non prévues. L'ascendante est dite « sémasiologique » et part des données pour construire des entités conceptuelles. La construction du Réseau de Concepts est donc qualifiable de « sémasiologique » puisqu'elle part des données contenues dans la base de références pour construire des concepts.

Dans [Frath et al. 1995], les auteurs disent que pour eux « le sens se construit essentiellement grâce à une combinatoire : les constituants d'un syntagme exercent les uns sur les autres des contraintes sémantiques qui en restreignent et donc en précisent le sens. ». Leur système d'aide à l'extraction, à partir d'un texte, d'entités conceptuelles et de relations extrait des segments répétés, les simplifie, les généralise, morphologiquement (lemmatisation sommaire), puis recherche des co-occurrences de couples de mots. Ces relations sont ensuite étiquetées manuellement. Notre acception du sens est similaire : le sens d'un mot ne se précise que grâce aux autres mots (ou concepts) qui lui sont associés.

Des chercheurs analysant la compréhension humaine lors de la lecture ont mis en évidence des structures similaires à celles du Réseau de Concepts: pour Fayol [Fayol1992], les schémas  désignent des « blocs » de connaissances concernant un domaine ; ils sont constitués de réseaux sémantiques dont les éléments entretiennent des relations privilégiées du fait de leurs fréquentes co-occurrences. Ainsi, pour Fayol, on peut rapprocher des éléments qui co-occurrent fréquemment. De plus, il fait apparaître que dans la littérature, les auteurs se réfèrent à un mécanisme d'activation, et que cette activation se répand dans les réseaux constituant les schémas. De même, Segui nous apprend [Segui1992] que la présentation d'un mot-stimulus active non seulement sa propre représentation lexicale, mais encore celle d'un ensemble de mots correspondant à ses voisins orthographiques, afin de délimiter rapidement les candidats à reconnaître lors de la lecture. En passant du cadre de la reconnaissance orthographique stricte à la reconnaissance conceptuelle, on peut remplacer le voisinage orthographique par le voisinage conceptuel. Il dit aussi que, d'après des expériences, il est possible d'agir sur la reconnaissance d'un mot en modifiant préalablement l'état d'activation de ses voisins plus fréquents.

Dans sa thèse sur l'analyse des associations [Michelet1988], Michelet dit : « la donnée des associations les plus pertinentes d'un terme permet d'en reconstituer une définition : l'essence de la définition est l'association. ». Il y dénombre quelques indices d'association fondés sur la co-occurrence de termes. Selon sa définition, « un indice d'association doit fournir des valeurs non décroissantes quand la co-occurrence augmente ». Cela se conçoit fort bien : plus deux termes apparaissent souvent ensemble, plus leur association est grande (dans notre cas : plus leur influence réciproque est grande). De plus, « un indice d'association    entre deux termes ne doit pas augmenter si l'on rajoute à la base un enregistrement ne contenant que l'un des deux termes ». Il serait en effet dommageable qu'un tel ajout modifie l'influence d'un terme sur un autre d'une telle façon : l'association de deux termes augmenterait alors que leur co-occurrence ne varierait pas.


Soit Ci le nombre d'occurrences de l'objet i dans cette base de taille N.

Soit Cij le nombre d'enregistrements de cette base où les objets i et j co-occurrent.

L'indice d'équivalence  :

Eij = C2ij / (Ci x Cj)

« présente toutes les ``bonnes'' propriétés ... : c'est un indice d'association  local, homogène, défini par un monôme ... ».

Sachant qu'un indice d'association est homogène s'il reste constant quand on multiplie l'ensemble de ses variables par un facteur constant, et local s'il ne dépend pas de la taille de la base.

Cet indice d'équivalence traduit la notion de proximité conceptuelle , c'est-à-dire que deux termes apparaissant souvent dans le même enregistrement ont de fortes chances d'être liés, conceptuellement parlant. Ainsi que le dit Michelet : « Des coefficient statistiques d'association peuvent être utilisés pour donner une idée des liens structurels qui existent dans le vocabulaire. ... les agrégations statistiques ne renvoient pas à une liaison ``logique'', mais au contraire à une convergence d'intérêt. ».

Alors que l'on désire obtenir une manière de calculer une influence d'un noeud sur un autre, nous pouvons transformer l'indice d'équivalence en influence bidirectionnelle (c'est-à-dire avoir la même influence du noeud 1 vers le noeud 2 que du noeud 2 vers le noeud 1). Ce serait un comportement acceptable pour certaines applications (par exemple, une application éloignée dont les liens étaient doublés pour les rendre bidirectionnels est le Voyageur de Commerce -- cf. page [*]). Mais dans le cas des références bibliographiques, on veut qu'un terme 1 puisse influer sur un terme 2 d'une manière différente que le terme 2 sur le terme 1. En effet, prenons l'exemple d'un auteur et d'un de ses co-auteurs. Soit A1 le premier auteur et A2 son co-auteur dans une référence. Soit C1 le nombre d'apparitions de A1 dans la base, et C2 celui de A2 dans la même base. Soit C12 le nombre d'articles en commun des deux auteurs. Donnons des valeurs à ces variables : C1 = 50, C2 = 5, C12 = 4.

Pour l'indice d'équivalence, . Or on voit bien que A2 est bien plus lié à A1 que A1 à A2, puisque la presque totalité de ses références a A1 comme co-auteur.

L'indice d'inclusion [Michelet1988]   traduit bien mieux cette notion d'« influence » d'un terme sur un autre :

Ii->j = Cij / Ci

  Ici, I1->2 = 4/50 = 8% alors que I2->1 = 4/5 = 80%.

Comme l'activation d'un noeud se propage selon ses influences vers les autres noeuds, et qu'un noeud est actif surtout quand un agent a trouvé une de ses instances dans le blackboard, il vaut mieux utiliser l'indice d'inclusion pour représenter l'influence de A2 sur A1.

En effet, si le système met à jour A2, il y a une probabilité de 80% (en se basant sur les statistiques de la base d'apprentissage) que A1 se trouve aussi dans la référence à traiter, alors que si le système trouve A1, il n'a que 8% de chances de trouver A2 dans la même référence.

Toujours selon [Michelet1988] : « si l'on observe une propriété a, alors qu'il y a une probabilité PI qu'on observe également la propriété b. Cette probabilité est estimée par la fréquence relative d'apparition de b sachant qu'on est en présence de a, c'est-à-dire par le coefficient d'inclusion Iab = Cab / Ca. ». L'influence Ii->j est donc une estimation de la probabilité d'observation du terme j sachant qu'on a observé le terme i, c'est donc une estimation de la probabilité conditionnelle P(j|i).


next up previous contents
Next: Construction de la partie Up: Construction du Réseau de Previous: Construction du Réseau de
Francois Parmentier
6/19/1998