Archive pour mars 2007

Précision-Rappel : un silence assourdissant.

Jeudi 1 mars 2007

Dans le domaine de la recherche d’informations, il est parfois difficile de donner des indicateurs de qualité et de comparer les performances (hors problématique de ranking).

Comment savoir si les résultats sont corrects et correspondent à la réalité ?

Pour cela nous utilisons deux notions indissociables :

- Le Bruit - c’est la plus facile à appréhender : tout ce qui ne correspond pas à ma recherche et qui apparait dans les résultats. Par exemple j’ai demandé des cafetières et j’ai des machines à laver dans la liste. Son pendant mathématique est la Précision.

- Le Silence - c’est une notion plus délicate, car comme son nom l’indique on ne le voit pas. C’est en fait toutes les informations de la vraie vie (dont disposait le moteur ou non) qui n’apparaissent pas dans ma liste de résultats. Pour reprendre l’exemple précédent, le moteur a dans son index 8 cafetières, mais sur ma requête il ne m’en montre que 7. Son pendant mathématique est le Rappel (Recall).

On sent bien que ces deux notions sont intimement liées. Dans les faits on parle souvent de courbe Précision/Rappel. En effet il faut souvent privilégier l’un au détriment de l’autre. Google fait très peu de silence, car il envoie le plus d’informations possible (quitte à s’y perdre, mais c’est un autre problème). Un moteur de recherche verticale cherchera à renvoyer le plus d’offres possible pour couvrir toute la “longue traine” tout en faisant le moins de bruit possible.

Un peu de Maths :

- Començons par un concept que j’aime bien et qui me rappelle des souvenirs : les patates

bruit-silence-patate1.jpg

Dans le schéma précédent on distingue les résultats, les mauvais résultats (le bruit) et les résultats absents (le silence). Evidemment le but du jeu est d’avoir les deux patates qui se recouvrent exactement.

- Un peu plus compliqué, mais utile lorsqu’il faut comparer deux moteurs de technologies différentes :

- Calcul de la Précision = (Nbr bons résultats)*100/(Nbr bons résultats+Nbr de mauvais)

- Calcul du Rappel = (Nbr bons résultats)*100/(Nbr bons résultats+Nbr résultats oubliés)

bruit-silence-courbe.jpg

La conquête des 100% pour les deux indices est un voeux pieux. Parvenir au dessus de 90% est déjà très performant et la quête des % supplémentaires “coute” souvent très très cher.

Nos propres moteurs sont plutôt calibrés au bénéfice de la précision car l’absence de bruit est une “qualité perçue” primordiale. Mais rassurez vous nous le faisons toujours avec un rappel supérieur à 95%…