L’auto-apprentissage (”machine learning“) est une méthode très utilisée dans le domaine de l’intelligence artificielle. Chez Sight’Up nous employons ce type de technique pour nos trois moteurs d’AI.
Comment ça marche ? Process de data mining textuel (catégorisation par exemple) :
- L’être humain montre des exemples au moteur. C’est la création du corpus étiqueté ou supervisé.
- Le moteur fait son apprentissage à partir du corpus étiqueté.
- Le moteur donne son avis sur des nouveaux documents qu’il n’a jamais vu.
Je fais souvent l’analogie avec l’éducation que les parents peuvent donner à leur progéniture. Mais c’est une éducation basée sur l’exemplarité du comportement sans aucune règle prédéfinie. L’enfant est capable seul, de se débrouiller même dans des situations inconnues. Il a développé son propre raisonnement en se servant de l’exemple de ses parents.

Les avantages :
- Indépendance des langues selon les algorithmes (nos moteurs fonctionnent aussi sur les langues asiatiques)
- Indépendance du domaine ou du métier
Les inconvénients qui lui sont reprochés :
- Il faut disposer d’un corpus d’apprentissage de plusieurs milliers de documents pour avoir des résultats satisfaisants.
- Effet boite noire (”black box”) car il est très difficile de définir à l’avance le “raisonnement” du moteur et il est impossible de lui ajouter des règles.
Comme vous pouvez le constater les meilleures technologies de machine-learnig sont celles qui diminuent l’intervention humaine et donc le coût de mise en oeuvre.
Pour cela nous avons parfois recours aux fonctions suivantes :
- Ajout d’un exemple négatif dans le corpus d’apprentissage pour que le moteur se “recale” sans mettre en péril son apprentissage précédent.
- Apprentissage semi-supervisé qui permet d’étendre la taille du corpus d’apprentissage.
- “Active Learning” où les exemples montrés par l’humain ne sont pas pris au hasard mais choisis pour le système.
Nous concernant, nous avons développé et breveté une autre voie qui permet de faire un apprentissage sur une dizaine d’exemples en conservant d’excellents résultats de précision/rappel.
Je reviendrais certainement plus en détail sur cette méthode qui me passionne déjà depuis plusieurs années et qui me surprend encore quotidiennement par son effet “magique” et la pertinence de ses résultats.