Skip to main content
Exploration

Exploration contre Exploitation

Lorsque nous sommes dans un environnement et que nous devons prendre des actions, plusieurs choix s’offrent à nous. Nous pouvons prendre une action que nous avons déjà prise ou bien prendre une nouvelle action. Cette question se pose lorsque nous souhaitons par exemple sélectionner la meilleure option possible. Nous sommes dans le dilemme de l’exploration ou de l’exploitation.

Exploration

Dans le cas de l’exploration, nous avons la possibilité de tester une nouvelle action que nous n’avons jamais réaliser. Cela nous permet dans le même temps d’augmenter notre base de données et de savoir les conséquences de cette action. Par exemple, si nous sommes au restaurant, nous avons la possibilité de choisir un nouveau plat. Ainsi, dans le meilleur des cas, nous avons eu un magnifique plat. Dans le cas contraire, nous aurons eu un plat qui ne nous convient pas forcément. Dans le cas d’un apprentissage par renforcement, cela va se jouer sur la récompense que nous allons attribuer à notre système. Ainsi, notre système aura une récompense positive et il sera que cette action est intéressante. Dans le second cas, il aura une récompense négative et il sera que cette action n’est pas intéressante. Le résultat de cette action est donc indéterminé. Cependant, avec cette méthode, nous pouvons toujours chercher la meilleure action alors qu’il se peut que nous l’ayons déjà trouvé.

Exploitation

Dans le cas de l’exploitation, nous réalisons une action où nous connaissons déjà les conséquences. Ainsi, nous avons déjà une expérience des résultats de cette dernière. Si nous prenons toujours le cas du restaurant, cela correspond au fait de prendre un repas que nous avons déjà pris par le passé. De ce fait, nous savons à quoi nous attendre. Le résultat de cette action est déterminé. Cependant, avec cette méthode, notre base de données reste toujours la même, nous n’évoluons pas. Cela peut parfois être problématique dans le cas où nous cherchons la meilleure action. En effet, il se peut que nous passions à côté de la meilleure action.

Compromis

Il nous faut donc trouver un juste-milieu. En effet, nous ne pouvons pas faire que de l’exploration et que de l’exploitation. Dans le cas d’un système intelligent, il nous faut dans un premier temps avoir une phase d’exploration qui lui permet de créer une base de données. Ainsi, en fonction des résultats que nous avons obtenus, nous pourrions choisir de conserver la phase d’exploration ou bien de passer sur une phase d’exploitation. Ainsi, la meilleure stratégie long-terme peut impliquer des sacrifices court-terme. Dans le cas où nous rassemblons suffisamment d’informations afin d’avoir la meilleure décision globale.

Implémentation

Dans un système par apprentissage par renforcement, nous allons représenter cela par un nombre compris entre 0 et 1 appellé Epsilon Greedy. Ce nombre représente la probabilité d’exploration. Pour obtenir la probabilité d’exploitation, il nous suffit de soustraire 1 avec ce nombre. Si nous assignons à epsilon une valeur de 0.1, alors nous aurons 10% de probabilité de réaliser une exploration et 90% de probabilité de réaliser une exploitation.

Le choix de la valeur de l’epsilon greedy est arbitraire. En effet, il n’existe pas de règle prédéfinie pour connaître sa valeur. Tout dépendra du type de problème que vous souhaitez résoudre. En effet, cela dépendra de la politique que vous souhaitez implémenter.

Conclusion

Pour conclure, dans cet article, nous avons abordé deux notions : l’exploration et l’exploitation. Lorsque nous avons un ensemble de choix possible, nous allons soit sélectionné une option que nous n’avons jamais pris (exploration), soit prendre une option que nous connaissons déjà (exploitation). Dans un système intelligent, nous allons utiliser une valeur appelée Epsilon Greedy modélisant le comportement de ces notions.

Régis Graptin

Passionné par l'informatique, et plus précisément dans le domaine de l'intelligence artificielle, je souhaite transmettre mon savoir tout en partageant ma passion.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *