TP 4 : Apprentissage par renforcement

Remise : Jeudi 4 avril à 23:59 Mode de soumission : Turnin TP4 Total de points : 35 Pondération : 8% NB: Tout retard vaudra 0. Correcteur : D’Jeff Kanda Nkashama Email du correcteur : nkad2101@usherbrooke.ca Source: The Pac-Man Projects, University of California, Berkeley

Introduction

Dans ce projet, vous implémenterez les algorithmes Value-Iteration et Q-learning. Vous testerez vos agents d'abord sur Gridworld, puis vous les appliquerez à un contrôleur de robot simulé (Crawler) et à Pacman.

Ce projet sert d'introduction à l'apprentissage par renforcement.

Le code pour ce projet contient les fichiers ci-dessous, disponibles dans un fichier compressé.

Les fichiers que vous allez éditer :
`valueIterationAgents.py`	Un agent qui implemente l'algorithme d'itération par valeurs pour résoudre des MDP connus.
`qlearningAgents.py`	Agents qui implemente l'algorithmee Q-Learning pour Gridworld, Crawler et Pacman
`analysis.py`	Un fichier pour mettre vos réponses aux questions données dans le projet.
`model.py`	Deep Q Network pour aider pacman à calculer les valeurs Q dans pour des larges MDPs.
Des fichiers que vous devez lire mais PAS éditer :
`mdp.py`	Définit les méthodes sur les MDPs.
`learningAgents.py`	Définit les classes de base `ValueEstimationAgent` and `QLearningAgent`, que vos agents vont étendre.
`util.py`	Divers fonctions `util.Counter`, particulièrement utile pour les Q-learners.
`gridworld.py`	L'implémentation de Gridworld.
`featureExtractors.py`	Classes pour extraire des attributs sur des paires (état, action). Utilisé pour l'agent Q-learning approximatif (dans `qlearningAgents.py`).
`deepQLearningAgents.py`	Boucle d'entrainement pour l'agent Q-learning.

Fichiers à modifier et soumettre : vous devez remplir les sections manquantes du fichier valueIterationAgents.py, qlearningAgents.py, analysis.py, model.py. Veuillez ne pas modifier les autres fichiers.

Évaluation : l'auto-correcteur s'assure du bon fonctionnement de votre code. Ne changez aucun nom de fonction ou nom de classe dans le code, sans quoi l'auto-correcteur ne fonctionnera pas. L'auto-correcteur ne détermine pas entièrement votre résultat final. La qualité de votre implémentation - et non les résultats obtenus par l'auto-correcteur - déterminent votre résultat final.

Utilisation des données : une partie des notes obtenues dépend de la performance de votre modèle sur l'ensemble de test. La base de code n'offre aucun API permettant d'accéder à cet ensemble directement. Par conséquent, toute tentative de modification des données de test sera considéré de la tricherie et sera sévèrement pénalisé en conséquence.

Aide : N'hésitez pas à contacter les assistants à l'enseignement pour ce cours afin de vous aider dans le travail.

Plagiat : Nous prendrons soin de vérifier votre code par rapport aux autres soumissions de la classe afin de détecter toute redondance logique.
Tout cas de plagiat sera sanctionné adéquatement. Voir le document informatif du Groupe de travail antiplagiat de l’Université de Sherbrooke à cet effet.

Vous utiliserez l'autogradeur avec les commandes suivantes pour évaluer vos solutions :

python autograder.py

Critère	Points
Code fonctionnel	5
Qualité / lisibilité du code	1
Total	6

Membre 1	Membre 2
Rouabah, Lokman	Boutin, Karl
Tétreault, Etienne	Charbonneau, Victor
Boulanger, Bastien	Dia, Adam
Ménard Tétreault, Yuhan	Lessard, Nathan
Girard Hivon, Maxime	Bergeron, Marc-Olivier
Yahya, Mohamed	Philion, Guillaume
Crozet, Thomas	Mailhot, Christophe
Krid, Ahmed Bahaedine	Desfossés, Alexandre
Lavallée, Louis	Pion, Raphaël
Carignan, Benjamin	Duchesneau, Paul
Bellavance, Nicolas	Grenier, Philippe-Olivier
Bourgeois, Thomas	Gendreau, Tommy
~	Allard, Cloé
Proulx, Hugo	Pépin, Pierre-Luc
Tientcheu Tchako, David Jeeson	Gauthier, Carl
Lamothe-Morin, Zoé	Giasson, Frédéric
Breton Corona, Eduardo Yvan	Turcotte, Raphaël

TP 4 : Apprentissage par renforcement

Introduction

MDPs

Question 1 : Value Iteration

Barème

Question 2 : Politiques

Barème

Question 3 : Q-Learning

Barème

Question 4 : Epsilon Greedy

Barème

Question 5 (1 point): Q-Learning et Pacman

Question 6 : Q-Learning approximatif

Barème

Question 7 : Deep Q-Learning

Barème

Les équipes: