Projects

Phase 2 Projects

Reinforcement Learning with Qualitative Feedback


Project leaders: Johannes Fürnkranz (Darmstadt), Eyke Hüllermeier (Marburg)

Researchers: Christian Wirth (Darmstadt), Robert Busa-Fekete

Administration: Gabriele Ploch

Associates:

Summary:

Reinforcement learning (RL) is an established paradigm for autonomous learning from interaction with an environment in order to achieve long-term goals. Informally speaking, the task of an RL agent is to successively react to changes of the environment, by properly choosing actions, in order to maximize its accumulated reward over time. Conventional RL methods are confined to deal with numerical rewards. However, in many applications, only qualitative reward signals are readily available. Moreover, a restriction to numerical reward functions also hampers the exploitation of other conceivable sources of feedback, such as external advice.
Our goal in this project is to generalize the standard RL framework so as to allow for more general types of feedback, notably non-numerical rewards and qualitative advice. Building on novel methods for preference learning, the basic idea is to provide the RL agent with qualitative policy models, such as ranking functions that allow for sorting its available actions from most to least promising, as well as algorithms for learning such models. While the focus of the project is on the development of theoretical and methodological foundations of a “preference-based reinforcement learning”, we also envision two case studies putting our ideas into practice, one in the field of game playing and another one in a medical context.

Reinforcement Learning (RL) ist ein etabliertes Paradigma für autonomes Lernen durch Interaktion eines Agenten mit seiner Umgebung. Die Aufgabe eines RL-Agenten besteht, grob gesagt, darin, seinen über die Zeit akkumulierten Nutzen durch die geschickte  Auswahl von Aktionen zu maximieren. Konventionelle RL-Methoden sind im Wesentlichen auf numerische Nutzenwerte beschränkt. In vielen Anwendungen sind jedoch zusätzlich oder gar ausschließlich qualitative Belohnungen vorhanden. Darüber hinaus behindert die Beschränkung auf numerische Belohnungen die Verarbeitung weiterer Arten von Feedback, wie beispielsweise externe Ratschläge.
Ziel dieses Projektes ist es, das konventionelle RL-Modell derart zu verallgemeinern, dass es zusätzlich auch nicht-numerische Arten von Feedback verarbeiten kann. Basierend auf neuartigen Methoden des Präferenz-Lernens sollen dem RL-Agenten qualitative Entscheidungsmodelle, wie z.B. Ordnungsfunktionen zum Reihen der vorhandenen Aktionen, sowie Algorithmen zum Lernen derartiger Funktionen, zur Verfügung gestellt werden. Während der Schwerpunkt des Projekts auf der Entwicklung von theoretischen und methodischen Grundlagen eines “präferenzbasierten Reinforcement Learning” liegt, werden wir unsere Methoden auch anhand zweier praktischer Probleme aus den Bereichen Spiele und Medizin erproben.

Phase 1 Projects

Reinforcement Learning with Qualitative Feedback


Project leaders: Johannes Fürnkranz (Darmstadt), Eyke Hüllermeier (Marburg)

Researchers: Christian Wirth (Darmstadt), Robert Busa-Fekete

Administration: Gabriele Ploch

Associates:

Summary:

Reinforcement learning (RL) is an established paradigm for autonomous learning from interaction with an environment in order to achieve long-term goals. Informally speaking, the task of an RL agent is to successively react to changes of the environment, by properly choosing actions, in order to maximize its accumulated reward over time. Conventional RL methods are confined to deal with numerical rewards. However, in many applications, only qualitative reward signals are readily available. Moreover, a restriction to numerical reward functions also hampers the exploitation of other conceivable sources of feedback, such as external advice.
Our goal in this project is to generalize the standard RL framework so as to allow for more general types of feedback, notably non-numerical rewards and qualitative advice. Building on novel methods for preference learning, the basic idea is to provide the RL agent with qualitative policy models, such as ranking functions that allow for sorting its available actions from most to least promising, as well as algorithms for learning such models. While the focus of the project is on the development of theoretical and methodological foundations of a “preference-based reinforcement learning”, we also envision two case studies putting our ideas into practice, one in the field of game playing and another one in a medical context.

Reinforcement Learning (RL) ist ein etabliertes Paradigma für autonomes Lernen durch Interaktion eines Agenten mit seiner Umgebung. Die Aufgabe eines RL-Agenten besteht, grob gesagt, darin, seinen über die Zeit akkumulierten Nutzen durch die geschickte  Auswahl von Aktionen zu maximieren. Konventionelle RL-Methoden sind im Wesentlichen auf numerische Nutzenwerte beschränkt. In vielen Anwendungen sind jedoch zusätzlich oder gar ausschließlich qualitative Belohnungen vorhanden. Darüber hinaus behindert die Beschränkung auf numerische Belohnungen die Verarbeitung weiterer Arten von Feedback, wie beispielsweise externe Ratschläge.
Ziel dieses Projektes ist es, das konventionelle RL-Modell derart zu verallgemeinern, dass es zusätzlich auch nicht-numerische Arten von Feedback verarbeiten kann. Basierend auf neuartigen Methoden des Präferenz-Lernens sollen dem RL-Agenten qualitative Entscheidungsmodelle, wie z.B. Ordnungsfunktionen zum Reihen der vorhandenen Aktionen, sowie Algorithmen zum Lernen derartiger Funktionen, zur Verfügung gestellt werden. Während der Schwerpunkt des Projekts auf der Entwicklung von theoretischen und methodischen Grundlagen eines “präferenzbasierten Reinforcement Learning” liegt, werden wir unsere Methoden auch anhand zweier praktischer Probleme aus den Bereichen Spiele und Medizin erproben.