Für viele Menschen bedeutet „Lernen“ ein Prozess, der durch die Interaktion mit ihrer Umgebung ausgelöst wird. So eignen sich etwa Säuglinge ihre ersten motorischen Bewegungen nur durch aufmerksame Beobachtung und das Zusammenspiel mit ihrem Umfeld an. Auf diesem Prinzip basiert auch das sogenannte „Reinforcement Learning“, ein Teilbereich des Machine Learning. Der golgende Beitrag gibt einen Überblick über die Funktionsweise und das Anwendungspotenzial der Technologie.
Definition
Im Deutschen ist der Begriff „Reinforcement Learning“ auch als bestärkendes Lernen verbreitet. Neben dem überwachten und unüberwachten Lernen zählt es zu den bekanntesten Verfahren des Machine Learnings. Notwendig sind für das Konzept die drei Komponenten Wahrnehmung, Handlung und Ziel: Ein lernender Akteur (in diesem Fall die künstliche Intelligenz) muss fähig sein, Umweltzustände wahrzunehmen und Aktionen zielgerichtet auszuführen, um so Zustände in Richtung eines übergeordneten Ziels zu beeinflussen. Langfristiges Ziel von Reinforcement Learning ist ein selbstständig agierendes System, das weitgehend selbstständig agiert.
Funktionsweise
Indem die künstliche Intelligenz auf ihren Erfahrungsschatz zurückgreift, verbessert sie durch Versuch und Irrtum (Trial-and-Error) ihre Intuition und verbessert damit fortwährend die eigene Leistung. Das Prinzip dabei ähnelt der Konditionierung, wie sie beispielsweise beim Hundetraining zum Einsatz kommt: Gute Entscheidungen werden belohnt, schlechte bestraft (und dabei gelernt, wie sie zukünftig vermieden werden können). Tritt ein Problem auf, schlägt das System Lösungen vor, die dann per Feedback-Funktion bewertet werden. Grundlage für das Lernen sind Trainingsdatensätze, aus denen die künstliche Intelligenz wiederkehrende Muster ableitet, um dann später – je nach Kontext – die jeweils zielführendste Entscheidung zu treffen.
Anwendungsbeispiele
Mit Reinforcement Learning lassen sich Klassifikation-, Entscheidungs- und Regelungsprobleme mithilfe rein datenbasierter Methoden der künstlichen Intelligenz lösen. In Wissenschaft und Forschung wenden seit einigen Jahrzehnten die Algorithmen des Reinforcement Learnings angewendet. Beispielsweise in der Psychologie und den Neurowissenschaften, wo sich Reinforcement Learning aufgrund der Nähe zur Art des menschlichen Erlernens am nächsten ist.
Ein Anwendungsgebiet in der Wirtschaft ist beispielsweise das autonome Fahren, wo nicht nur auf unmittelbare Ereignisse reagiert werden muss, sondern diese im Idealfall sogar vorausgesehen werden (vorausschauendes Fahren), damit Zusammenstöße oder ähnliches vermieden werden können. Ein weiteres Anwendungsgebiet sind Chatbots, die im Kundenservice ideal für die Bearbeitung einfacherer, häufig wiederkehrender Routineanfragen eignen. Eine weitere Einsatzmöglichkeit ist die automatisierte Erstellung von individuell zugeschnittenen Produktvorschlägen für Kunden basierend auf deren Einkaufsverhalten.
Herausforderungen und Chancen
Das Reinforcement Learning entwickelt diejenige Entscheidungsstrategie, die am meisten Erfolg oder Gewinn verspricht. Obwohl sich dadurch zahlreiche denkbare Anwendungsfelder in der Geschäftswelt und Industrie ergeben, zum Beispiel zur Regelung von Prozessen oder Automatisierung von Entscheidungen, steht die Anwendung von Reinforcement Learning noch vergleichbar am Anfang. Ein Grund dafür sind die teilweise langen Lernphasen, die ein System durchlaufen muss, bis es wirklich einsatzfähig ist. Zudem mangelt es nicht selten an den erforderlichen Trainingsdaten, die jedoch Grundlage jedes Lernprozesses sind.
Am meisten Anwendungspotenzial hat Reinforcement Learning in Umgebungen, wo Prozessbedingungen sich kaum bis geringfügig beziehungsweise nur langsam ändern. Beim Ersteinsatz des Systems sind auch weniger Daten erforderlich als bei konventionellen Machine Learning-Ansätzen, die nicht online dazulernen, sondern mit offline aktualisierten Daten trainieren. Ebenfalls müssen Einzelabläufe nicht eindeutig modelliert werden. Zukünftig interessante Anwendungsfelder für das Reinforcement Learning können besonders Entscheidungsprobleme sein, die aufgrund zu aufwendiger oder unmöglicher Modellierung mit bisherigen Instrumenten nicht lösbar sind.