Im März 2016 besiegt das Programm AlphaGo von Google Deepmind den Weltmeister Lee Sedol im asiatischen Brettspiel „Go“ mit 4:1. Die Technologie, die diesen Sieg von Maschine über Mensch möglich gemacht hat, heißt „Deep Learning“ und ist dieser Tage in aller Munde. Ob man in einer App schaut, wie man als alter Mensch aussehen wird, oder sich im Browser einen finnischen Text auf Deutsch übersetzen lässt. Doch die Anwendungsszenarien beschränken sich selbstverständlich nicht nur auf den privaten Gebrauch, auch für Unternehmen bietet der Einsatz von Deep Learning Systemen großes Potenzial.
Deep Learning schnell erklärt
„Deep Learning“ ist maschinelles Lernen in „Deep Neural Networks“ (Tiefen Neuronalen Netzen). Unter neuronalen Netze sind dabei dem Gehirn nachempfundene Programme zu verstehen, in denen Signale in einem Netzwerk von Einheit zu Einheit fließen („Neuronen“ genannt), ähnlich wie in unserem Gehirn, wo elektrische Signale von Nervenzelle zu Nervenzelle fließen. Wenn mehrere Schichten solcher neuronalen Netze hintereinander geschaltet werden, spricht man von Deep Neural Networks.
Solche Deep Neural Networks sind in der Lage, aus Beispielen selbstständig zu lernen und darauf aufbauend anspruchsvolle Aufgaben zu lösen. So lernte AlphaGo das Spiel „Go“ durch die Analyse einer Datenbank von 30 Millionen menschlichen Spielzügen. Wenn Programme automatisch aus Beispielen lernen wird das „Maschinelles Lernen“ genannt, in Deep Neural Networks heißt es dagegen „Deep Learning“. Bei AlphaGo fand das Deep Learning Verfahren durch seinen Algorithmus heraus, welches Neuron wie stark mit welchen anderen Neuronen im Netz verbunden sein muss, damit AlphaGo auf einem Spielbrett wie ein Mensch reagiert. Durch diesen Prozess lernte das Deep Neural Network wie man einen guten Go Spielzug tätigt.
Die Herkunft von Deep Learning – Was ist neu, was ist alt
Neuronale Netze und Maschinelle Lernverfahren sind bei weitem keine vollkommene Neuheit: Bereits seit den 1980ern werden sie in vielen Bereichen eingesetzt, wie z.B. beim Erkennen und Aussortieren von ungewollter Emails. Die Theorien dahinter reichen sogar bis in die in den 1950er zurück. Im Gegensatz dazu ist Deep Learning erst seit einigen Jahren möglich, denn um Deep Neural Networks zu trainieren, sind sowohl sehr große Datenmengen als auch Rechnersysteme mit sehr großer Rechenleistung erforderlich.
Ein Durchbruch in Bezug auf die Rechenleistung wurde durch das Vernetzen von Rechenprozessen („Cloud Computing“) und durch den vermehrten Gebrauch von Grafikprozessoren (GPUs) erzielt. Die Datengrundlage für Deep Learning Anwendungen verdanken wir der zunehmenden Vernetzung unserer Gesellschaft: Nutzerverhalten kann im Internet (Suchmaschinen, sozialen Netzwerken, Online Shops, Smartphone Apps) im großen Stil aufgezeichnet werden („Big Data“) und kann dann von Computern analysiert werden.
Die neuen Deep Learning Systeme können in diesen Datenbergen Strukturen erkennen und Aufgaben lösen, die für bisherige Computerprogramme nicht zu bewältigen waren, etwa Objekte in digitalen Fotos erkennen. Für ein Computerprogramm ist ein Foto nur eine Liste von Zahlen: an diesem Pixel ist es hell, an jenem Pixel ist es dunkel. Ob ein bestimmter Pixel hell oder dunkel ist, sagt jedoch an und für sich sehr wenig darüber aus was auf dem Bild zu sehen ist. Wenn ein Computer nun entscheiden muss, ob z.B. ein Hund auf einem Bild zu sehen ist, muss ein Pixel im Zusammenhang mit den anderen Pixeln ausgewertet werden, und das auf eine sehr komplexe Art. Das Programm muss bei der Entscheidung berücksichtigen, dass Hunde verschiedene Rassen haben können, verschiedene Farben und dass sie aus verschiedenen Blickwinkeln aufgenommen werden können. Er muss den gleichen Hund in einem Wald, in einem Haus und auf einem Familienbild erkennen. Traditionelle Maschinelle Lernverfahren können diesen komplexen Zusammenhang zwischen Eingabe (ein Feld von Pixelwerten) und Ausgabe (Ist auf dem Bild ein Hund?) nicht leisten.
Deep Neural Networks hingegen, die wie das menschliche Gehirn mehrere Schichten von Neuronen hintereinander schalten, können mit jeder Schicht ein abstrakteres Verständnis des Eingabebilds gewinnen: Wie im Gehirn erkennen frühe Schichten Ecken und Kanten, spätere Schichten erkennen Konturen und Regionen, noch spätere Schichten erkennen dann Objekte.
Möglichkeiten und Grenzen
Mit der Fähigkeit, komplexe Zusammenhänge in großen Datenmengen automatisch zu erkennen hat Deep Learning bisher vor allem zwei Anwendungsgebiete revolutioniert: Das Maschinelle Sehen und die Sprachverarbeitung („Computer Vision“). Im Maschinellen Sehen wird Deep Learning oft zur Klassifizierung, Gesichtserkennung oder Objekterkennung genutzt, z.B. beim Autonomen Fahren oder bei der Auswertung medizinischer Bilddaten. In der Sprachverarbeitung steckt Deep Learning hinter vielen modernen Übersetzungsprogrammen, Spracherkennungssystemen und Sprachassistenten. In vielen weiteren Gebieten, wie z.B. in der Roboterkontrolle, werden die Anwendungsmöglichkeiten von Deep Learning aktiv erforscht.
Auch wenn Deep Learning bestimmte Bereiche revolutioniert hat, sollte man nicht vergessen, dass diese Systeme für sich selbst genommen nur eine Aufgabe erfüllen: Sie erkennen Strukturen in Daten und benutzen diese Strukturen um zukünftige Daten zu bewerten oder zu klassifizieren. Im Umkehrschluss können Deep Neural Networks auch nur das lernen, was in ihren Trainingsdaten enthalten ist. So kollidierte 2016 ein autonom gesteuerter PKW mit einem weißen Sattelschlepper, weil das Computer-Vision-Modul gelernt hatte, dass weiße, hoch liegende Bildregionen keine Hindernisse, sondern Wolken sind.
Zudem müssen noch immer Menschen entscheiden, welche Anzahl und Anordnung von Neuronenschichten in einem Deep Neural Network Sinn macht, welche Trainingsdaten in Frage kommen und wie das Netz in ein größeres Programm eingebaut werden soll. In AlphaGo z.B. schlägt ein Deep Neural Network mehrere Spielzüge vor, die dann von einem klassischen Spielprogramm, ähnlich einem Schachcomputer, miteinander verglichen werden. Deep Learning wird wahrscheinlich noch einige Gebiete revolutionieren mit Systemen, die automatische Entscheidungen genauso gut treffen können wie ein Mensch, oder sogar noch besser. Menschliche Entscheidungsträger ersetzen werden Deep Neural Networks aber nicht, da jedes Deep Neural Networks in der Regel nur eine einzige Art von Entscheidung treffen kann, Menschen hingegen viele.