Von einem Gedankenexperiment zu einer neuen Welt

Hast du dich jemals gefragt, woher die KI kommt, die wir jeden Tag nutzen, wie die Sprachassistenten in unseren Handys, Empfehlungsalgorithmen oder sogar das kürzlich populär gewordene ChatGPT? Viele Menschen denken, KI sei wie eine geniale Idee, die in einem Labor „erfunden“ wurde. Aber die Wahrheit ist viel spannender. KI ist keine isolierte Erfindung, sondern eher ein „Staffellauf der Gedanken“, der fast ein Jahrhundert umspannt. Ihr Ausgangspunkt ist nicht einmal eine Zeile Code, sondern eine tiefgreifende philosophische Frage: „Kann eine Maschine denken?“ Diese Frage ist wie ein Stein, der in einen ruhigen See geworfen wird und die Wellen von Generationen von Spitzenköpfen auslöst. Seitdem haben sich Philosophen, Mathematiker, Ingenieure, Psychologen und viele andere Pioniere engagiert, einige haben ihren Namen definiert, andere haben den Weg geebnet, einige haben in der Winterzeit durchgehalten, und andere haben heute ihre Energie entfesselt. In diesem Artikel werden wir aus einer anderen Perspektive die entscheidenden Wendepunkte der KI von 0 bis 1 durch 10 der repräsentativsten Persönlichkeiten verbinden. Du wirst sehen:

Wie ein großer Traum „benannt“ und „definiert“ wurde.
Wie die beiden technischen Wege „Symbolismus“ und „Konnektionismus“ aufeinanderprallten und verschmolzen.
Wie die drei „Väter des Deep Learning“ in der Winterzeit durchhielten und schließlich die Wiederbelebung des gesamten Feldes erlebten.

Lass „Intelligenz“ von der Philosophie in die Wissenschaft übertreten

Jede große technologische Revolution hat oft nicht ihren Ursprung in einer konkreten Erfindung, sondern in einer bahnbrechenden Frage. Dies gilt insbesondere für die künstliche Intelligenz (KI). Ihre Geschichte beginnt nicht mit einer dröhnenden Maschine oder einer magischen Zeile Code, sondern mit einem Gedankenexperiment, das von einem genialen Mathematiker auf Papier formuliert wurde. Diese Person und ihre Frage haben das Konzept der „Intelligenz“, das seit Jahrtausenden in den Hallen der Philosophie verweilt, zum ersten Mal in die Arena der modernen Wissenschaft gezogen. Es ist Alan Turing.

Im Jahr 1950, als der Morgen der Informatik gerade anbrach, waren die Maschinen schwerfällig und langsam und konnten nur die grundlegendsten Berechnungen durchführen. Doch Turings Gedanken hatten bereits die Grenzen der Zeit überschritten. In seinem bahnbrechenden Aufsatz „Computing Machinery and Intelligence“ stellte er eine scheinbar einfache, aber äußerst tiefgreifende Frage: „Kann eine Maschine denken?“ Turing erkannte scharfsinnig, dass eine direkte Diskussion über die Definition von „Denken“ in ein endloses philosophisches Morast führen würde. Daher verwandelte er es geschickt in ein spielbares Experiment – das „Imitationsspiel“ (The Imitation Game), das später als „Turing-Test“ weltberühmt wurde.

Die Spielregeln sind: Ein Fragesteller kommuniziert über Text mit zwei anonymen Objekten, von denen eines ein Mensch und das andere eine Maschine ist. Wenn der Fragesteller nach einer ausreichend langen Zeit nicht unterscheiden kann, welches das Gerät ist, können wir sagen, dass diese Maschine den Test bestanden hat und intelligentes Verhalten zeigt, das dem eines Menschen nicht unähnlich ist. Dies ist der Grund, warum der Ausgangspunkt der KI so einzigartig ist: Es ist keine „Erfindung“, die darauf abzielt, eine bestimmte Aufgabe zu lösen, sondern eine „Herausforderung“, die darauf abzielt, grundlegende Fragen zu beantworten.

Die Größe des Turing-Tests liegt darin, dass er einen operativen und bewertbaren Standard für das vage Konzept der „Intelligenz“ bietet. Er beschäftigt sich nicht mehr damit, ob in der Maschine eine Seele oder ein Bewusstsein vorhanden ist, sondern konzentriert sich auf ihr äußeres Verhalten. Es ist, als müssten wir eine Blackbox nicht öffnen, um ihre innere Struktur zu erkunden, sondern könnten einfach durch die Beobachtung ihrer Ausgaben ihre Fähigkeiten beurteilen. Diese pragmatische Denkweise verwandelte eine rein philosophische Spekulation in ein ingenieurtechnisches Ziel, das von Ingenieuren und Wissenschaftlern angegangen werden kann.

Turing säte einen Gedankenkeim, aber um ihn zum Wachsen zu bringen, bedarf es fruchtbaren Bodens und eines leidenschaftlichen Gärtners. Diese Person trat bald auf den Plan: John McCarthy. Im Jahr 1955 war Turing bereits verstorben, aber seine Frage inspirierte eine Gruppe junger Wissenschaftler auf der anderen Seite des Atlantiks. Zu dieser Zeit war die Forschung über „denkende Maschinen“ in verschiedenen Bereichen verstreut, und die Namen waren vielfältig, wie „Kybernetik“, „Automatentheorie“ usw.

Der junge Mathematikprofessor McCarthy am Dartmouth College war der Meinung, dass diese verstreuten Funken zu einer lodernden Flamme gebündelt werden müssten. Er plante, im Sommer 1956 ein mehrere Wochen dauerndes Seminar zu organisieren, um die besten Köpfe Amerikas einzuladen, um gemeinsam die Möglichkeit zu erörtern, Maschinen zu entwickeln, die menschliche Intelligenz simulieren können. In dem von ihm zusammen mit Marvin Minsky und anderen verfassten Konferenzvorschlag strahlten sie geniale Optimismus aus und erklärten: „Jeder Aspekt der Intelligenz kann prinzipiell präzise beschrieben werden, sodass Maschinen sie simulieren können.“

Um diesem neuen Bereich eine klare Identität zu verleihen, benötigte McCarthy einen einprägsamen Namen. Er vermied absichtlich den damals einflussreichen Begriff „Kybernetik“, da er nicht wollte, dass dieser neue Bereich als Teil des akademischen Gebiets des Kybernetik-Pioniers Norbert Wiener angesehen wird. McCarthy erinnerte sich später, dass er diesen neuen Begriff prägte, um eine klare Abgrenzung zu schaffen und eine unabhängige akademische Identität zu etablieren. Der sorgfältig ausgewählte Name war – „Künstliche Intelligenz“ (Artificial Intelligence).

Die Dartmouth-Konferenz von 1956 wurde somit zur „Schöpfungsgeschichte“ der KI. Sie benannte nicht nur offiziell dieses Fachgebiet, sondern versammelte auch eine Gruppe von Denkern mit einem gemeinsamen Traum und legte das ursprüngliche Forschungsprogramm fest. Auf der Konferenz präsentierten Allen Newell und Herbert Simon das erste „denkende“ Programm – den „Logiktheoretiker“ (Logic Theorist), das in der Lage war, mathematische Theoreme mit symbolischer Logik zu beweisen, was die Teilnehmer enorm ermutigte.

Die Geburt des Begriffs „Künstliche Intelligenz“ bedeutete, dass ein neuer Kontinent offiziell entdeckt wurde. Er gab allen, die eine Leidenschaft für „Maschinenintelligenz“ hatten, eine gemeinsame Identität und eine einheitliche Flagge. Von nun an waren sie keine einsamen Mathematiker, Psychologen oder Ingenieure mehr, sondern „Wissenschaftler der Künstlichen Intelligenz“. McCarthy benannte nicht nur dieses Fachgebiet, sondern schuf 1958 auch die Programmiersprache Lisp, ein leistungsstarkes Werkzeug zur symbolischen Verarbeitung, das zur „offiziellen Sprache“ der frühen KI-Forscher wurde und es ihnen ermöglichte, abstrakte Logik und Gedanken tatsächlich in Programme umzusetzen, die auf Maschinen laufen konnten.

Von Turings philosophischer „Frage“ bis McCarthys disziplinarischem „Namen“ vollzog die Künstliche Intelligenz den entscheidenden Sprung von 0 auf 1. Turing definierte das ultimative Ziel, während McCarthy das Signal zum Sammeln gab und eine der größten und aufregendsten wissenschaftlichen Reisen der Menschheitsgeschichte einleitete. Diese Reise begann mit der philosophischen Frage „Wer sind wir?“ und führte schließlich zur wissenschaftlichen Praxis, „neue Intelligenz“ mit Code und Algorithmen zu „schaffen“.

Der erste Zusammenstoß der beiden Wege: Genialer Optimismus und kaltes Wasser der Realität

Warum waren die frühen KI-Wissenschaftler so optimistisch?

In der Frühzeit der Künstlichen Intelligenz herrschte im gesamten Bereich eine fast fanatische optimistische Stimmung. Der Kern dieses Vertrauens beruhte auf einem einfachen, aber kraftvollen Glauben – dem Symbolismus. Unter der Führung von Marvin Minsky am MIT waren die erste Generation von KI-Wissenschaftlern überzeugt, dass menschliche Intelligenz und alle intelligenten Aktivitäten in eine Reihe von logischen Symbolen und formalen Regeln zerlegt werden könnten. Ihrer Meinung nach war das Gehirn nichts anderes als eine „Fleischmaschine“, und solange wir die richtigen Regeln finden, könnten wir den Denkprozess auf einem Computer nachbilden.

Dieser Glaube war nicht unbegründet, sondern basierte auf einer Reihe aufregender früher Erfolge. 1956 wurde ein Programm namens „Logiktheoretiker“ (Logic Theorist) vorgestellt, das als das erste echte KI-Programm gilt. Dieses Programm bewies erfolgreich 38 Theoreme aus dem berühmten mathematischen Werk „Principia Mathematica“ und fand sogar elegantere Beweisführungen für einige davon. Einer der Schöpfer, Herbert A. Simon, erklärte begeistert: „Wir haben ein Computerprogramm erfunden, das nicht-numerisches Denken durchführen kann und damit das alte Problem von Geist und Körper gelöst hat.“ Dieser Erfolg bewies der Welt, dass Maschinen tatsächlich Aufgaben erledigen können, die früher als menschlich und kreativ angesehen wurden. Ein weiteres berühmtes Beispiel ist das SHRDLU-System, das in einer virtuellen Blockwelt durch natürliche Sprachbefehle komplexe Aufgaben wie „Setze die rote Pyramide auf den blauen Block“ verstehen und ausführen konnte.

Diese Erfolge in der „Spielzeugwelt“, obwohl begrenzt, waren wie ein Lichtstrahl, der den Weg zur allgemeinen Intelligenz erhellte. Gerade diese greifbaren Ergebnisse ermutigten Simon, Minsky und andere. Sie wagten es, heute als äußerst kühn geltende Vorhersagen zu treffen, wie Simon, der vorhersagte, dass Maschinen innerhalb von zehn Jahren den menschlichen Schachweltmeister besiegen und neue wichtige mathematische Theoreme entdecken könnten. In dieser „Goldenen Ära“ glaubte man allgemein, dass es nur eine Frage der Zeit sei, bis Maschinenintelligenz auf dem Niveau des Menschen erreicht werden könne, solange man dem Weg des Symbolismus folgte.

Wie kam es zum ersten KI-Winter?

Doch der Optimismus der Genies stieß bald auf eine kalte Wand namens „Realität“. Als die KI-Forscher versuchten, die Programme, die in der „Spielzeugwelt“ gut funktionierten, auf die reale, komplexe Welt anzuwenden, traten die grundlegenden Probleme des Symbolismus zutage. Zunächst war der Symbolismus nicht in der Lage, mit dem allgegenwärtigen „Gesunder Menschenverstand“ und der „Unsicherheit“ in der realen Welt umzugehen. Menschliche Alltagsentscheidungen sind voller Unschärfen, Intuitionen und implizitem Hintergrundwissen, die sich nur schwer in präzise logische Regeln kodieren lassen.

Zum Beispiel wissen wir alle, dass „Wasser nass ist“ und „Vögel fliegen können“, aber es ist nahezu unmöglich, all diese unzähligen Alltagsweisheiten manuell in die Maschine einzugeben. Zweitens stehen KI-Systeme beim Skalieren vor einem tödlichen Hindernis – der „kombinatorischen Explosion“. Das bedeutet, dass, wenn die Variablen eines Problems nur geringfügig zunehmen, die Anzahl der zu berechnenden Möglichkeiten exponentiell ansteigt und schnell die Verarbeitungsfähigkeit jeder Computer übersteigt.

Wie das SHRDLU-System, das, sobald seine „Blockwelt“ etwas komplexer wird, drastisch an Leistung verliert und unrealistisch wird. Diese grundlegenden Einschränkungen führten dazu, dass die Entwicklung der KI weit hinter den anfänglichen Versprechungen zurückblieb. Enttäuschung breitete sich aus und kulminierte schließlich 1973 in einem Dokument namens „Lighthill Report“. Dieser Bericht, der von der britischen Regierung in Auftrag gegeben wurde, kritisierte scharf: „Bis heute hat kein Bereich die bedeutenden Auswirkungen erreicht, die ursprünglich versprochen wurden.“

Der Bericht wies direkt auf das Versagen der KI-Forschung hin, reale Probleme zu lösen, insbesondere auf die Unfähigkeit, das Problem der „kombinatorischen Explosion“ zu bewältigen, und kam zu dem Schluss, dass viele Grundlagenforschungen in der KI nicht weiter finanziert werden sollten. Die Veröffentlichung dieses Berichts führte direkt dazu, dass die britische Regierung die Mittel für die KI-Forschung drastisch kürzte, und viele Universitäts-KI-Labore gezwungen waren, zu schließen. Diese Kälte breitete sich auch auf die USA aus, wo die Förderinstitutionen vorsichtiger wurden und eher kurzfristige, klar anwendbare Projekte bevorzugten.

So erlebte die Künstliche Intelligenz aufgrund der enormen Kluft zwischen Versprechen und Realität ihren ersten „Winter“. Sogar Minsky gab später zu, dass ihr „größter Fehler… darin bestand, nicht zu erkennen, wie schwierig das Problem war, das wir zu lösen versuchten“.

Warum wird gesagt, dass es ein großer Fortschritt war, KI „Unsicherheit akzeptieren“ zu lehren?

Als der Weg des Symbolismus in eine Sackgasse geriet, brachte ein völlig anderer Denkansatz neues Licht in die KI. Der Pionier dieses neuen Weges war der Turing-Preisträger Judea Pearl. Er leitete eine „Wahrscheinlichkeitsrevolution“ ein, deren Kernidee war: Anstatt die KI zu zwingen, die Welt mit einer Schwarz-Weiß-Logik zu verstehen, sollten wir sie lehren, wie man „Unsicherheit“ akzeptiert und verarbeitet. Pearls revolutionäre Waffe war das „Bayessche Netzwerk“, das er Ende der 1980er Jahre vorschlug.

Dies ist ein cleveres grafisches Modell, das die Wahrscheinlichkeitsabhängigkeiten zwischen verschiedenen Variablen in einer intuitiven grafischen Struktur darstellen kann. Noch wichtiger ist, dass es eine strenge mathematische Methode bietet, die es der KI ermöglicht, ihre „Überzeugungen“ über die Wahrscheinlichkeit des Eintretens von Ereignissen dynamisch basierend auf neuen Beweisen zu aktualisieren. Dies zeigte enorme Wirksamkeit in Bereichen wie der medizinischen Diagnose. Traditionelle Expertensysteme versuchten, Diagnosen mit starren „Wenn… Dann…“-Regeln zu stellen, wie „Wenn der Patient Fieber hat, dann hat er möglicherweise die Grippe“.

Aber die Realität ist viel komplexer: Fieber kann auch ein Symptom anderer Erkrankungen sein, und die Stärke der Assoziation zwischen jedem Symptom und der Krankheit variiert. Solche auf absoluten Regeln basierenden Systeme werden oft sehr anfällig, wenn sie mit unvollständigen oder widersprüchlichen Informationen konfrontiert werden. Im Gegensatz dazu ist der Ansatz auf Basis von Bayesschen Netzwerken völlig anders. Es kann ein Netzwerk von Wahrscheinlichkeitsbeziehungen zwischen verschiedenen Krankheiten und Symptomen aufbauen. Wenn der Arzt den Beweis „der Patient hat Fieber“ eingibt, wird das System keinen absoluten Schluss ziehen, sondern die Wahrscheinlichkeiten aller relevanten Krankheiten (wie Grippe, Lungenentzündung usw.) automatisch gemäß dem Bayesschen Theorem aktualisieren.

Wenn dann der neue Beweis „der Patient hat Husten“ eingegeben wird, wird das System erneut Berechnungen durchführen und die Wahrscheinlichkeitsverteilung weiter anpassen, um eine realistischere, wahrscheinlichkeitbasierte Diagnoseempfehlung abzugeben. Dieser Übergang von der Verfolgung von „Sicherheit“ zur Akzeptanz von „Unsicherheit“ ist ein bedeutender Fortschritt im Denken. Er gab der KI zum ersten Mal die Fähigkeit, in einer realen Welt, die unvollständig und voller Unschärfen ist, vernünftige Schlussfolgerungen und Entscheidungen zu treffen. Pearls Arbeit bot nicht nur starke neue Werkzeuge, um der KI zu helfen, aus der realen Misere herauszukommen, sondern wurde auch in vielen Bereichen wie Medizin, Spracherkennung und Fehlersuche weit verbreitet. Noch wichtiger ist, dass sie der Entwicklung der Künstlichen Intelligenz einen neuen, vielversprechenden Weg zu stärkerer Intelligenz eröffnete.

In der Winterzeit durchhalten: Die Wiederbelebung der neuronalen Netzwerke und die „drei Giganten“

Als die optimistische Welle des Symbolismus abebbte und die KI-Forschung in einen langen und kalten „Winter“ eintrat, wandten sich die meisten Forscher und Mittel praktischeren Bereichen wie Expertensystemen zu. Doch am Rande der akademischen Welt gab es eine kleine Gruppe von Menschen, die fest daran glaubten, dass der Weg, der von Marvin Minsky kritisiert und fast aufgegeben wurde – der Konnektionismus und die neuronalen Netzwerke – der richtige Weg zur echten Intelligenz sei. Sie waren die Bewahrer in der Winterzeit, die Minderheit unter den Minderheiten.

Gerade dieser fast sture Glaube entzündete schließlich das Feuer der zweiten Revolution der Künstlichen Intelligenz. Die Anführer dieser Gruppe waren die später als „drei Giganten des Deep Learning“ bezeichneten Geoffrey Hinton, Yann LeCun und Yoshua Bengio.

Was ist „Deep Learning“?

Um die Beiträge dieser drei Wissenschaftler zu verstehen, müssen wir zunächst eine grundlegende Frage beantworten: Was ist „Deep Learning“? Was unterscheidet es grundlegend von den frühen neuronalen Netzwerken? Die frühen neuronalen Netzwerke, wie das Perzeptron, hatten eine sehr einfache Struktur und bestanden normalerweise aus ein oder zwei Schichten. Das ist wie ein Kind, das gerade das Malen lernt und nur sehr grundlegende Linien und Farbfelder erkennen kann. Wenn du möchtest, dass es eine Katze erkennt, musst du ihm zuerst manuell sagen, welche Merkmale eine Katze hat – „hat spitze Ohren“, „hat Schnurrhaare“, „hat ein rundes Gesicht“.

Dieser Prozess wird als „Feature Engineering“ bezeichnet, ist zeitaufwendig und mühsam und erzielt oft unzureichende Ergebnisse, da die reale Welt viel komplexer ist. Deep Learning, wie der Name schon sagt, hat seinen Kern in der „Tiefe“ – es verwendet neuronale Netzwerke mit vielen Schichten (von wenigen bis zu mehreren Hundert). Diese mehrschichtige Struktur verleiht ihm eine mächtige Fähigkeit: das automatische Lernen von Merkmalen. Wir können es mit einer lebendigeren Metapher verstehen: Es ist nicht mehr das Lehren eines Kindes, wie man malt, sondern das Bereitstellen eines vollständigen visuellen Systems.

Wenn es ein Bild einer Katze sieht, könnte die erste Schicht dieses „tiefen“ Netzwerks automatisch lernen, die grundlegendsten Kanten und Ecken zu erkennen; die zweite Schicht würde basierend auf den Ergebnissen der ersten Schicht lernen, komplexere Formen wie Augen und Ohren zu kombinieren; und in den tieferen Schichten würde es lernen, das Konzept „Katze“ oder sogar das gesamte „Gesicht einer Katze“ zu erkennen. Der gesamte Prozess ist end-to-end, von den ursprünglichen Pixeln bis zur endgültigen Schlussfolgerung „Katze“ lernt die Maschine autonom, ohne dass der Mensch mühsam definieren muss, was „spitze Ohren“ oder „Schnurrhaare“ sind.

Diese Lernweise, die von konkret zu abstrakt und schichtweise voranschreitet, ist der grundlegendste Unterschied zwischen Deep Learning und den frühen neuronalen Netzwerken und auch die Quelle seiner Kraft.

Die „drei Giganten“: Die Minderheit, die das Feuer in der Winterzeit entzündete

Gerade dieser gemeinsame Glaube an die „Tiefe“ verband Hinton, LeCun und Bengio eng miteinander. In den Jahrzehnten, in denen neuronale Netzwerke vernachlässigt wurden, hielten sie dem Druck der akademischen Welt stand und kämpften in verschiedenen Richtungen, während sie sich gegenseitig unterstützten und schließlich das zentrale Problem lösten, das Deep Learning von der Theorie in die Realität überführte.

Geoffrey Hinton: Der Begründer, der tiefe Netzwerke „trainierbar“ machte. Hinton wird als „Vater des Deep Learning“ bezeichnet, sein größter Beitrag war die Lösung des grundlegenden Problems „Wie trainiert man ein tiefes Netzwerk effektiv?“

1986 propagierte er gemeinsam mit seinen Mitarbeitern den Backpropagation-Algorithmus. Dieser Algorithmus ist wie ein strenger Lehrer, der, wenn das Netzwerk eine falsche Entscheidung trifft, das Fehlersignal von der letzten Schicht schichtweise „rückwärts“ überträgt und jeder Schicht von Neuronen sagt, wie sie ihre Parameter anpassen sollten, um es beim nächsten Mal besser zu machen. Dieser Durchbruch machte das Training von mehrschichtigen neuronalen Netzwerken möglich und legte den Grundstein für das gesamte Deep Learning-Feld.

Yann LeCun: Der Pionier, der KI „sehen“ ließ. LeCun konzentrierte sich darauf, wie Maschinen die Welt „sehen“ können. Er erkannte, dass die Verarbeitung von Bildern nicht wie die Verarbeitung gewöhnlicher Daten behandelt werden kann. Inspiriert von der biologischen visuellen Kortex entwickelte er Ende der 1980er Jahre das Convolutional Neural Network (CNN).

CNN ahmt die Art und Weise nach, wie das Auge lokale Informationen erfasst, durch „Gewichtsverteilung“ wird die Anzahl der Modellparameter erheblich reduziert, was es effizient und präzise macht, wenn es um die Verarbeitung von Bildern geht. Das von ihm 1998 entworfene LeNet-5-Netzwerk wurde erfolgreich im Handerkennungssystem von Banken eingesetzt und wurde zum ersten kommerziellen Beispiel für CNN und ebnete den Weg für alle späteren Durchbrüche in der Computer Vision.

Yoshua Bengio: Der Theoretiker, der KI das „Verstehen“ von „Sprache“ beibrachte. Während LeCun der KI beibrachte, wie man „sieht“, dachte Bengio darüber nach, wie man KI „lesen“ und „verstehen“ kann.

Er widmete sich der Lösung des Problems der „Dimensionskatastrophe“ in der natürlichen Sprachverarbeitung (NLP). Sein vorgeschlagenes neuronales Wahrscheinlichkeits-Sprachmodell führte bahnbrechend das Konzept der Wortvektoren (Word Embeddings) ein. Diese Technik ordnet jedes Wort einem hochdimensionalen kontinuierlichen Vektorraum zu, sodass semantisch ähnliche Wörter auch räumlich nahe beieinander liegen. Zum Beispiel sind die Vektoren von „König“ und „Königin“ sehr nah beieinander. Dies ermöglichte es Maschinen zum ersten Mal, die semantischen Beziehungen zwischen Wörtern zu erfassen und legte das solide Fundament für die Entwicklung aller Sequenzmodelle wie maschinelle Übersetzung und Sentimentanalyse.

Diese drei Wissenschaftler lösten jeweils das Problem „Wie lernen?“ (Backpropagation), „Wie sehen?“ (CNN) und „Wie verstehen?“ (Wortvektoren). Ihre Arbeiten ergänzen sich gegenseitig und bilden gemeinsam die Kerntechnologielandschaft des modernen Deep Learning.

2012 ImageNet: Der „Big Bang“, der die Revolution auslöste

Obwohl die „drei Giganten“ bereits das theoretische Pulver bereit hatten, benötigte es einen entscheidenden Moment, um diese Revolution zu entzünden. Dieser Moment kam 2012. Der ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war die „Olympiade“ im Bereich der Computer Vision, bei der die teilnehmenden Algorithmen über eine Million Bilder erkennen und klassifizieren mussten, die 1000 Kategorien abdeckten. Vor 2012 wurde der Wettbewerb immer von Teams gewonnen, die traditionelle maschinelle Lernmethoden verwendeten, und die Leistungssteigerung war stets mühsam.

Doch in diesem Jahr änderte sich alles. Hinton und seine beiden Studenten – Alex Krizhevsky und Ilya Sutskever – traten mit einem tiefen Convolutional Neural Network namens AlexNet an. AlexNet ist ein Netzwerk mit 8 Schichten, das nicht nur die CNN-Architektur von LeCun verwendet, sondern auch kreativ neue Techniken wie die ReLU-Aktivierungsfunktion und Dropout einsetzt, um die Leistung zu steigern und Überanpassung zu verhindern, und es nutzt die enorme Rechenleistung von zwei GPUs für paralleles Training.

Das Ergebnis war umwälzend. AlexNet gewann mit einer Top-5-Fehlerrate von 15,3 %, während der zweite Platz 26,1 % erreichte. Der enorme Unterschied von über 10 Prozentpunkten sorgte für einen heftigen Schock in der gesamten KI-Community. Es war kein kleiner Fortschritt mehr, sondern ein dimensionaler Überroll. Dieser Sieg bewies unwiderlegbar, dass bei ausreichenden Daten und Rechenleistung die Leistung des Deep Learning alle traditionellen Methoden übertrifft. Der Wettbewerb von 2012 wird daher als Wendepunkt in der Geschichte der KI angesehen und als der „Zündpunkt“ der Deep Learning-Revolution.

Wie Hinton sagte, „wandte sich danach fast die gesamte Forschung im Bereich der Computer Vision neuronalen Netzwerken zu“. Dieser Sieg war wie ein Startschuss, der das endgültige Ende des KI-Winters und den Beginn einer neuen Ära, die von Deep Learning dominiert wird, verkündete. Die Minderheit, die jahrzehntelang im Dunkeln durchgehalten hatte, erlebte endlich ihr Licht.

Vom Labor zur ganzen Welt

Die Schaffung, Verbreitung und Reflexion der KI Wenn die drei Giganten des Deep Learning der Künstlichen Intelligenz einen starken Motor gegeben haben, dann ist die Geschichte nach den 2010er Jahren die darüber, wie man das Steuer in diesen Motor einführt, Straßen baut und schließlich darüber nachdenkt, wohin es die Menschheit führen wird.

Dieser Prozess wurde ebenfalls von mehreren Schlüsselfiguren vorangetrieben, die jeweils drei zentrale Fragen beantworteten: Wie lernt KI, „zu schaffen“? Wie kommt KI aus dem Elfenbeinturm? Und wenn KI enorme Macht erlangt hat, wie können wir sie dann steuern?

Die qualitative Veränderung der „generativen KI“: Ian Goodfellow und die Inspiration aus einer Bar-Debatte Im Jahr 2014, als Ian Goodfellow noch in Montreal promovierte, versammelten sich er und seine Freunde in einer Bar.

Eine akademische Debatte darüber, wie man Computer dazu bringt, realistische Fotos zu generieren, entzündete seine Inspiration. Noch in derselben Nacht entwarf er einen genialen Rahmen – Generative Adversarial Networks (GAN). Das Wesen dieser Idee liegt in der „Gegenseitigkeit“. Das GAN-System besteht aus zwei gegeneinander spielenden neuronalen Netzwerken: einem „Generator“ und einem „Diskriminator“.

Die Aufgabe des Generators ist es, wie ein geschickter „Fälscher“ ständig die Merkmale echter Daten zu lernen und dann „Fälschungen“ (wie ein gefälschtes Porträt) zu schaffen, die täuschend echt sind. Der Diskriminator hingegen spielt die Rolle des „Prüfers“, dessen einziges Ziel es ist, präzise zu unterscheiden, welche Daten echt sind und welche vom Generator gefälscht wurden. Der Trainingsprozess ist wie ein nie endendes Nullsummenspiel: Der Generator versucht, den Diskriminator zu täuschen, während der Diskriminator verzweifelt versucht, den Betrug zu entlarven.

In diesem sich zuspitzenden Wettkampf entwickeln sich beide weiter. Schließlich, wenn der Diskriminator nicht mehr in der Lage ist, zwischen echt und falsch zu unterscheiden, bedeutet das, dass der Generator die Fähigkeit erlangt hat, hochrealistische Daten zu erzeugen. Diese Idee war so neu und mächtig, dass Yann LeCun, einer der drei Giganten des Deep Learning, sie als „die interessanteste Idee im Bereich des maschinellen Lernens in den letzten 20 Jahren“ lobte. Die Geburt von GAN markierte eine qualitative Veränderung in der Geschichte der KI-Entwicklung.

Vorher war KI eher ein fleißiger „Erkenner“, der gut im Klassifizieren, Erkennen und Vorhersagen war. GAN verlieh der KI jedoch die Identität eines „Schöpfers“ und gab ihr zum ersten Mal die Fähigkeit, neue, komplexe Inhalte aus dem Nichts zu generieren, und öffnete direkt die Tür zur heutigen Ära der AIGC (generative künstliche Intelligenz).

Der Schlüssel zur Verbreitung der Technologie: Andrew Ng und die Evangelisation der „neuen Elektrizität“

Eine revolutionäre Technologie hat letztlich nur dann Wert, wenn sie aus dem Labor herauskommt. Andrew Ng spielte eine entscheidende Rolle als „Evangelist“, um KI von einem Werkzeug der wenigen Eliten in eine Fähigkeit zu verwandeln, die Millionen von Menschen weltweit lernen und anwenden können. Als Professor an der Stanford University und Mitbegründer von Coursera wurde Ng 2011 mit seinem Online-Kurs „Maschinenlernen“ zum Auslöser der MOOC-Welle (Massive Open Online Courses) und zog Millionen von Menschen weltweit an, die sich anmeldeten, um zu lernen.

Anschließend senkten die von ihm in Zusammenarbeit mit DeepLearning.AI angebotenen Kurse „Deep Learning Specialization“ und „AI for Everyone“ weiter die Zugangsschwelle zu KI-Wissen. Bis 2023 hatten über 8 Millionen Menschen an seinen Kursen teilgenommen. Ng verbreitete nicht nur Wissen, sondern stellte auch ein weitreichendes Konzept auf: „KI ist die neue Elektrizität“.

Er glaubt, dass, ähnlich wie die Elektrizität vor einem Jahrhundert die Landwirtschaft, den Verkehr, die Fertigung und fast alle Branchen revolutionierte, KI heute als grundlegende Technologie mit beispielloser Kraft alle Branchen umgestaltet. Diese Metapher weist präzise auf die Zukunft der KI hin – sie ist kein isoliertes Produkt, sondern eine Infrastruktur, die in alle Aspekte der Gesellschaft eindringen wird. Diese Weitsicht in Bezug auf die Ingenieuranwendung und industrielle Anwendung von KI hat den Übergang von der akademischen Forschung zur industriellen Praxis erheblich vorangetrieben.

Die Alarmglocke der KI-Ethischen

Timnit Gebru und die unvermeidliche Reflexion Wenn die Macht der KI exponentiell wächst und tief in gesellschaftliche Entscheidungen eingreift, steht eine ernsthafte Frage vor uns allen: Wie können wir sicherstellen, dass diese Technologie fair, gerecht und verantwortungsvoll ist? Die KI-Ethische Wissenschaftlerin Timnit Gebru wurde zur repräsentativsten „Whistleblowerin“ in diesem Bereich. 2018 veröffentlichte Gebru zusammen mit ihren Mitautoren die bahnbrechende Studie „Gender Shades“.

Sie fanden heraus, dass die damals gängigen kommerziellen Gesichtserkennungssysteme schwerwiegende Vorurteile aufwiesen: Bei der Erkennung von hellhäutigen Männern lag die Genauigkeit nahe der Perfektion; bei der Erkennung von dunkelhäutigen Frauen stieg die Fehlerquote jedoch auf fast 35 %. Diese Studie war wie ein Weckruf und zeigte eindringlich, wie Vorurteile in den Trainingsdaten von KI-Systemen verstärkt werden können, was zu systematischen Ungerechtigkeiten gegenüber marginalisierten Gruppen führt. Diese Studie führte direkt dazu, dass Unternehmen wie IBM und Microsoft ihre Algorithmen verbesserten, um Vorurteile zu reduzieren.

Jahre später geriet Gebru, die zu diesem Zeitpunkt Co-Leiterin des Ethik-Teams für KI bei Google war, erneut in die Schlagzeilen wegen eines Papiers mit dem Titel „Die Gefahren von zufälligen Papageien: Können Sprachmodelle zu groß werden?“. Dieses Papier wies scharf auf die Vorurteile, Umweltkosten und Risiken hin, die mit großen Sprachmodellen verbunden sind, und dass sie nur menschliche Sprachmuster nachahmen können, ohne deren Bedeutung wirklich zu verstehen – ähnlich wie „zufällige Papageien“. Dieses Papier führte zu Konflikten mit der Google-Führung und letztendlich zu ihrer Entlassung.

Gebrus Erfahrungen markieren den Eintritt der KI-Entwicklung in eine völlig neue Phase. Wenn KI nicht mehr nur ein Spielzeug im Labor ist, sondern ein mächtiges Werkzeug, das Einstellungen, Kreditgenehmigungen und sogar gerichtliche Urteile beeinflussen kann, wird die Untersuchung ihrer Vorurteile, Risiken und sozialen Auswirkungen von entscheidender Bedeutung. Ihre Arbeit erinnert die gesamte Branche daran, dass technologische Fortschritte, die von menschlicher Fürsorge und sozialer Verantwortung getrennt sind, möglicherweise nicht Wohlergehen, sondern neue Fesseln bringen.

Von Goodfellows Schöpfung über Ngs Verbreitung bis hin zu Gebrus Reflexion skizzieren die Geschichten dieser drei Persönlichkeiten das vollständige Bild der KI im neuen Zeitalter: Eine Technologie mit unbegrenzter Kreativität, die sich mit beispielloser Geschwindigkeit in die Welt integriert und uns gleichzeitig zwingt, ernsthaft darüber nachzudenken, wie wir mit ihr koexistieren können.

Beginnt mit einer Frage

„Kann eine Maschine denken?“ Jede große Veränderung beginnt oft nicht mit einer bahnbrechenden Erfindung, sondern mit einer bahnbrechenden Frage. Die Schöpfungsgeschichte der Künstlichen Intelligenz (KI) ist genau so. Ihr Ausgangspunkt ist nicht eine bestimmte Maschine oder eine magische Zeile Code, sondern eine philosophische Frage, die der britische Mathematiker Alan Turing in der Mitte des 20. Jahrhunderts der Welt stellte: „Kann eine Maschine denken?“ In einer Zeit, als Computer noch so groß wie Räume waren, klang diese Frage wie Science-Fiction. Aber das Außergewöhnliche an Turing war, dass er diese Frage nicht in der philosophischen Spekulation verharren ließ. Er entwarf ein cleveres Gedankenexperiment – das „Imitationsspiel“, das später als „Turing-Test“ bekannt wurde. Dieser Test umging geschickt die Definition des vagen Begriffs „Denken“ und stellte die Frage: Wenn eine Maschine mit einem Menschen kommunizieren kann und ihr Verhalten so ist, dass man nicht unterscheiden kann, ob es sich um eine Maschine oder einen Menschen handelt, können wir dann sagen, dass diese Maschine Intelligenz besitzt?

Die Formulierung dieser Frage war wie ein Blitz, der die lange Nacht durchbrach. Zum ersten Mal zog sie den alten Traum der „Schaffung von Intelligenz“ aus dem Bereich der Mythen und Philosophie in einen Bereich, der überprüfbar und herausforderbar ist. Turing gab uns keine Antworten, aber er gab allen Nachfolgern ein klares Ziel und einen Plan, den sie beginnen konnten. Er sagte der Welt: Intelligenz könnte präzise beschrieben und simuliert werden. Dieser Funke des Denkens wurde in einem äußerst fruchtbaren Boden gesät.

Die Welt nach dem Zweiten Weltkrieg, insbesondere in den 1950er Jahren, war von einem beispiellosen wissenschaftlichen Optimismus und einem „Can-Do“-Geist durchdrungen. Die Menschheit hatte gerade die Atomkraft gemeistert, den elektronischen Computer erfunden und den Code des Lebens entschlüsselt. Der Sieg der Wissenschaft ließ die Menschen glauben, dass es mit menschlicher Intelligenz und den neu erfundenen mächtigen Werkzeugen keine große Herausforderung gab, die nicht überwunden werden konnte. Wenn Maschinen komplexe Ballistik berechnen und die Codes des Feindes knacken können, warum sollten sie dann nicht noch einen Schritt weiter gehen und die Fähigkeit des Lernens, der Schlussfolgerung und der Kreativität des Menschen nachahmen?

In diesem zeitlichen Kontext begann eine Gruppe der damals besten und visionärsten Köpfe, von demselben Traum angezogen zu werden. Doch ihre geistigen Funken waren in verschiedenen Bereichen wie Mathematik, Psychologie, Informationstheorie und der aufkommenden Informatik verstreut. Sie benötigten einen Anstoß, einen Moment, der diese verstreuten Ströme zu einem großen Fluss vereinen würde. Dieser Moment kam im Sommer 1956. Ein junger Mathematiker namens John McCarthy reichte zusammen mit Marvin Minsky, Nathaniel Rochester und Claude Shannon, dem Vater der Informationstheorie, einen kühnen Vorschlag bei der Rockefeller-Stiftung ein.

Sie planten, an der Dartmouth College in New Hampshire ein mehrere Wochen dauerndes Sommerseminar abzuhalten. Der Vorschlag begann mit dem Optimismus und dem Ehrgeiz dieser Zeit: „Wir schlagen vor, im Sommer 1956… eine Forschung über Künstliche Intelligenz durchzuführen. Die Forschung wird auf der Hypothese basieren, dass jeder Aspekt des Lernens oder jede andere Eigenschaft der Intelligenz prinzipiell präzise beschrieben werden kann, sodass Maschinen sie simulieren können.“ Um diesem neuen Bereich eine klare Identität zu verleihen, schuf McCarthy mit viel Mühe ein neues Wort: „Künstliche Intelligenz“ (Artificial Intelligence).

Diese Wahl war nicht zufällig. Zu dieser Zeit war ein Bereich namens „Kybernetik“ bereits recht einflussreich, der sich hauptsächlich mit Feedback- und Kontrollsystemen in Biologie und Maschinen beschäftigte. Doch McCarthy wollte einen völlig neuen, fokussierteren Weg eröffnen, der sich auf die Umsetzung von logischen, schlussfolgernden und anderen höheren kognitiven Funktionen durch Computer konzentrierte, anstatt sich von den Rahmenbedingungen der Kybernetik einschränken zu lassen. Die Geburt dieses Namens war wie eine laute „Unabhängigkeitserklärung“, die allen Entdeckern mit demselben Traum eine gemeinsame Flagge bot.

Im Sommer 1956 fand dieses Treffen, das später als „Dartmouth-Konferenz“ bekannt wurde, planmäßig statt. Es war keine strenge akademische Konferenz, sondern eher ein langes Brainstorming, das sechs bis acht Wochen dauerte. Allen Newell, Herbert Simon, Ray Solomonoff und andere Giganten des späteren KI-Bereichs waren anwesend. Sie hatten unterschiedliche Hintergründe und brachten verschiedene Perspektiven aus Logik, Psychologie, Mathematik und Ingenieurwissenschaften mit.

Einer der Höhepunkte der Konferenz war die Präsentation des „Logiktheoretikers“ (Logic Theorist) durch Newell und Simon. Dieses Programm bewies erfolgreich mehrere Theoreme aus dem berühmten mathematischen Werk „Principia Mathematica“. Dies war nicht nur eine technische Demonstration, sondern ein Signal, das der Welt bewies, dass Maschinen tatsächlich Aufgaben ausführen können, die früher als menschlich und voller Intelligenz angesehen wurden. Es gab der Frage „Kann eine Maschine denken?“ zum ersten Mal eine positive, sichtbare vorläufige Antwort.

Das ist die „Schöpfungsgeschichte“ der KI. Sie entstand nicht aus einem einmaligen Erfolg in einem Labor, sondern in einem großen Austausch von Gedanken. Die Dartmouth-Konferenz war aus drei Gründen so wichtig: Erstens gab sie diesem Bereich einen Namen. Von nun an hatte „Künstliche Intelligenz“ eine offizielle Identität, die zukünftige Mittel, Talente und Aufmerksamkeit anziehen würde. Zweitens legte sie die Kernagenda fest. Die Konferenz erörterte Themen wie symbolische Verarbeitung, neuronale Netzwerke und natürliche Sprachverarbeitung, die in den kommenden Jahrzehnten zu den Hauptströmen der KI-Forschung werden sollten. Drittens schuf sie die ursprüngliche Gemeinschaft. Diese Konferenz verband eine Gruppe einsamer Denker zu einer akademischen Gemeinschaft, die nach ihrer Rückkehr zu ihren Institutionen die frühesten KI-Labore (wie am MIT, Carnegie Mellon University und Stanford University) gründete und die Samen für zukünftige große Bäume pflanzte. Die Dartmouth-Konferenz wurde von späteren Generationen als die „Verfassungskonferenz der KI“ bezeichnet. Sie verwandelte die große Frage, die Turing aufwarf, offiziell in eine großangelegte wissenschaftliche Reise, die Generationen von Spitzenkräften anziehen würde.

Obwohl die Teilnehmer zu optimistisch in ihren Vorhersagen über die Zukunft waren und die Schwierigkeiten und „Winter“ nicht voraussehen konnten, erlosch die Flamme, die sie entzündet hatten, nie. Von einer Frage zu einem Fachgebiet. Die Geschichte der KI begann damit.

Geniale Fantasien und die Wand der Realität

Nach der offiziellen Benennung der Künstlichen Intelligenz auf der Dartmouth-Konferenz begann eine „Goldene Ära“ (ca. 1956-1974), die von unendlichem Optimismus und kühnen Vorhersagen geprägt war.

Diese ersten Pioniere der KI, vertreten durch Herbert Simon und Marvin Minsky, waren überzeugt, dass sie den Schlüssel zur Maschinenintelligenz gefunden hatten. Ihr Vertrauen war nicht unbegründet, sondern wurde durch eine Reihe erstaunlicher Erfolge im „Miniaturwelt“-Experiment angeheizt. Der repräsentativste dieser frühen Erfolge war das Programm „Logiktheoretiker“ (Logic Theorist). Dieses Programm, das 1956 von Allen Newell, Herbert Simon und J.C. Shaw entwickelt wurde, gilt weithin als das erste KI-Programm der Welt.

Seine Aufgabe war es, die mathematischen Theoreme zu beweisen, die von den Mathematikern Whitehead und Russell in ihrem monumentalen Werk „Principia Mathematica“ aufgestellt wurden. Das Ergebnis war verblüffend: Der „Logiktheoretiker“ bewies nicht nur 38 der ersten 52 Theoreme, sondern fand sogar für eines der Theoreme eine einfachere und elegantere Beweisführung als im Original. Dieser Erfolg ermutigte die Forscher enorm, da er klar zeigte, dass Maschinen nicht nur rechnen, sondern auch komplexe logische Schlussfolgerungen durchführen können, die früher als menschlich angesehen wurden.

Daraufhin brachte das Team 1959 den „General Problem Solver“ (GPS) heraus. Die Revolution des GPS bestand darin, dass es versuchte, die allgemeine Denkweise des Menschen beim Lösen von Problemen zu simulieren. Es trennte spezifisches Wissen (wie Regeln) von allgemeinen Lösungsstrategien und verwendete eine Strategie namens „Mittel-Zweck-Analyse“, um ständig Unterziele zu setzen, um der endgültigen Antwort näher zu kommen. GPS löste erfolgreich eine Reihe klassischer logischer Rätsel wie den Turm von Hanoi und geometrische Beweise und ließ die Menschen die Hoffnung sehen, eine „denkende Maschine“ zu schaffen, die in der Lage ist, Probleme über verschiedene Bereiche hinweg zu lösen.

Wenn GPS die „Denkfähigkeit“ der Maschinen demonstrierte, dann verlieh das SHRDLU-System am MIT der Maschine zum ersten Mal die „Verstehensfähigkeit“, um mit der physischen Welt zu interagieren. In dieser virtuellen „Blockwelt“, die von Terry Winograd 1970 geschaffen wurde, konnten Benutzer dem System alltägliche Anweisungen in Englisch geben, wie „Nimm den großen roten Block“. SHRDLU konnte die Anweisungen analysieren, den Kontext verstehen (zum Beispiel, wenn du fragst „Welches Pyramid?“ würde es aktiv um Klärung bitten), planen und eine Reihe von Aktionen ausführen (wie greifen, bewegen, stapeln) und sogar Fragen zum Status dieser Welt beantworten. Der Erfolg von SHRDLU verband perfekt Sprachverständnis, Schlussfolgerungsplanung und Aktionsausführung und ließ die Menschen die ersten Ansätze von intelligenten Robotern sehen, die frei mit Menschen kommunizieren und zusammenarbeiten können. Diese glänzenden Siege in der geschlossenen, klaren „Spielzeugwelt“ erzeugten eine enorme optimistische Stimmung.

Simon wagte 1965 die kühne Vorhersage: „Innerhalb von zwanzig Jahren werden Maschinen in der Lage sein, alles zu tun, was Menschen tun können.“ Minsky stimmte zu: „In einer Generation… wird das Problem der Schaffung von ‚Künstlicher Intelligenz‘ im Wesentlichen gelöst sein.“ Doch als diese genialen Fantasien versuchten, von idealisierten Laboren in die komplexe Realität überzugehen, stießen sie schnell auf eine harte und kalte Wand. Diese Wand bestand aus zwei grundlegenden Problemen. Zunächst die „kombinatorische Explosion“.

In der einfachen Blockwelt sind die Möglichkeiten begrenzt. Doch wenn das Problem nur geringfügig erweitert wird, wie von Schach zu Go oder von der Planung der Bewegung einiger Blöcke zur Planung des Stadtverkehrs, dann wird die Anzahl der zu berechnenden Möglichkeiten exponentiell ansteigen und sofort die Rechenleistung selbst der damals oder heute stärksten Computer erschöpfen. Die Eleganz der frühen KI in „Spielzeugproblemen“ wurde in der Komplexität der Realität zunichte gemacht. Das zweite Problem war noch grundlegender – der „Mangel an gesundem Menschenverstand und Kontext“.

Die menschliche Welt ist voller ungeschriebener Alltagsweisheiten und vager Kontexte. Zum Beispiel wissen wir, dass „Wasser nass ist“, „Seile ziehen, aber nicht schieben können“ und „wenn jemand im Regen steht, könnte er sich erkälten“. Dieses Wissen ist so grundlegend, dass wir oft nicht einmal bemerken, dass es existiert. Aber für ein KI-System, das nur Logik und Regeln versteht, ist diese Welt völlig fremd. Es kann diese impliziten Hintergrundinformationen nicht verstehen, was dazu führt, dass seine Schlussfolgerungsfähigkeit in realen Szenarien extrem schwach und absurd erscheint.

SHRDLU kann „einen Block aufheben“ verstehen, aber es kann nicht verstehen, was es bedeutet, „ein Versprechen aufzuheben“. Diese „Symbolische Verankerung“ – das Symbol kann nicht mit der Bedeutung der realen Welt in Verbindung gebracht werden – wurde zur unüberwindbaren Kluft für die symbolistische KI. Die hohen Erwartungen und die brutale Realität führten zu einer enormen Kluft, und die Enttäuschung begann sich auszubreiten, was schließlich durch zwei markante Ereignisse den ersten „Winter“ der Künstlichen Intelligenz auslöste. Das erste Ereignis war der 1973 veröffentlichte „Lighthill Report“ der britischen Regierung.

Dieser Bericht, der von dem angewandten Mathematiker Sir James Lighthill verfasst wurde, übte eine gnadenlose Kritik an der damaligen KI-Forschung. Der Bericht stellte scharf fest, dass die KI in den Kernbereichen wie Automatisierung und Sprachverarbeitung „bis heute in keinem Bereich signifikante Auswirkungen erzielt hat, die ursprünglich versprochen wurden“. Er wies direkt auf die beiden Schwächen der KI-Forschung hin: das Versagen, reale Probleme zu lösen, und die völlige Unfähigkeit, mit „Gesundem Menschenverstand“ umzugehen. Dieser einflussreiche Bericht führte direkt dazu, dass die britische Regierung die Mittel für die KI-Forschung drastisch kürzte, und die KI-Forschung in Großbritannien geriet fast zum Stillstand.

Der zweite schwere Schlag kam aus den USA, und zwar von Marvin Minsky, einem der führenden Köpfe im Bereich der KI. 1969 veröffentlichten Minsky und Seymour Papert das Buch „Perceptrons“. In diesem Buch bewiesen sie durch strenge mathematische Argumentation die grundlegenden Einschränkungen einer anderen technischen Route, die parallel zum Symbolismus existierte – dem Konnektionismus (der Vorläufer der neuronalen Netzwerke). Sie bewiesen, dass einlagige neuronale Netzwerke (d.h. „Perzeptrons“) lineare Modelle sind, die nicht in der Lage sind, einige grundlegende Probleme zu lösen, wie das einfachste „XOR“-Problem.

Diese Schlussfolgerung war an sich korrekt, wurde jedoch von der Außenwelt als „Todesurteil“ für den gesamten neuronalen Netzwerkansatz interpretiert. Der enorme Einfluss dieses Buches führte dazu, dass die Mittel für die Forschung im Bereich des Konnektionismus nahezu vollständig eingestellt wurden, was dazu führte, dass dieser Weg, der möglicherweise den Symbolismus ergänzen könnte, in eine mehr als zehnjährige Stille eintrat. So kühlte die einstige Begeisterung schnell ab. Überhöhte Erwartungen, unüberwindbare theoretische Engpässe und die darauf folgende Mittelentziehung führten gemeinsam dazu, dass die Künstliche Intelligenz in ihren ersten langen Winter eintauchte.

Die Genies stießen auf die Wand der Realität, und das gesamte Feld fiel von einem lauten Höhepunkt in eine stille Tiefe, wartend auf die nächste Wiederbelebung im Verborgenen.

Verstecken und Wiederbelebung

Einen Ausweg in der Unsicherheit finden. Ende der 1980er Jahre erlebte die „Goldene Ära“ der Künstlichen Intelligenz einen eisigen Wind. Der einst vielversprechende Markt für Expertensysteme brach zusammen, die LISP-Maschinenindustrie erlebte einen Rückgang, und das Investitionsinteresse von Regierungen und Unternehmen kühlte stark ab. Die KI-Forschung trat erneut in eine Talsohle ein, was als der zweite „KI-Winter“ in die Geschichte eingehen sollte.

Doch im Gegensatz zur nahezu völligen Stille des ersten Winters stagnierte die Entwicklung der KI in dieser Zeit nicht vollständig, sondern glich einem gefrorenen Fluss, der an der Oberfläche still war, aber unter dem Eis zwei Strömungen leise strömten. Eine Strömung war die „offensichtliche Wissenschaft“, die versuchte, ihren Wert in bestimmten Bereichen zu beweisen. Die andere war die „versteckte Strömung“, die leise Kraft sammelte und auf den Frühling wartete. Der erste Weg war das Überleben der symbolistischen KI in der Krise. Obwohl Expertensysteme aufgrund der hohen Kosten für den Aufbau ihrer Wissensdatenbanken und ihrer Unfähigkeit, mit Unsicherheiten umzugehen, letztendlich zurückgingen, hinterließen sie ein wertvolles Erbe: Sie bewiesen, dass KI in der Lage ist, in bestimmten Szenarien praktische Probleme zu lösen und beleuchteten das erste Licht für die Kommerzialisierung der KI.

Wichtiger ist, dass im Prozess der Reflexion über das Scheitern der Expertensysteme ein Denker einen völlig neuen Weg für die Entwicklung der KI aufzeigte. Er ist Judea Pearl. Pearl erkannte, dass die reale Welt voller Unsicherheiten ist und dass Schwarz-Weiß-Logikregeln nicht ausreichen, um die Komplexität der Welt zu beschreiben. Er führte Wahrscheinlichkeits- und Kausalitätsanalysen in die KI ein und lehrte Maschinen, wie man mit „Wahrscheinlichkeiten“ denkt und wie man in unvollständigen Informationen vernünftige Entscheidungen trifft.

Dies war nicht nur eine wichtige Ergänzung zum Symbolismus, sondern stellte auch einen entscheidenden Schritt dar, um die KI von einer idealisierten logischen Welt in die reale Welt voller Unbekanntem und Veränderungen zu führen. Gleichzeitig war eine andere, revolutionärere Route, die durch neuronale Netzwerke repräsentiert wird, am Rande der akademischen Welt „versteckt“. Die Erforscher dieser Route sind die wahren „Tiefseetaucher“. In ihrem Arsenal gab es eine mächtige theoretische Waffe. 1986 propagierten Geoffrey Hinton und seine Kollegen den Backpropagation-Algorithmus erneut und bewiesen systematisch seine Wirksamkeit.

Dieser Algorithmus löste geschickt das Trainingsproblem mehrschichtiger neuronaler Netzwerke und ermöglichte es Maschinen, durch „Reflexion“ über Fehler ihre internen Parameter schichtweise anzupassen und so komplexere Muster zu lernen. Hinton erinnerte sich später, dass sie damals optimistisch glaubten, dieser Algorithmus „würde alles lösen“. Doch das Licht der Theorie konnte die Kälte der Realität nicht sofort vertreiben. In den 1990er Jahren stieß die Forschung zu neuronalen Netzwerken schnell auf drei hohe Wände: unzureichende Rechenleistung, Datenmangel und akademische Zweifel von Kollegen. Die damaligen Computer waren schwach und konnten die großflächige Ausbildung großer Netzwerke nicht unterstützen.

Gleichzeitig schnitt die statistische Lernmethode wie die Support Vector Machines (SVM) in vielen Aufgaben besser und effizienter ab als die damaligen neuronalen Netzwerke, was dazu führte, dass viele Forschungsressourcen und Talente in andere Bereiche abwanderten. Neuronale Netzwerke wurden erneut als unrealistische Drachenzähmer angesehen, und die Forschung geriet in finanzielle Schwierigkeiten und wurde vernachlässigt. In dieser schwierigen Umgebung wählten einige Forscher den Weg des Durchhaltens. Yann LeCun war einer der herausragendsten Vertreter.

1988 trat er den AT&T Bell Labs bei und widmete unter dem Druck der Mainstream-Akademie seine gesamte Energie der Entwicklung eines speziellen neuronalen Netzwerks – des Convolutional Neural Networks (CNN). Er war überzeugt, dass diese Struktur, die den biologischen visuellen Kortex nachahmt, der Schlüssel ist, um Maschinen die Welt „sehen“ zu lassen. LeCuns Ziel war sehr klar: Maschinen beizubringen, handschriftliche Bankchecks zu erkennen. Nach jahrelangen Iterationen führte sein Team 1998 das klassische LeNet-5-Modell ein.

Dieses Netzwerk wurde erfolgreich in kommerziellen Systemen eingesetzt und bearbeitete zu Beginn des 21. Jahrhunderts täglich etwa 20 Millionen Schecks, was etwa 10 % des gesamten Scheckumlaufs in den USA ausmachte. Dies war ein Meilenstein. Es war nicht nur ein seltener kommerzieller Erfolg der neuronalen Netzwerktechnologie in der Winterzeit, sondern auch wie ein Samen, der in gefrorenem Boden vergraben wurde und durch Fakten die enorme Energie dieser „versteckten Strömung“ bewies. Es sagte der Welt: Neuronale Netzwerke sind keine Utopie, sie können reale Probleme lösen und haben unbegrenztes Potenzial.

So entwickelten sich die beiden Wege der KI von den 1990er Jahren bis zu Beginn des 21. Jahrhunderts parallel. Ein Weg ließ Wahrscheinlichkeiten und Kausalitäten als Werkzeuge zu, damit die KI in der Geschäftswelt mühsam „überleben“ konnte und lernte, reifer mit Unsicherheiten umzugehen; der andere Weg „versteckte“ sich in den akademischen Ecken und bereitete unter dem Durchhalten weniger Menschen leise die schärfsten Waffen für die bevorstehende Revolution vor. Diese beiden Kräfte, eine im Licht und eine im Dunkeln, legten gemeinsam den Grundstein für den bevorstehenden großen Ausbruch.

Zu diesem Zeitpunkt hatte sich auch ein „Ostwind“ aus dem Hardwarebereich leise erhoben – die parallelen Rechenhardware wie GPUs, deren starke Matrixberechnungsfähigkeiten perfekt mit den Rechenanforderungen neuronaler Netzwerke übereinstimmen. Als dieser Hardware-Ostwind schließlich auf die fruchtbare Erde von Rechenleistung, Daten und Algorithmen blies, stand eine technologische Revolution, die die Welt verändern würde, kurz bevor.

Von „die Welt verstehen“ zu „die Welt erschaffen“

Am 30. September 2012 kam es zu einem historischen Wendepunkt beim ImageNet Large Scale Visual Recognition Challenge (ILSVRC).

Ein Team, bestehend aus Professor Geoffrey Hinton und seinen beiden Studenten – Alex Krizhevsky und Ilya Sutskever – reichte ein tiefes neuronales Netzwerkmodell namens AlexNet ein. Seine Leistung schockierte die gesamte Computer Vision-Community: Die Fehlerrate bei der Bildklassifizierung betrug nur 15,3 %, was 10,8 Prozentpunkte unter dem zweiten Platz lag.

Dies war nicht nur ein Sieg in einem Wettbewerb, sondern ein Startschuss. AlexNet bewies unwiderlegbar, dass Maschinen mit tiefen Netzwerken, riesigen Datenmengen und der enormen Rechenleistung von GPUs tatsächlich lernen können, „die Welt zu verstehen“. Von nun an wurde die Revolution des Deep Learning vollständig entfesselt, und die Entwicklung der KI trat in eine völlig neue Ära ein. Wenn AlexNet der KI ein noch nie dagewesenes „Auge“ verlieh, dann gab ein junger Forscher nur zwei Jahre später der KI die Fähigkeit zur grenzenlosen „Vorstellungskraft“.

Im Jahr 2014, als er noch Doktorand war, hatte Ian Goodfellow in einer Bar eine Diskussion über akademische Themen mit Freunden, die seine Inspiration entzündete und ihm eine geniale Idee brachte – Generative Adversarial Networks (GAN). Das Prinzip von GAN ist wie ein ewiger Wettkampf zwischen „Speer“ und „Schild“. Es besteht aus zwei gegeneinander spielenden neuronalen Netzwerken: einem „Generator“ und einem „Diskriminator“.

Die Aufgabe des Generators besteht darin, täuschend echte Daten (wie Bilder) zu erzeugen und den Diskriminator zu täuschen; die Aufgabe des Diskriminators besteht darin, mit scharfen Augen zu versuchen, zu unterscheiden, welche Daten echt sind und welche vom Generator gefälscht wurden. In diesem fortwährenden Wettkampf und der Evolution wird der Generator, um zu gewinnen, immer besser darin, „Fälschungen“ zu erzeugen, bis er schließlich Inhalte schafft, die selbst für Menschen schwer zu unterscheiden sind. Von hochauflösenden Gesichtern über Kunstwerke bis hin zu medizinischen Bildern ließ GAN die KI zum ersten Mal wirklich von einem „Erkenner“ und „Analytiker“ zu einem „Schöpfer“ werden.

KI versteht nicht mehr nur die Welt, sie beginnt, eine ganz neue, digitale „Welt“ zu erschaffen. Während die KI im Bereich der visuellen Schöpfung große Fortschritte machte, braute sich eine noch tiefere strukturelle Veränderung zusammen. 2017 veröffentlichte ein Forschungsteam von Google ein bahnbrechendes Papier mit dem Titel „Attention Is All You Need“, das die bisher gängige Struktur der rekursiven neuronalen Netzwerke (RNN) zur Verarbeitung von Sequenzdaten (wie Sprache) aufgab und eine völlig neue Architektur – den Transformer – vorschlug.

Der Kern des Transformers ist ein Design namens „Self-Attention“, das nicht nur besser in der Lage ist, die langfristigen Abhängigkeiten in Texten zu erfassen, sondern auch effizientes paralleles Rechnen ermöglicht, was die Trainingsgeschwindigkeit und das Erweiterungspotenzial des Modells erheblich steigert. Die Geburt der Transformer-Architektur war wie der Bau eines soliden Fundaments für KI, das den Weg für die Explosion einer Reihe von großen Sprachmodellen (LLMs) ebnete.

Beginnend mit dem ersten GPT-Modell, das OpenAI 2018 veröffentlichte, wurde diese technische Route schnell iteriert. Die Anzahl der Modellparameter und die Datenmenge wuchsen exponentiell, und die Fähigkeiten der KI erlebten eine qualitative Veränderung, von einfacher Textgenerierung bis hin zu fließenden Gesprächen, dem Schreiben von Code und sogar der Demonstration erstaunlicher Fähigkeiten wie „Few-Shot Learning“ im GPT-3. Die Kreativität der KI erstreckte sich von Bildern auf das menschlichste Kerngebiet der Intelligenz – die Sprache.

Die Verbreitung der Macht und Reflexion

Von der Ingenieuranwendung zu ethischen Einschränkungen. Technologische Durchbrüche können die Welt verändern, aber sie benötigen den „letzten Kilometer“, um aus dem Labor in die Industrie zu gelangen.

In diesem Prozess spielten Personen wie Andrew Ng eine entscheidende Rolle als „Evangelisten“. Sie setzten sich dafür ein, die Ingenieuranwendung und die breite Bildung der KI voranzutreiben, indem sie komplexe Deep-Learning-Technologien in skalierbare Werkzeuge und Kurse umwandelten, die Tausenden von Ingenieuren und Lernenden ermöglichten, KI zu beherrschen und anzuwenden, was die Verbreitung der KI-Power in allen Bereichen der Gesellschaft erheblich beschleunigte. Doch wenn eine Macht stark genug wird, bringt sie nicht nur Chancen, sondern auch Risiken mit sich.

2019, als OpenAI sein neues Modell GPT-2 veröffentlichte, ging es mit einer noch nie dagewesenen Vorsicht vor. Aufgrund der Sorge, dass die starke Textgenerierungsfähigkeit für böswillige Zwecke wie die Erstellung von Fake News, Spam oder Cybermobbing missbraucht werden könnte, entschieden sie sich zunächst, nur eine kleine Version zu veröffentlichen und das vollständige Modell zurückzuhalten. Diese Entscheidung führte zu einer intensiven Debatte in der Tech-Community über „offene Forschung“ und „verantwortungsvolle Offenlegung“. Schließlich, nachdem sie festgestellt hatten, dass „keine starken Beweise für einen Missbrauch vorlagen“, veröffentlichte OpenAI im November desselben Jahres das vollständige Modell mit 1,5 Milliarden Parametern. Die Kontroversen um die Veröffentlichung von GPT-2 waren nur die Spitze des Eisbergs. Mit der Verbreitung der generativen KI-Fähigkeiten wurde die Deepfake-Technologie zu einem ernsthaften sozialen Problem. Durch den Einsatz von KI zur Gesichtserkennung oder zur Synthese von Sprache können leicht gefälschte Videos oder Audioaufnahmen von politischen Persönlichkeiten erstellt werden, um Fehlinformationen zu verbreiten, das öffentliche Vertrauen zu untergraben und sogar den Wahlprozess zu beeinflussen. Darüber hinaus entdeckten Forscher schnell, dass diese Modelle, die auf riesigen Internetdaten trainiert wurden, auch die Vorurteile der menschlichen Gesellschaft treu widerspiegeln.

Zum Beispiel zeigen Analysen, dass GPT-2 bei der Beschreibung von Berufen unbewusst Frauen mit stereotypen Berufen in Verbindung bringt. Angesichts dieser Herausforderungen begann eine neue, kritische Stimme, im Bereich der KI laut zu werden. KI-Ethische Forscher wie Timnit Gebru begannen lautstark zu fordern: Während wir stärkere Modelle anstreben, müssen wir die sozialen Auswirkungen der Technologie, algorithmische Vorurteile und potenzielle Risiken ernsthaft untersuchen. Die von ihnen geförderten Forschungsrichtungen, von der Erkennung und Minderung von Vorurteilen in Modellen bis hin zur Schaffung verantwortungsvoller KI-Governance-Rahmen, markieren den Eintritt der KI-Entwicklung in eine neue Phase, die von der Gesellschaft ernsthaft behandelt und eingeschränkt werden muss.

Beginnt mit einer Frage

Geniale Fantasien und die Wand der Realität

Es war die Aufgabe, die mathematischen Theoreme zu beweisen, die von den Mathematikern Whitehead und Russell in ihrem monumentalen Werk „Principia Mathematica“ aufgestellt wurden. Das Ergebnis war verblüffend: Der „Logiktheoretiker“ bewies nicht nur 38 der ersten 52 Theoreme, sondern fand sogar für eines der Theoreme eine einfachere und elegantere Beweisführung als im Original. Dieser Erfolg ermutigte die Forscher enorm, da er klar zeigte, dass Maschinen nicht nur rechnen, sondern auch komplexe logische Schlussfolgerungen durchführen können, die früher als menschlich angesehen wurden.

War der Moment, als Turing den Computer erfand, der Singularität der KI?

Von einem Gedankenexperiment zu einer neuen Welt

Der erste Zusammenstoß der beiden Wege: Genialer Optimismus und kaltes Wasser der Realität

Vom Labor zur ganzen Welt

Beginnt mit einer Frage

Geniale Fantasien und die Wand der Realität

Verstecken und Wiederbelebung

Beginnt mit einer Frage

Geniale Fantasien und die Wand der Realität