Wiki

Natural Language Generation

Natural Language Generation (Abkürzung: NLG; deutsch: natürliche Sprachgenerierung) ist ein Teilbereich der Künstlichen Intelligenz und der Computerlinguistik. Das Fachgebiet erzeugt aus strukturierten Daten lesbare Texte in natürlicher Sprache. Ziel ist es, Daten so darzustellen, dass Menschen sie direkt lesen und verstehen.[1]

Einordnung und Abgrenzung

Natural Language Generation gehört zum größeren Feld Natural Language Processing (NLP). NLP ist der Oberbegriff für alle Verfahren, mit denen Computer menschliche Sprache verarbeiten. Es gibt zwei Hauptrichtungen: Natural Language Understanding (NLU) analysiert Sprache. NLG erzeugt sie. NLG ist also die aktive, generative Seite.

Moderne Systeme wie Large Language Models vereinen beide Richtungen in einer Architektur. Die Grenzen zwischen Analyse und Erzeugung verschwimmen dadurch. Von einfachen Textvorlagen (Templates) unterscheidet sich NLG klar: Texte entstehen dynamisch aus den Daten, statt nur feste Lücken zu füllen.

Funktionsweise von Natural Language Generation

Klassische NLG-Systeme arbeiten in festen Schritten. Ehud Reiter und Robert Dale haben diese sogenannte Pipeline-Architektur geprägt. Sie läuft in sechs Phasen ab:

  • Content Determination (Inhaltsauswahl): Das System entscheidet, welche Daten in den Text fließen.
  • Document Structuring (Textplanung): Die Inhalte werden sortiert und in Abschnitte gegliedert.
  • Aggregation: Einzelne Aussagen werden zu Sätzen zusammengeführt.
  • Lexicalisation (Wortauswahl): Konzepten werden passende Wörter und Phrasen zugeordnet.
  • Referring Expression Generation: Personen, Orte und Objekte erhalten klare Bezeichnungen oder Pronomen.
  • Realisation (Oberflächenrealisierung): Aus allen Elementen entsteht der fertige, korrekte Text.

Neuere Methoden ersetzen diese Pipeline zunehmend. Deep Learning ermöglicht es, Sprache direkt aus riesigen Textmengen zu erlernen. Explizite Regeln werden dabei nicht mehr benötigt.

Natural Language Generation mit neuronalen Modellen

Vortrainierte Sprachmodelle wie GPT haben die Textgenerierung neu gestaltet. Sie wurden auf enormen Textmengen trainiert. Das Ergebnis: sprachlich hochwertige, kontextpassende Ausgaben. Der Einsatz von ChatGPT macht deutlich, wie weit diese Entwicklung heute reicht. Solche Modelle passen sich stilistischen Vorgaben an und reagieren flexibel auf wechselnde Eingaben.[2]

Anwendungsgebiete

NLG wird heute in vielen Branchen eingesetzt. Die folgende Tabelle zeigt typische Felder und Beispiele:

Branche Anwendung Beispiele
Finanzwesen Automatisierte Berichte Quartalszahlen, Analysten-Reports
Journalismus Roboterjournalismus Wetterberichte, Sportergebnisse, Börsenmeldungen
E-Commerce Produktbeschreibungen Katalogtexte, SEO-Texte
Kundenkommunikation Dialogsysteme Chatbots, Support-Bots
Medizin Befunderläuterungen Zusammenfassungen klinischer Daten
Business Intelligence Datenberichte Erklärungen von Dashboard-Auswertungen

Im Journalismus hat NLG eine besonders sichtbare Rolle. Nachrichtenagenturen wie Associated Press (AP) nutzen es, um aus Rohdaten schnell lesbare Finanzberichte zu erstellen.[3] In Chatbots ist NLG ebenfalls zentral. Sie liefert die Antworten in flüssiger, natürlicher Sprache.

Chancen und Grenzen

Der wichtigste Vorteil ist die Skalierbarkeit. Ein NLG-System erstellt in kurzer Zeit Tausende individueller Texte. Kein Redaktionsteam könnte das leisten. Das reduziert Kosten und ermöglicht individuelle Texte in großem Maßstab.

Doch es gibt klare Grenzen. Die Qualität hängt direkt von den Eingabedaten ab. Fehlerhafte Daten führen zu fehlerhaften Texten. Kreativität und Urteilsvermögen sind für Systeme schwer zu simulieren. Auch ethische Fragen sind offen: Wer haftet für maschinell erstellte Inhalte? Wie müssen sie gekennzeichnet werden?[4]

Ein weiteres Problem betrifft die Sprache. Viele Modelle wurden auf englischen Texten trainiert. Bei anderen Sprachen sinkt die Qualität oft spürbar. Mehr Sprachen erfordern mehr Trainingsaufwand.

Historische Entwicklung

Die Geschichte der automatischen Textgenerierung beginnt in den 1960er Jahren. Das Programm ELIZA erzeugte erste einfache Antworten auf Basis fester Regeln. In den 1980er Jahren entstanden strukturiertere Systeme mit eigenen Wissensbasen.

Das Jahr 2000 war ein wichtiger Meilenstein. Reiter und Dale veröffentlichten Building Natural Language Generation Systems. Dieses Werk etablierte die Pipeline als Standardmodell. Die nächste große Wende kam in den 2010er Jahren. Deep Learning und die Transformer-Architektur (Vaswani et al., 2017) revolutionierten das Feld. Seitdem wirken viele KI-Texte fast menschlich. Natural Language Generation ist damit zur Kerntechnologie der modernen KI geworden.

Literaturempfehlungen

  • Ehud Reiter, Robert Dale: Building Natural Language Generation Systems. Cambridge University Press, Cambridge 2000, ISBN 9780511836275.
  • Nitin Indurkhya, Fred J. Damerau (Hrsg.): Handbook of Natural Language Processing. 2. Auflage, CRC Press, Boca Raton 2010.
  • Bitkom e. V.: Natural Language Generation: Wenn aus Daten Texte werden. Bitkom, Berlin 2019.

Fußnoten

  1. Bitkom e. V.: Natural Language Generation – Wenn aus Daten Texte werden (2019)
  2. API Magazin / Universität Hamburg: Maschinensprache versus Journalismus – NLG-Systeme und generative KI im gesellschaftlichen Diskurs
  3. Süddeutsche Zeitung: KI im Journalismus – automatisierte Finanzberichte und Roboterjournalismus
  4. Bundeszentrale für politische Bildung (bpb): Neue Formen des Journalismus – Automatisierung und kommunikative KI