A/B-Test

Ein A/B-Test (auch: Split-Test) ist ein kontrolliertes Experiment aus der empirischen Forschung und dem digitalen Marketing. Dabei werden zwei Varianten eines Objekts – Version A und Version B – gleichzeitig an vergleichbaren Nutzergruppen gemessen. Ziel ist es, festzustellen, welche Variante ein definiertes Ziel besser erreicht. Das Grundprinzip: Nur ein einziges Element wird verändert, alle anderen Faktoren bleiben konstant.

Grundprinzip und Funktionsweise des A/B-Tests

Bei diesem Verfahren wird der eingehende Traffic – also alle Besucher einer Website, App oder eines anderen digitalen Kanals – zufällig in zwei annähernd gleich große Gruppen aufgeteilt. Gruppe A erhält die ursprüngliche Version, die sogenannte Kontrollgruppe. Gruppe B sieht die veränderte Version, die Experimentalgruppe. Beide Gruppen interagieren im selben Zeitraum unter identischen Bedingungen mit ihren Varianten.

Nach Ablauf des Testzeitraums werden die Messwerte verglichen. Zielgröße kann etwa die Conversion Rate, die Klickrate oder die Verweildauer sein. Die entscheidende Anforderung: Pro Test wird idealerweise nur ein einziges Element verändert. Typische Testobjekte sind die Farbe eines Call-to-Action-Buttons, der Text einer Überschrift oder das Layout eines Formulars. Werden mehrere Elemente gleichzeitig geändert, lässt sich kein eindeutiger Kausalzusammenhang ableiten. Eine Erweiterung, bei der mehrere Variablen kombiniert getestet werden, heißt multivariater Test.

Statistische Anforderungen an einen A/B-Test

Ein A/B-Test liefert nur dann verlässliche Ergebnisse, wenn er statistischen Mindestanforderungen genügt. Zentral ist dabei die statistische Signifikanz. Sie beschreibt, wie wahrscheinlich es ist, dass der gemessene Unterschied zwischen A und B nicht zufällig entstanden ist, sondern tatsächlich auf die vorgenommene Änderung zurückzuführen ist.^[1] In der Praxis wird ein hohes Signifikanzniveau angestrebt, um zufällige Ausreißer von echten Effekten zu unterscheiden. Der dafür gebräuchliche statistische Schwellenwert ist der p-Wert.

Auch die Stichprobengröße spielt eine wesentliche Rolle. Zu kleine Stichproben liefern unzuverlässige Resultate. Vor dem Start wird daher häufig eine Power-Analyse durchgeführt. Sie gibt an, wie viele Besucher pro Variante nötig sind, um einen Effekt zuverlässig nachzuweisen. Die Testdauer sollte mindestens einen vollständigen Wochenzyklus umfassen, um Wochentags- und Tageszeiteffekte zu neutralisieren.

Anwendungsbereiche

A/B-Tests finden in nahezu allen digitalen Kanälen Anwendung, in denen Nutzerverhalten messbar ist. Im E-Commerce optimieren Unternehmen Produktseiten, Checkout-Strecken und Kategorieseiten, um die Conversion Rate zu steigern.^[2] Im E-Mail-Marketing testen sie Betreffzeilen, Absendernamen und Newsletterinhalte, um Öffnungs- und Klickraten zu verbessern. Im Performance Marketing werden Anzeigentexte, Creatives und Landingpages gegeneinander geprüft.

Auch in der Produktentwicklung ist das Verfahren etabliert. Softwareanbieter testen neue Funktionen, Navigationsstrukturen oder Onboarding-Prozesse zunächst nur bei einem Teil der Nutzerschaft. Für eine zielgenaue Aussteuerung werden dabei häufig Nutzerdaten herangezogen, etwa solche, die eine DMP Data Management Platform bereitstellt.

Durchführung: Von der Hypothese zum Ergebnis

Ein strukturierter A/B-Test beginnt mit einer klaren Hypothese. Sie legt fest, welche Änderung welchen Effekt auf welche Messgröße haben soll und warum. Ohne diese Grundlage lassen sich Ergebnisse nur schwer interpretieren. Danach folgen die Wahl der Zielgröße (KPI), die technische Umsetzung beider Varianten sowie die Bestimmung von Stichprobenumfang und Testdauer.

Während des Tests dürfen keine weiteren Änderungen vorgenommen werden. Nach dem Ende des Testzeitraums werden die Ergebnisse statistisch ausgewertet. Zeigt Variante B eine signifikante Verbesserung, wird sie zur neuen Standardversion erklärt. Zeigt sich kein signifikanter Unterschied, bleibt Variante A bestehen, und der Prozess beginnt mit neuen Hypothesen erneut.

Abgrenzung zu verwandten Methoden

Der A/B-Test wird oft mit dem multivariaten Test gleichgesetzt. Beim multivariaten Test werden jedoch mehrere Elemente in verschiedenen Kombinationen gleichzeitig getestet. Das erfordert mehr Daten, erlaubt aber die Analyse von Wechselwirkungen. Der klassische Split-Test ist auf eine einzige Variable beschränkt und daher einfacher durchzuführen und zu interpretieren.

Eine weitere verwandte Methode ist das Bandit-Testing. Dabei wird der Traffic nicht starr aufgeteilt, sondern der Algorithmus leitet kontinuierlich mehr Traffic zur besser performenden Variante. Das minimiert Opportunitätskosten, erschwert aber die klassische statistische Auswertung. Gegenüber qualitativen Methoden wie Usability-Tests zeichnet sich der A/B-Test durch die direkte Messbarkeit realen Nutzerverhaltens aus. Zero-Party-Daten aus direkten Nutzerbefragungen ergänzen die quantitativen Erkenntnisse dabei oft sinnvoll.

Grenzen und häufige Fehlerquellen

Das Verfahren beantwortet die Frage „Was funktioniert besser?“, nicht aber „Warum?“. Die Kausalerklärung bleibt dem Anwender überlassen und erfordert ergänzende qualitative Analysen. Zudem setzt ein aussagekräftiger Test ausreichend hohen Traffic voraus. Auf Websites mit geringem Besuchervolumen können belastbare Ergebnisse Wochen oder Monate dauern.

Zu den häufigsten Fehlerquellen gehört das vorzeitige Beenden des Tests bei zufällig guten Zwischenwerten – bekannt als „Peeking“. Ebenfalls problematisch: das gleichzeitige Durchführen mehrerer Tests auf denselben Nutzergruppen, da sich die Varianten gegenseitig beeinflussen können. Auch der Novelty-Effect kann Ergebnisse verfälschen. Er beschreibt die anfänglich erhöhte Interaktion mit einer neuen Variante allein aufgrund ihrer Neuheit. Die Güte eines A/B-Tests hängt daher maßgeblich von sorgfältiger Planung ab.^[3]

A/B-Test im digitalen Ökosystem

Mit der Verbreitung von Web-Analytics-Plattformen hat sich der A/B-Test von einem Spezialwerkzeug großer Technologiekonzerne zu einem Standardinstrument des digitalen Marketings entwickelt. Bekannte Plattformen wie Optimizely, VWO (Visual Website Optimizer) oder Adobe Target bieten grafische Oberflächen. Sie ermöglichen die Erstellung und Auswertung von Tests auch ohne tiefe Programmierkenntnisse.

Split-Tests sind heute ein integraler Bestandteil der Conversion Rate Optimization (CRO) – der systematischen Verbesserung von Websites und digitalen Produkten auf Datenbasis. Im Kontext der Suchmaschinenwerbung werden sie etwa für Anzeigentexte und Zielseiten eingesetzt. Unternehmen, die das Verfahren systematisch nutzen, können Entscheidungsprozesse von Intuition auf empirische Evidenz umstellen. Das ist ein Kernelement datengetriebener Unternehmensführung.

Literaturempfehlungen

Ron Kohavi, Diane Tang, Ya Xu: Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press, Cambridge 2020, ISBN 9781108601375.
Tim Ash, Rich Page, Maura Ginty: Landing Page Optimization: The Definitive Guide to Testing and Tuning for Conversions. Wiley, Hoboken 2012.