KI-generierte Listings auf Amazon: 3 Monate A/B-Testing, ehrliche Ergebnisse

Im März 2025 haben wir angefangen, für drei Kunden systematisch KI-generierte Produktlistings gegen unsere handgeschriebenen zu testen. Die Frage war simpel: Kann ein gutes LLM bessere Conversion liefern als ein erfahrener deutscher Copywriter?

Die Antwort nach 14 Wochen und 27 A/B-Tests ist: Es kommt darauf an. Und die Stellen, an denen KI gewinnt, sind nicht die, die man erwartet.

Setup

Wir haben drei Brands getestet: eine Beauty-Brand (Haarpflege), eine CE-Brand (Audio), eine Home-Brand (Küchengeräte). Insgesamt 27 ASINs. Jede ASIN hatte zwei Listing-Varianten: die bestehende handgeschriebene Version (Variante A) und eine KI-generierte Version (Variante B). Split-Test über Amazon Experiments, 14 Tage pro Test, minimaler Traffic-Threshold von 500 Sessions pro Variante.

Die KI-Variante wurde nicht blind generiert. Wir haben den Prompt über 3 Wochen optimiert, inklusive Top-10-Wettbewerber-Listings als Kontext, deutsche Zielgruppen-Insights und die ursprünglichen Produkt-Specs. Keine "schreib mir ein Listing"-Prompts.

Ergebnisse: Wo KI gewinnt

Bullet Points. In 19 von 27 Tests hat die KI-Variante der Bullets gewonnen. Durchschnittliche Conversion-Verbesserung: +14%. Der Grund: Menschliche Copywriter schreiben oft zu verliebt in die Produkt-Features. KI priorisiert Kunden-Benefits und ist brutaler bei der Kürzung.

A+ Content-Module. 12 von 15 Tests für KI. Besonders stark bei Vergleichstabellen und technischen Spezifikationen — KI macht weniger Fehler bei der Konsistenz zwischen Modulen.

Wo KI verliert

Titel. Klarer Verlierer. In 21 von 27 Tests hat der menschliche Titel besser konvertiert. KI macht zwei Fehler: Sie überlädt mit Keywords (Amazon-SEO-Overkill), und sie trifft den deutschen Sprachton nicht. "Premium kabelloser Bluetooth-Kopfhörer mit aktiver Geräuschunterdrückung und 30h Akkulaufzeit" klingt wie eine schlechte Übersetzung aus dem Englischen — ist es auch.

Produktbeschreibung (der lange Text). 17 von 27 für den Menschen. KI-Beschreibungen werden repetitiv, verwenden immer die gleichen Adjektive ("premium", "hochwertig", "elegant") und verlieren nach 300 Wörtern den roten Faden.

Was wir jetzt machen

Wir haben unseren Prozess angepasst: KI-First für Bullets und A+ Module, Mensch-First für Titel und Langbeschreibung. Das Ergebnis ist ein hybrides Listing, das in unserem Follow-up-Test (3 Brands, 8 ASINs) im Schnitt +23% Conversion gegenüber den ursprünglichen handgeschriebenen Varianten gebracht hat.

Die größte Erkenntnis: KI ersetzt keinen guten deutschen Copywriter. Aber sie ersetzt einen schlechten. Und sie macht einen guten schneller — um den Faktor 4, gemessen an der Zeit für ein Listing in unserem Team.

— Elena

KI-generierte Listings auf Amazon: 3 Monate A/B-Testing, ehrliche Ergebnisse

Setup

Ergebnisse: Wo KI gewinnt

Wo KI verliert

Was wir jetzt machen

Lassen Sie uns über Ihre Brand sprechen.

Weiterlesen

Black Friday DACH 2025: Die echten Zahlen aus 9 Brands

Amazon Vendor Central 2025: Die neuen Chargeback-Regeln

Amazon PPC Deutschland: ACOS von 48% auf 22% in 90 Tagen