Im März 2025 haben wir angefangen, für drei Kunden systematisch KI-generierte Produktlistings gegen unsere handgeschriebenen zu testen. Die Frage war simpel: Kann ein gutes LLM bessere Conversion liefern als ein erfahrener deutscher Copywriter?
Die Antwort nach 14 Wochen und 27 A/B-Tests ist: Es kommt darauf an. Und die Stellen, an denen KI gewinnt, sind nicht die, die man erwartet.
Setup
Wir haben drei Brands getestet: eine Beauty-Brand (Haarpflege), eine CE-Brand (Audio), eine Home-Brand (Küchengeräte). Insgesamt 27 ASINs. Jede ASIN hatte zwei Listing-Varianten: die bestehende handgeschriebene Version (Variante A) und eine KI-generierte Version (Variante B). Split-Test über Amazon Experiments, 14 Tage pro Test, minimaler Traffic-Threshold von 500 Sessions pro Variante.
Die KI-Variante wurde nicht blind generiert. Wir haben den Prompt über 3 Wochen optimiert, inklusive Top-10-Wettbewerber-Listings als Kontext, deutsche Zielgruppen-Insights und die ursprünglichen Produkt-Specs. Keine "schreib mir ein Listing"-Prompts.
Ergebnisse: Wo KI gewinnt
Bullet Points. In 19 von 27 Tests hat die KI-Variante der Bullets gewonnen. Durchschnittliche Conversion-Verbesserung: +14%. Der Grund: Menschliche Copywriter schreiben oft zu verliebt in die Produkt-Features. KI priorisiert Kunden-Benefits und ist brutaler bei der Kürzung.
A+ Content-Module. 12 von 15 Tests für KI. Besonders stark bei Vergleichstabellen und technischen Spezifikationen — KI macht weniger Fehler bei der Konsistenz zwischen Modulen.
Wo KI verliert
Titel. Klarer Verlierer. In 21 von 27 Tests hat der menschliche Titel besser konvertiert. KI macht zwei Fehler: Sie überlädt mit Keywords (Amazon-SEO-Overkill), und sie trifft den deutschen Sprachton nicht. "Premium kabelloser Bluetooth-Kopfhörer mit aktiver Geräuschunterdrückung und 30h Akkulaufzeit" klingt wie eine schlechte Übersetzung aus dem Englischen — ist es auch.
Produktbeschreibung (der lange Text). 17 von 27 für den Menschen. KI-Beschreibungen werden repetitiv, verwenden immer die gleichen Adjektive ("premium", "hochwertig", "elegant") und verlieren nach 300 Wörtern den roten Faden.
Was wir jetzt machen
Wir haben unseren Prozess angepasst: KI-First für Bullets und A+ Module, Mensch-First für Titel und Langbeschreibung. Das Ergebnis ist ein hybrides Listing, das in unserem Follow-up-Test (3 Brands, 8 ASINs) im Schnitt +23% Conversion gegenüber den ursprünglichen handgeschriebenen Varianten gebracht hat.
Die größte Erkenntnis: KI ersetzt keinen guten deutschen Copywriter. Aber sie ersetzt einen schlechten. Und sie macht einen guten schneller — um den Faktor 4, gemessen an der Zeit für ein Listing in unserem Team.
— Elena


