Stiftung Warentest 2026 — Eine kritische Methodik-Betrachtung

Die deutsche Verbraucherorganisation Stiftung Warentest gilt vielen Leser:innen als methodische Referenz. Eine genauere Betrachtung der 2026 verwendeten Bewertungsskala, der Gewichtungsverfahren und der Beauftragten-Labore zeigt jedoch, dass die methodische Transparenz hinter ihrem öffentlichen Ruf zurückbleibt.

Die Stiftung Warentest gilt vielen Leser:innen in Deutschland als methodische Referenz unter den Konsumgüter-Test-Institutionen. Sie publiziert seit 1966, finanziert sich zum Großteil aus Verkaufserlösen der Zeitschrift „test” sowie Bundesmitteln, und genießt im allgemeinen Vertrauensdiskurs eine privilegierte Position. Heft 41 nimmt sich der Frage an, ob diese Position aus methodischer Sicht durchgängig gerechtfertigt ist — nicht als Polemik, sondern als ressortgerechte Lektüre der Methoden-Anhänge ihrer 2026-Berichte.

Die fünfstufige Bewertungsskala

Die seit 2008 verwendete fünfstufige Skala („sehr gut” bis „mangelhaft”) ist in der Wahrnehmung der Leser:innen tief verankert. Methodisch ist sie eine ordinale Skala mit numerischer Hinterlegung (1,5 ≙ sehr gut, 2,5 ≙ gut, 3,5 ≙ befriedigend, 4,5 ≙ ausreichend, 5,5 ≙ mangelhaft, jeweils als Schwellenwert nach unten offen). Die Skala suggeriert metrische Vergleichbarkeit — der Unterschied zwischen 1,8 und 2,2 wirke „klein”, der zwischen 2,8 und 3,2 wirke „groß”, weil er eine Notenstufe überquert. Statistisch ist das nicht haltbar: Eine ordinale Skala erlaubt keine Aussagen über Abstandsgleichheit zwischen ihren Stufen.

Die Gewichtungs-Black-Box

Methodisch interessanter wird es bei der Gewichtung der Einzelkriterien. Ein Beispiel: Im Tracker-Vergleich Heft 4/2024 ging die Positionsgenauigkeit zu 45 %, die Akkulaufzeit zu 25 %, die App-Bedienbarkeit zu 15 %, der Datenschutz zu 10 % und die „Umweltverträglichkeit der Verpackung” zu 5 % in die Endnote ein. Diese Gewichtungen sind nicht aus Verbraucher-Präferenz-Studien abgeleitet, sondern redaktionelle Setzungen. Eine Variation der Gewichte um nur fünf Prozentpunkte je Kriterium kann die Endnote eines Geräts um eine halbe Notenstufe verschieben — was im Bewertungsraum die Differenz zwischen „gut” und „befriedigend” bedeutet. Die Methodik-Anhänge nennen die Gewichte, begründen sie aber selten.

Beauftragte Labore

Die meisten Stiftung-Warentest-Berichte werden in beauftragten Laboren durchgeführt, nicht in eigenen Räumen. Welches Labor welche Messreihe übernommen hat, wird in den Methoden-Anhängen aufgeführt — meist mit einer Liste von zwei bis vier Laboren pro Bericht. Wer prüft, ob alle Geräte im selben Labor getestet wurden? Die Antwort ist häufig: nein. Das schafft eine zusätzliche Streuungsquelle, die zwar Laborübergreifend kontrolliert werden kann (Ringversuch), aber in den publizierten Berichten selten als statistische Komponente ausgewiesen wird.

Vergleich zur Methodik 2018

Wer den Methoden-Anhang eines aktuellen Berichts mit einem von 2018 vergleicht, bemerkt zwei strukturelle Verschiebungen. Erstens: Datenschutz und Software-Aktualisierungs-Versorgung sind als Bewertungskriterien deutlich gewichtiger geworden (von etwa 5 % auf bis zu 15 %). Das ist methodisch nachvollziehbar — die Bedeutung von App-Privacy ist gestiegen. Aber: Die Skala bleibt dieselbe, was zur Folge hat, dass Geräte mit denselben physikalischen Eigenschaften 2018 und 2026 zwei unterschiedliche Endnoten erhalten würden, ohne dass sich am Gerät etwas geändert hat. Das relativiert historische Vergleiche.

Zweitens: Die Stichprobenzahl pro Modell ist im Schnitt leicht zurückgegangen (von ehemals häufig n = 5 zu heute oft n = 3 bei Elektronik-Tests), während die Anzahl getesteter Modelle pro Bericht gestiegen ist. Mehr Modelle, kleinere Stichproben pro Modell — das senkt die statistische Aussagekraft je Modell, erhöht aber die Breite des Marktüberblicks. Eine redaktionelle Wahl, methodisch nicht falsch, aber publizistisch konsequent zu kennzeichnen.

Was Stiftung Warentest methodisch leistet

Bei aller Kritik: Die Methoden-Transparenz der Stiftung ist im internationalen Vergleich überdurchschnittlich. ÖKO-Test publiziert weniger Detail zu Stichprobenzahlen, der ADAC nennt häufig keine Wiederholungs-Sitzungen, Computer Bild legt Labor-Listen selten offen. Stiftung Warentest publiziert Methoden-Anhänge, in denen die wesentlichen Komponenten — Gewichtung, Stichprobenzahl, Labor-Liste — sichtbar werden. Wer methodisch lesen will, kann das tun.

Lektüre-Empfehlung

Wir empfehlen Leser:innen, ergänzend zum Hauptbericht den Methoden-Anhang zu lesen (in der Regel im Heft selbst als „Methodik” gekennzeichnet, online unter test.de teilweise nur über Abo zugänglich). Aus methodischer Sicht ist der Anhang oft instruktiver als die Notentabelle: Dort steht, was die Bewertung eigentlich misst — und manchmal wird klar, dass dieselbe Tabelle mit anderer Gewichtung in andere Noten münden würde.

Wir kontrastieren in den folgenden Heften die Methodik-Anhänge weiterer Test-Institute. Heft 42 (Juni 2026) widmet sich ÖKO-Test, Heft 43 dem ADAC.

Ressort: Methodik ❦

PRÜFBANK

Stiftung Warentest 2026 — Eine kritische Methodik-Betrachtung

Die fünfstufige Bewertungsskala

Die Gewichtungs-Black-Box

Beauftragte Labore

Vergleich zur Methodik 2018

Was Stiftung Warentest methodisch leistet

Lektüre-Empfehlung

Weiter lesen.

GPS-Tracker-Test-Methodik — Was Zuverlässigkeit wirklich misst

Vergleichbarkeit — Warum zwei Tests zur selben Zeit anders ausfallen

Fahrradtracker-Feldtest Mai 2026 — Was die Methode zeigt