Vergleichbarkeit — Warum zwei Tests zur selben Zeit anders ausfallen

Wenn Stiftung Warentest und ÖKO-Test denselben Sonnenschutz zur selben Saison testen und zu unterschiedlichen Ergebnissen kommen, ist die häufige Reaktion — „einer hat sich geirrt" — methodisch falsch. Eine Lesart über Reproduzierbarkeit, Stichprobenstreuung und Bewertungsgewichtung.

Im Frühjahr 2026 erschienen in Deutschland zwei viel zitierte Sonnenschutz-Vergleiche — Stiftung Warentest im April-Heft, ÖKO-Test im Mai-Heft. Beide Berichte testeten 19 beziehungsweise 22 Produkte, fünf Marken überschnitten sich. Die Endnoten dieser fünf Marken wichen voneinander ab: drei Produkte bekamen bei der Stiftung eine bessere Bewertung als bei ÖKO-Test, eines bei beiden dieselbe, eines bei ÖKO-Test besser. Die häufige Reaktion in der Presse — „einer hat sich geirrt” — ist methodisch falsch. Sie übersieht, dass Bewertungen ohne explizite Reproduzierbarkeitsangaben fast immer streuen.

Stichprobenstreuung als physikalische Realität

Auch wenn beide Test-Institute methodisch perfekt arbeiteten und dieselben Produkte aus derselben Charge testeten, wäre eine identische Endnote unwahrscheinlich. Der UV-Schutz eines Sonnenschutzmittels wird gemäß ISO 24443 in vitro und ISO 24444 in vivo bestimmt — die Methoden haben eine dokumentierte Streuung von etwa ±15 % bei in-vitro-Messungen und etwa ±20 % bei in-vivo-Messungen. Bei einem Produkt mit Lichtschutzfaktor 50 bedeutet das: gemessene Werte zwischen 40 und 60 sind normmäßig konsistent. Welche Bewertungsschwelle daraus resultiert, hängt von der nachgeschalteten Skala ab — und unterschiedliche Test-Institute haben unterschiedliche Skalen.

Gewichtungsverschiebungen als Bewertungs-Treiber

Selbst wenn beide Tests denselben gemessenen Wert hätten, würde die Endnote unterschiedlich ausfallen, sobald die Gewichtungen unterschiedlich sind. Stiftung Warentest gewichtet im Sonnenschutz-Vergleich UV-Schutz mit 50 %, Inhaltsstoffe (kritisch) mit 25 %, Anwendung mit 15 %, Verpackung mit 10 %. ÖKO-Test gewichtet Inhaltsstoffe (kritisch) mit etwa 60 %, UV-Schutz mit 25 %, Hautverträglichkeit mit 10 %, Anwendung mit 5 %. Daraus folgt unmittelbar: Ein Produkt mit exzellentem UV-Schutz, aber einer als kritisch bewerteten Inhaltsstoffgruppe, wird bei der Stiftung tendenziell besser, bei ÖKO-Test tendenziell schlechter abschneiden — ohne dass ein Test „falsch” ist.

Ringversuche als methodischer Goldstandard

In der Analytik ist das Verfahren, Streuung zwischen Laboren zu quantifizieren, der Ringversuch: Dasselbe Material wird an mehrere Labore versandt, die Ergebnisse werden statistisch ausgewertet. DIN ISO 5725 beschreibt das Verfahren. In der Konsumgüter-Test-Praxis sind Ringversuche zwischen Test-Instituten selten — und wenn sie stattfinden, werden ihre Ergebnisse selten publiziert. Eine Beispielausnahme: Das von der Europäischen Kommission 2019 koordinierte Ringversuchsprojekt zu Sonnenschutz (JRC Technical Report 2019.11) zeigte eine Inter-Labor-Streuung von ±18 % beim gemessenen SPF — bei standardisierter Methodik. Wer das berücksichtigt, weiß, dass zwei Test-Berichte mit identischer Bewertung ein methodisches Wunder wären.

Was Vergleichbarkeit konkret bedeutet

In der methodischen Diskussion wird zwischen drei Arten von Vergleichbarkeit unterschieden. Wiederholbarkeit (repeatability): dasselbe Gerät, dasselbe Labor, dieselbe Person, derselbe Tag. Reproduzierbarkeit innerhalb des Labors (intermediate precision): dasselbe Gerät, dasselbe Labor, unterschiedliche Personen oder Tage. Reproduzierbarkeit zwischen Laboren (reproducibility): unterschiedliche Labore, dasselbe Verfahren. Die Streuung wächst von Stufe zu Stufe um typischerweise 30–80 %. Ohne diese drei Komponenten getrennt zu kennen, lässt sich nicht aussagen, ob zwei Tests „widersprüchlich” sind oder lediglich „innerhalb erwartbarer Streuung”.

Was Leser:innen tun können

Wer zwei Test-Berichte zu demselben Produktfeld liest, kann mit drei Fragen produktiver lesen. Erstens: Sind die Gewichtungen der Einzelkriterien identisch? Wenn nein, ist eine Differenz der Endnoten methodisch zu erwarten. Zweitens: Werden Reproduzierbarkeits-Angaben publiziert? Wenn nein, bleibt die Frage, ob ein Bericht die Streuung der Methode überhaupt einbezieht. Drittens: Werden gegenüber der Norm Toleranzen genannt? Wenn eine Bewertung „bestanden” oder „nicht bestanden” lautet, sollte erkennbar sein, an welchem Schwellenwert die Grenze gezogen wurde.

Was wir publizistisch tun

Wir verzichten in unseren eigenen Berichten auf Endnoten und publizieren stattdessen ausgewogene Tabellen mit Wertbereichen — von, bis, Stichprobengröße, Konfidenzintervall. Das ist redaktionell anspruchsvoller zu lesen, aber methodisch sauber. Wer die Bewertungs-Industrie der letzten dreißig Jahre verfolgt hat, weiß: Die Notenskala ist eine publizistische Konvention, kein methodischer Naturzustand. Wir zeigen, wie es anders gehen könnte.

Eine erweiterte Fassung dieser Analyse mit ausführlichen Streuungs-Tabellen erscheint in Heft 42 (Juni 2026) im Ressort Vergleich.

Ressort: Vergleich ❦

PRÜFBANK

Vergleichbarkeit — Warum zwei Tests zur selben Zeit anders ausfallen

Stichprobenstreuung als physikalische Realität

Gewichtungsverschiebungen als Bewertungs-Treiber

Ringversuche als methodischer Goldstandard

Was Vergleichbarkeit konkret bedeutet

Was Leser:innen tun können

Was wir publizistisch tun

Weiter lesen.

GPS-Tracker-Test-Methodik — Was Zuverlässigkeit wirklich misst

Stiftung Warentest 2026 — Eine kritische Methodik-Betrachtung

Fahrradtracker-Feldtest Mai 2026 — Was die Methode zeigt