Die Binomialverteilung und die Normalverteilung sind zwei der wichtigsten Verteilungen in der Statistik. Oftmals stellt sich die Frage, wann man die komplexere Binomialverteilung durch die elegantere und leichter handhabbare Normalverteilung approximieren darf. Dieser Artikel erklärt anschaulich, wann diese Approximation zulässig ist und warum sie so nützlich sein kann.
Was sind Binomial- und Normalverteilungen?
Bevor wir uns mit der Approximation beschäftigen, ist es wichtig, die beiden Verteilungen kurz zu verstehen.
Die Binomialverteilung
Die Binomialverteilung beschreibt die Wahrscheinlichkeit für eine bestimmte Anzahl von Erfolgen in einer festen Anzahl von unabhängigen Versuchen, wobei jeder Versuch nur zwei mögliche Ergebnisse hat: Erfolg oder Misserfolg. Denken Sie an das wiederholte Werfen einer Münze: Die Wahrscheinlichkeit, k Mal „Kopf” zu erhalten, wenn die Münze n Mal geworfen wird. Die Binomialverteilung wird durch zwei Parameter definiert:
- n: Die Anzahl der Versuche.
- p: Die Wahrscheinlichkeit eines Erfolgs in einem einzelnen Versuch.
Die Wahrscheinlichkeitsfunktion der Binomialverteilung ist gegeben durch:
P(X = k) = (n über k) * pk * (1 – p)(n – k)
wobei (n über k) der Binomialkoeffizient ist, der die Anzahl der Möglichkeiten angibt, k Erfolge aus n Versuchen auszuwählen.
Die Normalverteilung
Die Normalverteilung, auch bekannt als Gaußsche Verteilung oder Glockenkurve, ist eine stetige Wahrscheinlichkeitsverteilung, die in der Statistik allgegenwärtig ist. Sie ist symmetrisch um ihren Mittelwert und wird durch zwei Parameter vollständig definiert:
- μ (Mü): Der Mittelwert der Verteilung.
- σ (Sigma): Die Standardabweichung der Verteilung.
Die Wahrscheinlichkeitsdichtefunktion der Normalverteilung ist:
f(x) = (1 / (σ * √(2π))) * e-((x – μ)2 / (2σ2))
Die Normalverteilung spielt eine zentrale Rolle im Zentralen Grenzwertsatz, der besagt, dass die Summe (oder der Durchschnitt) einer großen Anzahl von unabhängigen, identisch verteilten Zufallsvariablen annähernd normalverteilt ist, unabhängig von der ursprünglichen Verteilung der Variablen selbst.
Wann ist die Approximation der Binomialverteilung durch die Normalverteilung sinnvoll?
Die Berechnung von Wahrscheinlichkeiten mit der Binomialverteilung kann bei großen Stichproben (großes n) mühsam sein. Die Normalverteilung bietet hier eine praktikable Alternative, da ihre Wahrscheinlichkeiten leichter zu berechnen sind. Die Frage ist aber: Wann ist diese Approximation zulässig?
Eine Faustregel, die oft verwendet wird, ist die „Faustregel von n*p und n*(1-p)„. Diese Regel besagt, dass die Approximation der Binomialverteilung durch die Normalverteilung dann gut ist, wenn sowohl:
- n * p ≥ 5 (oder 10, je nach Quelle)
- n * (1 – p) ≥ 5 (oder 10, je nach Quelle)
erfüllt sind. Diese Bedingungen stellen sicher, dass die Binomialverteilung genügend „Platz” hat, um sich der glatten Kurve der Normalverteilung anzunähern. Anders ausgedrückt, sie verhindern, dass die Binomialverteilung zu stark nach links oder rechts verzerrt ist.
Warum diese Regel? Die Regel basiert darauf, dass die Varianz der Binomialverteilung (n*p*(1-p)) positiv sein muss und dass genügend „Streuung” vorhanden sein muss, um eine sinnvolle Approximation durch eine stetige Verteilung wie die Normalverteilung zu ermöglichen. Kleine Werte von n*p oder n*(1-p) deuten auf eine starke Asymmetrie hin, bei der die Wahrscheinlichkeitsmasse stark auf wenige Werte konzentriert ist, was die Approximation erschwert.
Konkret bedeutet das:
- Wenn n sehr klein ist, ist die Binomialverteilung diskret und sprunghaft. Eine stetige Normalverteilung kann sie nicht gut annähern.
- Wenn p nahe bei 0 oder 1 liegt, ist die Binomialverteilung stark asymmetrisch. Die Normalverteilung, die symmetrisch ist, kann sie dann nicht gut annähern.
Wie man die Approximation durchführt
Sobald die Bedingungen für die Approximation erfüllt sind, kann die Normalverteilung verwendet werden, um die Binomialwahrscheinlichkeiten zu schätzen. Dazu müssen wir die Parameter der Normalverteilung an die Binomialverteilung anpassen:
- Mittelwert (μ): Der Mittelwert der Binomialverteilung ist μ = n * p
- Standardabweichung (σ): Die Standardabweichung der Binomialverteilung ist σ = √(n * p * (1 – p))
Wir verwenden also eine Normalverteilung mit Mittelwert μ = n*p und Standardabweichung σ = √(n * p * (1 – p)).
Die Stetigkeitskorrektur
Ein wichtiger Aspekt bei der Approximation ist die Stetigkeitskorrektur. Da die Binomialverteilung diskret ist (nur ganzzahlige Werte möglich) und die Normalverteilung stetig ist, müssen wir eine Korrektur vornehmen, um die Genauigkeit der Approximation zu verbessern. Die Stetigkeitskorrektur besteht darin, die Grenzen des diskreten Intervalls um 0.5 zu erweitern.
Beispiele:
- Um P(X = k) zu approximieren, verwenden wir P(k – 0.5 ≤ X ≤ k + 0.5) mit der Normalverteilung.
- Um P(X ≤ k) zu approximieren, verwenden wir P(X ≤ k + 0.5) mit der Normalverteilung.
- Um P(X ≥ k) zu approximieren, verwenden wir P(X ≥ k – 0.5) mit der Normalverteilung.
Beispiel:
Nehmen wir an, wir werfen eine faire Münze 100 Mal (n = 100, p = 0.5) und möchten die Wahrscheinlichkeit berechnen, genau 55 Mal „Kopf” zu erhalten. Mit der Binomialverteilung wäre dies eine aufwendige Berechnung. Stattdessen prüfen wir, ob die Normalverteilung angenähert werden kann:
- n * p = 100 * 0.5 = 50 ≥ 10
- n * (1 – p) = 100 * 0.5 = 50 ≥ 10
Die Bedingungen sind erfüllt. Der Mittelwert der approximierenden Normalverteilung ist μ = 50 und die Standardabweichung ist σ = √(100 * 0.5 * 0.5) = 5.
Mit der Stetigkeitskorrektur suchen wir P(54.5 ≤ X ≤ 55.5) in der Normalverteilung. Dazu müssen wir die Werte standardisieren (Z-Transformation):
- Z1 = (54.5 – 50) / 5 = 0.9
- Z2 = (55.5 – 50) / 5 = 1.1
Wir suchen also die Wahrscheinlichkeit zwischen Z = 0.9 und Z = 1.1 in der Standardnormalverteilung. Mithilfe einer Z-Tabelle oder Software können wir diese Wahrscheinlichkeit berechnen.
Vorteile und Nachteile der Approximation
Vorteile:
- Einfachere Berechnungen: Die Berechnung von Wahrscheinlichkeiten mit der Normalverteilung ist oft einfacher als mit der Binomialverteilung, insbesondere bei großen Stichproben.
- Bessere Verfügbarkeit von Tabellen und Software: Für die Normalverteilung existieren umfangreiche Tabellen und Funktionen in Statistiksoftware, die Berechnungen erleichtern.
Nachteile:
- Approximation: Es handelt sich um eine Näherung, die nicht immer perfekt ist. Die Genauigkeit hängt von der Erfüllung der Bedingungen ab.
- Verlust an Genauigkeit: Insbesondere bei kleinen Stichproben oder extremen Wahrscheinlichkeiten kann die Approximation zu Ungenauigkeiten führen.
- Notwendigkeit der Stetigkeitskorrektur: Die Stetigkeitskorrektur muss korrekt angewendet werden, um genaue Ergebnisse zu erhalten.
Fazit
Die Approximation der Binomialverteilung durch die Normalverteilung ist ein mächtiges Werkzeug in der Statistik, das die Berechnung von Wahrscheinlichkeiten erheblich vereinfachen kann. Es ist jedoch entscheidend, die Bedingungen für die Anwendbarkeit der Approximation zu verstehen und die Stetigkeitskorrektur korrekt anzuwenden. Wenn die Bedingungen erfüllt sind, bietet die Normalverteilung eine gute Näherung, die wertvolle Einblicke in die Wahrscheinlichkeiten binomial verteilter Ereignisse ermöglicht. Achten Sie auf n, p, und die Faustregeln, um die Genauigkeit Ihrer Ergebnisse sicherzustellen.