Standardabweichung vs. Varianz

Standardabweichung und Abweichung sind statistische Messungen der Streuung von Daten, d. h. sie stellen dar, wie stark die Abweichung vom Durchschnitt ist oder inwieweit die Werte typischerweise vom Durchschnitt (Durchschnitt) "abweichen". Eine Abweichung oder Standardabweichung von Null zeigt an, dass alle Werte identisch sind.

Die Varianz ist der Mittelwert der Quadrate der Abweichungen (d. H. Die Differenz der Werte vom Mittelwert), und die Standardabweichung ist die Quadratwurzel dieser Varianz. Die Standardabweichung wird verwendet, um Ausreißer in den Daten zu identifizieren.

Vergleichstabelle

Vergleichsdiagramm der Standardabweichung versus Abweichung
StandardabweichungAbweichung
Mathematische Formel Quadratwurzel der Varianz Durchschnitt der Quadrate der Abweichungen jedes Wertes vom Mittelwert in einer Stichprobe.
Symbol Griechischer Buchstabe Sigma - σ Kein dediziertes Symbol; ausgedrückt als Standardabweichung oder andere Werte.
Werte in Bezug auf den angegebenen Datensatz Gleiche Skala wie Werte im angegebenen Datensatz; daher in denselben Einheiten ausgedrückt. Größer als die Werte im angegebenen Datensatz; nicht in derselben Einheit wie die Werte selbst ausgedrückt.
Sind Werte negativ oder positiv? Immer nicht negativ Immer nicht negativ
Real World Anwendung Bevölkerungsstichprobe; Ausreißer identifizieren Statistische Formeln, Finanzen.

Inhalt: Standardabweichung vs. Abweichung

  • 1 Wichtige Konzepte
  • 2 Symbole
  • 3 Formeln
  • 4 Beispiel
    • Warum die Abweichungen quadratisch sein?
  • 5 Anwendungen aus der realen Welt
    • 5.1 Ausreißer finden
  • 6 Standardabweichung der Probe
  • 7 Referenzen

Wichtige Konzepte

  • Bedeuten: der Durchschnitt aller Werte in einem Datensatz (addiere alle Werte und dividiere ihre Summe durch die Anzahl der Werte).
  • Abweichung: der Abstand jedes Wertes vom Mittelwert. Wenn der Mittelwert 3 ist, hat ein Wert von 5 eine Abweichung von 2 (den Mittelwert von dem Wert abziehen). Abweichungen können positiv oder negativ sein.

Symbole

Die Formel für Standardabweichung und Varianz wird häufig ausgedrückt durch:

  • x = Mittelwert oder Durchschnitt aller Datenpunkte des Problems
  • X = ein einzelner Datenpunkt
  • N = Anzahl der Punkte im Datensatz
  • ∑ = die Summe [der Quadrate der Abweichungen]

Formeln

Die Varianz eines Satzes von n ebenso wahrscheinliche Werte können geschrieben werden als:

Die Standardabweichung ist die Quadratwurzel der Varianz:

Formeln mit griechischen Buchstaben wirken abschreckend, aber das ist weniger kompliziert als es scheint. Um es in einfachen Schritten auszudrücken:

  1. Ermitteln Sie den Durchschnitt aller Datenpunkte
  2. Finden Sie heraus, wie weit jeder Punkt vom Durchschnitt entfernt ist (dies ist die Abweichung)
  3. Quadrat jede Abweichung (d. h. die Differenz jedes Wertes vom Mittelwert)
  4. dividieren Sie die Summe der Quadrate durch die Anzahl der Punkte.

Das gibt die Abweichung. Nehmen Sie die Quadratwurzel der Varianz, um die Standardabweichung zu ermitteln.

Dieses ausgezeichnete Video von der Khan Academy erläutert die Begriffe Varianz und Standardabweichung:

Beispiel

Angenommen, ein Datensatz umfasst die Höhe von sechs Löwenzähnen: 3 Zoll, 4 Zoll, 5 Zoll, 4 Zoll, 11 Zoll und 6 Zoll.

Ermitteln Sie zuerst den Mittelwert der Datenpunkte: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5

Die mittlere Höhe beträgt also 5,5 Zoll. Nun brauchen wir die Abweichungen, also finden wir die Abweichung jeder Pflanze vom Mittelwert: -2,5, -1,5, -,5, -1,5, 5,5, 1,5

Quadrieren Sie nun jede Abweichung und ermitteln Sie ihre Summe: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5

Teilen Sie nun die Summe der Quadrate durch die Anzahl der Datenpunkte, in diesem Fall Pflanzen: 43,5 / 6 = 7,25

Die Varianz dieses Datensatzes ist also 7,25, was eine ziemlich willkürliche Zahl ist. Um es in eine reale Messung umzuwandeln, nehmen Sie die Quadratwurzel von 7,25, um die Standardabweichung in Zoll zu ermitteln.

Die Standardabweichung beträgt etwa 2,69 Zoll. Das bedeutet, dass für die Probe jeder Löwenzahn innerhalb von 2,69 Zoll vom Mittelwert (5,5 Zoll) "normal" ist..

Warum quadratisch die Abweichungen?

Abweichungen werden quadriert, um zu verhindern, dass negative Werte (Abweichungen unter dem Mittelwert) die positiven Werte aufheben. Dies funktioniert, weil ein negatives Quadrat ein positiver Wert wird. Wenn Sie einen einfachen Datensatz mit Abweichungen vom Mittelwert von +5, +2, -1 und -6 hatten, wird die Summe der Abweichungen als Null ausgegeben, wenn die Werte nicht quadriert sind (dh 5 + 2 - 1) - 6 = 0).

Anwendungen der realen Welt

Die Varianz wird als mathematische Streuung ausgedrückt. Da es sich um eine beliebige Zahl relativ zu den Originalmaßen des Datensatzes handelt, ist es schwierig, sie im realen Sinne zu visualisieren und anzuwenden. Das Finden der Abweichung ist normalerweise nur der letzte Schritt vor dem Ermitteln der Standardabweichung. Abweichungswerte werden manchmal in Finanzformeln und statistischen Formeln verwendet.

Die Standardabweichung, die in den ursprünglichen Einheiten des Datensatzes ausgedrückt wird, ist viel intuitiver und nähert sich den Werten des ursprünglichen Datensatzes. Es wird meistens verwendet, um demographische Daten oder Bevölkerungsstichproben zu analysieren, um ein Gefühl dafür zu bekommen, was in der Bevölkerung normal ist.

Ausreißer finden

Eine Normalverteilung (Bell-Kurve) mit Bändern entsprechend 1σ

In einer Normalverteilung liegen etwa 68% der Bevölkerung (oder Werte) innerhalb einer Standardabweichung (1σ) des Mittelwerts und etwa 94% innerhalb von 2σ. Werte, die um 1,7 σ oder mehr vom Mittelwert abweichen, werden normalerweise als Ausreißer betrachtet.

In der Praxis versuchen Qualitätssysteme wie Six Sigma, die Fehlerquote zu reduzieren, so dass Fehler zu Ausreißern werden. Der Begriff "Six-Sigma-Prozess" stammt aus dem Gedanken, dass, wenn man sechs Standardabweichungen zwischen dem Prozessmittelwert und der nächsten Spezifikationsgrenze hat, praktisch kein Artikel die Spezifikationen nicht erfüllt.[1]

Musterstandardabweichung

In realen Anwendungen repräsentieren verwendete Datensätze normalerweise Bevölkerungsstichproben und nicht ganze Populationen. Eine leicht modifizierte Formel wird verwendet, wenn aus einer Teilstichprobe populationsweite Schlussfolgerungen gezogen werden sollen.

Eine "Standardabweichung der Stichprobe" wird verwendet, wenn Sie lediglich eine Stichprobe haben. Sie möchten jedoch eine Aussage über die Populationsstandardabweichung treffen, von der die Stichprobe gezogen wird

Die Standardabweichungsformel der Probe unterscheidet sich nur durch die "-1" im Nenner.

Bei Verwendung des Löwenzahn-Beispiels wäre diese Formel erforderlich, wenn wir nur 6 Löwenzahnproben genommen hätten, diese jedoch verwenden wollten, um die Standardabweichung für das gesamte Feld mit Hunderten von Löwenzahnwerten anzugeben.

Die Quadratsumme würde jetzt durch 5 anstelle von 6 (n - 1) dividiert, was eine Abweichung von 8,7 (anstelle von 7,25) und eine Musterstandardabweichung von 2,95 Zoll anstelle von 2,69 Zoll für die ursprüngliche Standardabweichung ergibt. Diese Änderung wird verwendet, um eine Fehlerquote in einer Stichprobe zu ermitteln (in diesem Fall 9%)..

Verweise

  • Einfaches Beispiel für die Berechnung der Standardabweichung - AppSpot
  • Standardabweichungsformeln - Mathe macht Spaß
  • Absolute Abweichung & Abweichung - Laerd-Statistiken
  • Standardabweichung und Abweichung - Mathe macht Spaß
  • Wikipedia: Standardabweichung
  • Wikipedia: Varianz # Eigenschaften
  • Reichweite, Varianz und Standardabweichung als Streuungsmaß - Khan Akademie
  • Modi, Mediane und Mittel: Eine vereinheitlichende Perspektive