Dispersionsmaße

Nachdem Sie diesen Artikel gelesen haben, lernen Sie die verschiedenen Streuungsmaße der Sozialforschung kennen.

In der Sozialforschung möchten wir oft das Ausmaß der Homogenität und Heterogenität der Befragten in Bezug auf ein bestimmtes Merkmal kennen. Jeder Satz sozialer Daten hat Werte, die die Heterogenität charakterisieren können. Der Satz sozialer Daten ist typischerweise durch die Heterogenität von Werten gekennzeichnet.

Tatsächlich ist das Ausmaß, in dem sie heterogen sind oder untereinander variieren, für die Statistik von grundlegender Bedeutung. Messgrößen der zentralen Tendenz beschreiben typischerweise ein wichtiges Merkmal eines Datensatzes, aber nichts über dieses andere grundlegende Merkmal.

Daher brauchen wir Methoden, um die Heterogenität zu messen - das Ausmaß der Streuung der Daten. Die Maße, die diese Beschreibung liefern, werden als Maß für die Streuung oder Variabilität bezeichnet. Die folgenden drei Verteilungen in Abb. 18.4 veranschaulichen die Wichtigkeit der Messung der Streuung der statistischen Daten.

Verteilung der Mittelwerte für Proben unterschiedlicher Größen :

Es ist ersichtlich, dass das arithmetische Mittel aller drei Kurven in der obigen Abbildung das gleiche ist, aber die durch die Kurve A dargestellte Verteilung der Werte zeigt eine geringere Variabilität (Streuung) als die durch die Kurve B dargestellte, während die Kurve B eine geringere Variabilität aufweist im Vergleich zu dem durch die Kurve C gezeigten.

Wenn wir nur das Maß der zentralen Verteilungstendenzen betrachten, werden wir einen wichtigen Unterschied zwischen den drei Kurven vermissen. Um ein besseres Verständnis des Musters der Daten zu erhalten, müssen wir auch das Maß für dessen Streuung oder Variabilität ermitteln. Nun wenden wir uns verschiedenen Streuungsmaßen zu.

Angebot:

Der Bereich wird als Differenz zwischen dem höchsten und dem niedrigsten Wert definiert: Mathematisch,

R (Bereich) = Mn - M L

wobei M n und M l für den höchsten und den niedrigsten Wert stehen. Für den Datensatz: 10, 22, 20, 14 und 14 wäre der Bereich also die Differenz zwischen 22 und 10, dh 12. Bei gruppierten Daten nehmen wir den Bereich als Differenz zwischen den Mittelpunkten des Extrems Klassen. Wenn also der Mittelpunkt des niedrigsten Intervalls 150 und der des höchsten Intervalls 850 beträgt, ist der Bereich 700.

Der einzige Vorteil des Bereichs, dessen Dispersionsmaß selten verwendet wird, besteht darin, dass er leicht berechnet und leicht verständlich ist. Trotz dieses Vorteils ist es im Allgemeinen kein sehr nützliches Maß für die Dispersion; Sein Hauptnachteil ist, dass es nichts über die Streuung der Werte zwischen den beiden Extremen sagt.

Halbintern-Quartil-Bereich oder Quartil-Abweichung:

Ein weiteres Maß für die Dispersion ist der semi-inter-quartile Bereich, der allgemein als Quartil-Abweichung bekannt ist. Quartile sind die Punkte, die das Array oder die Reihe von Werten in vier gleiche Teile unterteilen, von denen jeder 25 Prozent der Elemente in der Verteilung enthält. Die Quartile sind dann die höchsten Werte in jedem dieser vier Teile. Der Bereich zwischen den Quartilen ist die Differenz zwischen den Werten des ersten und dritten Quartils.

Wo also Q 1 und Q 3 für das erste und dritte Quartil stehen, ist der Halbquatilbereich oder die Quartilabweichung durch die Formel = Q 3 - Q 1/2 gegeben

Berechnung der Quartilabweichung:

Die Quartilabweichung ist ein absolutes Maß für die Dispersion. Wenn für den Vergleich der Streuungen der Reihen eine Quartilabweichung verwendet werden soll, muss das absolute Maß in einen Quartilabweichungskoeffizienten umgerechnet werden.

Mittlere Abweichung :

Reichweiten- und Quartilabweichungen weisen gravierende Nachteile auf, dh sie werden unter Berücksichtigung von nur zwei Werten einer Reihe berechnet. Daher basieren diese beiden Dispersionsmaße nicht auf allen Beobachtungen der Serie. Die Zusammensetzung der Serie wird daher völlig ignoriert. Um diesen Fehler zu vermeiden, kann die Streuung unter Berücksichtigung aller Beobachtungen der Serie in Bezug auf einen zentralen Wert berechnet werden.

Die Methode zur Berechnung der Dispersion wird als Methode zum Mitteln von Abweichungen (mittlere Abweichung) bezeichnet. Wie der Name schon sagt, handelt es sich um das arithmetische Mittel der Abweichungen verschiedener Elemente von einem Maß der zentralen Tendenz.

Wie wir wissen, wäre die Summe der Abweichungen von einem zentralen Wert immer Null. Dies legt nahe, dass wir, um eine mittlere Abweichung (über den Mittelwert oder einen der zentralen Werte) zu erhalten, auf irgendeine Weise negative Anzeichen beseitigen müssen. Dies geschieht, indem Zeichen ignoriert und der absolute Wert der Differenzen genommen wird.

In unserem hypothetischen Beispiel ist der Mittelwert der Zahlen 12, 14, 15, 16 und 18 15. Dies bedeutet, dass sich die Differenz zu jeder dieser Zahlen um 15 ändert, die Zeichen ignoriert und die Ergebnisse addiert werden. Wir erhalten dann die Summe Abweichung.

Wenn wir es durch 5 teilen, erhalten wir:

= 1, 6 (wobei | d | für die Summe der absoluten Abweichungen steht).

Wir können also sagen, dass die Bewertungen im Durchschnitt um 1, 6 vom Durchschnitt abweichen.

Berechnung der mittleren Abweichung im nicht gruppierten Datum (individuelle Beobachtungen):

Berechnung der mittleren Abweichung in kontinuierlichen Reihen:

Koeffizient der mittleren Abweichung :

Um die mittlere Abweichung einer Serie zu vergleichen, wird der mittlere Abweichungskoeffizient oder die relative mittlere Abweichung berechnet. Dies wird erhalten, indem die mittlere Abweichung durch das Maß der zentralen Tendenz dividiert wird, aus dem Abweichungen berechnet wurden. Somit,

Koeffizient des Mittelwerts Abweichung / X

Wenn wir diese Formel auf das vorige Beispiel anwenden, haben wir

Koeffizient der mittleren Abweichung = 148/400 = 0, 37

Standardabweichung :

Das nützlichste und am häufigsten verwendete Maß für die Streuung ist die Standardabweichung oder die mittlere quadratische Abweichung um den Mittelwert. Die Standardabweichung ist definiert als Quadratwurzel des arithmetischen Mittelwerts des Quadrats der Abweichungen um den Mittelwert. Symbolisch

σ = √ d 2 / N

wobei σ (griechischer Buchstabe Sigma) für die Standardabweichung steht, Σd 2 für die Summe des Quadrats der gemessenen Abweichungen vom Mittelwert und N für die Anzahl der Elemente.

Berechnung der Standardabweichung in Serie von Einzelbeobachtungen:

Abkürzungsmethode:

Berechnung der Standardabweichung in diskreten Serien :

In einer diskreten Serie werden zunächst die Abweichungen von einem angenommenen Mittelwert berechnet und mit den jeweiligen Häufigkeiten der Elemente multipliziert. Die Abweichungen werden quadriert und mit den jeweiligen Häufigkeiten der Elemente multipliziert. Diese Produkte werden summiert und durch die Summe der Frequenzen geteilt. Die Standardabweichung wird nach folgender Formel berechnet:

Die folgende Abbildung würde die Formel erklären:

Berechnung der Standardabweichung in einer kontinuierlichen Serie :

In einer fortlaufenden Serie werden die Klassenintervalle durch ihren Mittelpunkt dargestellt. In der Regel sind die Klassenintervalle jedoch gleich groß und daher werden die Abweichungen vom angenommenen Mittelwert in Klassenintervalleinheiten ausgedrückt. Alternativ werden Schrittabweichungen ermittelt, indem die Abweichungen durch die Größe des Klassenintervalls dividiert werden.

Daher wird die Formel zur Berechnung der Standardabweichung wie folgt geschrieben:

wobei i für den gemeinsamen Faktor oder die Größe des Klassenintervalls steht.

Das folgende Beispiel würde diese Formel veranschaulichen:

Variationskoeffizient:

Die Standardabweichung repräsentiert das Maß der absoluten Streuung. Es ist auch notwendig, die relative Streuung von zwei oder mehr Verteilungen zu messen. Wenn sich die Standardabweichung auf den Mittelwert bezieht, misst sie die relative Streuung. Karl Pearson hat ein einfaches Maß für die relative Streuung ermittelt, das allgemein als Variationskoeffizient bezeichnet wird.

Der Variationskoeffizient für das Problem in Tabelle 18.47 lautet: