Korrelation in der Statistik

Nachdem Sie diesen Artikel gelesen haben, werden Sie Folgendes lernen: 1. Definitionen der Korrelation 2. Korrelationsarten 3. Koeffizient.

Definitionen der Korrelation:

Collins Wörterbuch der Statistik:

„Interdependenz zwischen zwei oder mehr Zufallsvariablen. Wenn zwei Variablen so sind, dass, wenn sich eine ändert, die andere dies in einer verwandten Weise tut, wird gesagt, dass sie korreliert sind. “

Wörterbuch der Ausbildung, Lebenslauf Gut:

"Korrelation ist die Tendenz, dass entsprechende Beobachtungen in zwei oder mehr Serien zusammen von den Durchschnittswerten ihrer jeweiligen Serie abweichen, die eine ähnliche relative Position haben soll."

AM Tuttle:

"Korrelation ist eine Analyse der Kovariation zwischen zwei oder mehr Variablen."

Caraxton und Cowden:

„Wenn die Beziehung qualitativer Natur ist, wird das ungefähre statistische Instrument, um die Beziehung zu entdecken und zu messen und in einer kurzen Formel auszudrücken, als Korrelation bezeichnet.“ Im Bereich der Bildung haben Pädagogen und Psychologen zu verschiedenen praktischen Zwecken versucht das Ausmaß der Beziehung zwischen Fähigkeiten in verschiedenen Schulfächern kennen.

Durch die Korrelationsmethode können wir die verschiedenen Probleme untersuchen, die den Zusammenhang zwischen den Fähigkeiten der Schüler wie Rechnen und Leseverständnis, die Bewertung der Intelligenztests und Kursmittelwerte, die Größe und das Gewicht von Kindern usw. betreffen.

Daher ist die statistische Korrelation als ein Grad definiert, zu dem die gepaarten Bewertungen von zwei oder mehr Maßeinheiten dazu neigen, zusammen zu variieren. Das Maß des Übereinstimmungsgrades wird als Korrelationskoeffizient ausgedrückt. In der pädagogischen und psychologischen Forschung ist die ko-relationale Analyse sehr wichtig.

Im Folgenden sind die wichtigsten Bereiche aufgeführt, in denen es häufig verwendet wird:

(a) Es wird verwendet, um zu testen, inwieweit die Daten mit der Hypothese übereinstimmen.

(b) Vorhersagen einer Variablen auf der Grundlage anderer verwandter Variablen

(c) Fremdvariablen zu identifizieren und ihre Wirkung in einem Experiment zu isolieren.

(d) Es wird verwendet, um die Zuverlässigkeit und Gültigkeit der Testergebnisse zu bestimmen.

(e) weitere Statistiken basierend auf dem Korrelationskoeffizienten zu berechnen.

Arten der Korrelation:

Um den Begriff der Korrelation klar zu verstehen, müssen wir verschiedene Arten von Korrelationen diskutieren.

In einer bivariaten Verteilung können die Beziehungen in verschiedene Typen eingeteilt werden:

(a) Positive Korrelation

(b) Negative Korrelation

(c) Null Vereinbarung oder keine Beziehung

(d) lineare Korrelation

(e) Nichtlineare oder kurvenlineare Korrelation.

(a) positive Korrelation:

Wenn eine Erhöhung oder Abnahme in einer Variablen zu einer entsprechenden Zunahme oder Abnahme in der anderen Variablen führt, spricht man von einer positiven Korrelation. Wenn jeder Erhöhung oder Abnahme einer Einheit in einer Variablen eine proportionale Erhöhung oder Abnahme in der anderen Variablen folgt, lautet die Beziehung perfekt positive Korrelation.

Eine positive Beziehung reicht von 0 bis +1. Bei +1 ist die Korrelation eine vollkommen positive Korrelation.

Angenommen, 100 Studenten haben in zwei Tests genau das gleiche Ansehen. Die Schüler, die in der einen Prüfung zuerst punkten, und die Schüler, die in der ersten Prüfung den zweiten Platz belegen, sind in der zweiten Prüfung ebenfalls Zweiter. Diese Eins-zu-Eins-Korrespondenz gilt für die gesamte Liste.

Die Relation ist also perfekt, da die relative Position jedes Subjekts in einem Test genau dieselbe ist wie im anderen und der Korrelationskoeffizient + 1, 00 beträgt.

Es kann anhand des folgenden Beispiels veranschaulicht werden:

Beispiel:

In der obigen Tabelle zählt A zuerst in Test-1 und auch in Test-2. Und ebenso B Sekunde, C Dritter, D Vierter und E Fünfter in beiden Tests. Hier stellen wir fest, dass die Steigerung der Noten eines Studenten in einem Fach der proportionalen Steigerung der Noten in einem anderen Fach entspricht. Eine solche Korrelation wird als perfekte positive Korrelation bezeichnet.

Wenn der Anstieg der Noten eines Schülers im ersten Test dem Anstieg der Noten im zweiten Test entspricht, aber nicht proportional, ist es eine positive Korrelation, können wir dies anhand folgender Diagramme veranschaulichen:

(b) Negative Korrelation

Wenn ein hoher Grad eines Merkmals oder einer Variablen einem niedrigen Grad eines anderen zugeordnet wird, spricht man von negativer Korrelation. Wenn die Erhöhung einer Variablen zu einer Verringerung der anderen Variablen führt und umgekehrt, spricht man von einer negativen Korrelation. Die negative Korrelation kann zwischen 0 und -1 liegen.

Wenn jede Einheit der Zunahme in einer Variablen die proportionale Einheit in der anderen Variablen verringert, wird die Beziehung als perfekte negative Korrelation bezeichnet, und der Korrelationskoeffizient wird mit -1 bezeichnet. Wir können dies anhand des folgenden Beispiels erklären.

Angenommen, in einem Test haben 5 Schüler A, B, C, D und E 80, 75, 70, 65 und 60 Punkte erhalten. Im zweiten Test haben sie jeweils 40, 45, 50, 55 und 60 gesichert.

Im obigen Beispiel hat Schüler A, der in Test-1 die höchste Punktzahl erreicht hat, in Test-2 die niedrigste Punktzahl erreicht. Der Schüler B, der in Test-1 an zweiter Stelle steht, steht in Test-2 neben dem 4. Platz. Hier steht jeder Schüler so weit von der Liste in Test-1 bis zum Ende der Liste in Test-2.

Die Übereinstimmung zwischen Leistung in Test-1 und Test-2 ist also regelmäßig und eindeutig, aber die Richtung der Beziehung ist umgekehrt, da die Zunahme der Noten eines Individuums in einem Subjekt der Abnahme der Noten in einem anderen entspricht. Diese Beziehung ist eine perfekte negative Korrelation.

Es kann mit Hilfe folgender Diagramme veranschaulicht werden:

(c) keine Übereinstimmung oder keine Korrelation:

Wenn in diesem Fall keine systematische Beziehung zwischen zwei Sätzen von Bewertungen oder Variablen besteht, wird dies als Null-Übereinstimmung oder Nicht-Korrelation bezeichnet. Dies bedeutet, dass in der Nullkorrelation eine Übereinstimmung zwischen den Bewertungen besteht, die von den Mitgliedern der Gruppe auf den zwei Gruppen von Bewertungen gemacht wurden. Die Änderung einer Variablen ist in keiner Weise mit der Änderung einer anderen Variablen verbunden.

Beispielsweise hängen die Schuhgröße und das monatliche Einkommen von Personen, die Körpergröße der Person und ihre Intelligenz usw. überhaupt nicht zusammen. Da eine Nullkorrelation keine konsistente Beziehung anzeigt, wird sie durch einen Koeffizienten von 0, 00 ausgedrückt. Wir können dieses Konzept auch mit Hilfe eines Diagramms erläutern, wie in Abb. 12.3 gezeigt.

(d) lineare Korrelation

Wenn die Beziehung zwischen zwei Variablen proportional ist und durch eine gerade Linie beschrieben werden kann, wird sie als lineare Korrelation bezeichnet. Angenommen, es gibt fünf Personen, sagen Sie A, B, C, D und E. Das Monatsgehalt dieser Personen beträgt Rs. 4000, Rs. 5000, Rs. 6000, Rs. 7000 und Rs. Jeweils 8000.

Ihr Jahreseinkommen wird also das 12-fache ihres Monatsgehalts betragen. Wenn wir eine Grafik darstellen, die die Monatsgehälter auf der X-Achse und das Jahreseinkommen auf der Y-Achse zeigt, wird das Ergebnis eine geradlinige Grafik wie in Abb. 12.4-1, 2 sein. Diese Beziehung wird als lineare Korrelation bezeichnet .

(e) Kurvenlineare Korrelation:

Wenn die Beziehung zwischen den Variablen in der gesamten Serie nicht proportional ist und diese durch eine Kurvenlinie beschrieben werden kann, wird als lineare Korrelation bezeichnet. Es wird auch als nichtlineare Korrelation bezeichnet. Zum Beispiel steigt mit Zunahme der Variablen 'A' die zweite Variable 'B' bis zu einem bestimmten Punkt an, danach nimmt bei einer Zunahme von Variable-A die Variable-B ab.

Wenn diese Korrelation zwischen Variable-A und Variable-B zur Darstellung von Graphen dargestellt wird, ist das Ergebnis eine gekrümmte Linie (Abb. 12.4-3, 4).

Korrelationskoeffizient:

Die statistische Methode, bei der die Beziehung auf einer quantitativen Skala ausgedrückt wird, wird als Korrelationskoeffizient bezeichnet. Es ist ein numerischer Index, der uns sagt, inwieweit die beiden Variablen zusammenhängen und inwieweit sich die Variationen in einer Variablen mit den Variationen in der anderen ändern.

„Der Korrelationskoeffizient ist eine reine Zahl, die in der Regel von + 1 bis 0 bis 1 variiert und den Grad der Beziehung zwischen zwei (oder mehr) Beobachtungsreihen angibt“ - CV Good.

Der Korrelationskoeffizient wird auf zwei Arten angegeben. In Karl Pearsons Produktmoment wird es als 'r' ausgedrückt. In der Rangdifferenzkorrelation von Spearman wird sie als 'p' (rho) ausgedrückt. Eine positive Korrelation zeigt, dass eine große Menge einer Variablen dazu neigt, große Mengen der anderen zu begleiten. Eine perfekte positive Korrelation wird also durch einen Koeffizienten von 1, 00 ausgedrückt.

Somit liegt eine positive Korrelation zwischen 9, 00 und + 1, 00. Eine negative Korrelation zeigt an, dass eine kleine Menge der einen Variablen die große Menge der anderen begleitet. Das heißt, ein hoher Grad eines Merkmals kann mit einem geringen anderen Grad verbunden sein.

Eine perfekte negative Korrelation wird durch einen Koeffizienten von - 1, 00 ausgedrückt. Daher liegt eine negative Korrelation zwischen null und - 1, 00. Wenn die beiden Variablen überhaupt nicht miteinander zusammenhängen, wird der Koeffizient als Null ausgedrückt.

Interpretation des Korrelationskoeffizienten:

Der r-Wert, den wir erhalten, zeigt nur an, dass Exit eine Beziehung ist. Es zeigt jedoch nicht an, ob es signifikant ist oder nicht. Deshalb testen wir die Signifikanz von r auf dem Vertrauensniveau von 0, 05 und 0, 01 in Bezug auf ihren Freiheitsgrad oder „df“. In einer bivariaten Beziehung wird der df als (N - 2) gezählt.

Wenn beispielsweise r = 0, 55 und N = 50 ist, um das r zu interpretieren, müssen Sie die Tabelle -C eingeben. Hier ist df = (N - 2) = (50—2) = 48. Als wir in die Tabelle eintraten, haben wir festgestellt, dass bei df = 50 (näher an df 48) der Wert bei 0, 05 0, 227 und bei 0, 01 ist Stufe ist .354.

Unser r-Wert von 0, 55 ist größer als diese beiden Werte. Daher ist r sowohl auf der 0, 05-Ebene als auch auf der 0, 01-Ebene signifikant. Wenn also der r-Wert größer ist als der Wert eines signifikanten Pegels, ist er signifikant und wenn er unter dem Wert eines signifikanten Pegels liegt, ist er unbedeutend.

Eigenschaften von r:

1. Wenn einer oder beiden Variablen eine konstante Zahl hinzugefügt wird, bleibt der Korrelationskoeffizient unverändert.

2. Wenn eine konstante Zahl von einer oder beiden Variablen abgezogen wird, bleibt der Korrelationskoeffizient unverändert.

3. Wenn eine konstante Zahl mit einer oder beiden Variablen multipliziert wird, bleibt der Korrelationskoeffizient unverändert.

4. Wenn sowohl die Variablen als auch eine durch eine konstante Zahl geteilt werden, bleibt der Korrelationskoeffizient unverändert.

Verwendung des Korrelationskoeffizienten (r):

1. Um den Grad der Beziehung oder der Abhängigkeit zwischen zwei Variablen r herauszufinden, wird r verwendet.

2. Zur Vorhersage der abhängigen Variablen wird die unabhängige Variable r verwendet.

3. Zur Bestimmung der Zuverlässigkeit eines Testergebnisses wird r verwendet.

4. Um die Gültigkeit der Testergebnisse zu bestimmen, wird r verwendet.

5. Um Entscheidungen in der Bildungs- und Berufsberatung zu treffen, wird r verwendet.

6. Zur Berechnung anderer Statistiken wie der Faktorenanalyse, der Regressionsvorhersage und der Mehrfachkorrelation usw. ist r erforderlich.

Berechnung des Korrelationskoeffizienten:

Es gibt zwei Methoden zur Berechnung des Korrelationskoeffizienten aus einer bivariaten Verteilung.

1. Rangdifferenzmethode nach Spearman:

Der Korrelationskoeffizient ist für Bildung und Psychologie wertvoll als Maß für die Beziehung zwischen Testergebnissen und anderen Leistungsmessgrößen. In vielen Situationen haben wir jedoch keine Punkte. Wir müssen mit Daten arbeiten, bei denen Unterschiede in einem bestimmten Attribut nur durch Ränge oder durch Klassifizierung einer Person in verschiedene deskriptive Kategorien ausgedrückt werden können.

Unterschiede zwischen den Individuen können in vielen Merkmalen ausgedrückt werden, indem die Probanden in der Reihenfolge ihrer Verdienste geordnet werden, wenn diese Unterschiede nicht direkt gemessen werden können. Mit Rang meinen wir die Einstufung der Personen in der Reihenfolge ihrer Verdienste.

Zum Beispiel können Personen in Bezug auf Ehrlichkeit, sportliche Fähigkeiten, Verkaufssinn oder soziale Anpassung in der Reihenfolge ihres Verdiensts eingestuft werden, wenn es unmöglich ist, diese komplexen Verhaltensweisen zu messen.

Bei der Berechnung der Korrelation zwischen zwei Gruppen von Rängen wurden spezielle Methoden entwickelt. Wenn wir nur wenige Punkte haben (n ist zu klein) und zwei Sätze haben, ist es zu diesem Zeitpunkt ratsam, diese Werte zu ordnen und den Korrelationskoeffizienten (ρ) nach der Pearson-Rangdifferenzmethode zu berechnen.

Annahmen von ρ:

Die Daten sind stark verzerrt oder zu klein.

Wenn keine quantitative Messung möglich ist.

Die Daten sind frei oder unabhängig von bestimmten Merkmalen der Bevölkerungsverteilung

Die Daten sind in ordinaler Skala.

Berechnung von ρ:

Beispiel 1:

Ermitteln Sie den Korrelationskoeffizienten zwischen zwei Gruppen von Scores nach der Rangdifferenzmethode.

Nachfolgend sind die Noten von 5 Studenten in Geschichte und Geographie angegeben:

Lösung:

Schritt 1

Platzieren Sie den ersten Satz von Ergebnissen, beginnend mit Rang 1 bis zur höchsten Punktzahl, und schreiben Sie die Ränge in Spalte R 1 (Spalte 4).

Schritt 2

Platzieren Sie den zweiten Satz von Ergebnissen - beginnend mit Rang 1 bis zur höchsten Punktzahl, und schreiben Sie die Ränge in Spalte R 2 (Spalte 5).

Schritt 3

Finden Sie D heraus, indem Sie R 2 von R 1 abziehen, dh (R 1 - R 2 ) in Spalte. 6

Schritt 4

Finden Sie D 2 durch Quadrieren von D (col-7). Berechnen Sie dann ∑ D 2 und addieren Sie die Werte in col. 7.

Schritt-5

Setzen Sie die Formel und erhalten Sie das Ergebnis

Der Korrelationskoeffizient zwischen den Ergebnissen von Geschichte und Geographie beträgt also 0, 43.

Berechnung von p, wenn sich die Daten in Rängen befinden.

Beispiel:

Bestimmen Sie, inwieweit ihre Urteile übereinstimmen.

In einem Musikwettbewerb haben zwei Juroren 8 Studenten wie folgt eingestuft:

Lösung:

Schritt 1:

Da sich die Ergebnisse in Rängen befinden, ermitteln Sie D, indem Sie die Ränge von Richter 2 von den Rängen von Richter 1 abziehen.

Schritt 2:

Finden Sie D 2 und ∑D 2 heraus .

Schritt 3:

Setzen Sie den Wert in die Formel und erhalten Sie das Ergebnis.

Der Punkt der Übereinstimmung zwischen den Urteilen ist also 0, 90. Berechnen von p für gebundene Ränge

Beispiel:

Berechnen Sie den Korrelationskoeffizienten zwischen den Werten der beiden Sätze in der Rangdifferenzmethode.

Im Folgenden werden die Bewertungen von 8 Studenten in zwei parallelen Tests angegeben:

Lösung:

Schritt 1:

Ordnen Sie die Ergebnisse in Test-1 ein. In Test-1 steht E zuerst, C steht an zweiter Stelle, A und F erhalten die gleiche Punktzahl. Es ist eindeutig, dass diese beiden Schüler den dritten und vierten Rang belegen sollen. Wir bewerten beide also mit 3 + 4/2 = 3, 5. Nächstes B steht auf Platz 5. D und G erzielten die gleiche Punktzahl. Ihre Reihen werden also sein

und H wird der 8. Platz sein.

Schritt 2:

Auf dieselbe Weise wie wir die Ergebnisse in Test-1 bewertet haben, ordnen Sie die Ergebnisse in Test-2 ein.

Schritt 3:

Berechnen Sie D, indem Sie R 2 von R 1 abziehen

Schritt 4:

Berechnen Sie D 2 und ermitteln Sie 2 D 2

Schritt 5:

Setzen Sie die Formel und erhalten Sie das Ergebnis

Der Korrelationskoeffizient zwischen den Bewertungen zweier Tests beträgt also 0, 87.

Merits of Rank Difference-Methode:

1. Sie bietet eine schnelle und bequeme Möglichkeit, die Korrelation abzuschätzen, wenn N klein ist.

2. Wenn sich die Daten zu diesem Zeitpunkt im ordinalen Maßstab befinden, verwenden wir die Rangdifferenzmethode zum Schätzen der Korrelation.

Fehler der Rangunterschiedmethode:

1. Die Rangdifferenzmethode berücksichtigt Positionen in der Serie. Lücken zwischen benachbarten Werten werden nicht berücksichtigt. In einem Test sind beispielsweise drei Schüler 90, 89 und 70 Punkte. Sie würden 1, 2 und 3 eingestuft werden, obwohl der Unterschied zwischen 90 und 89 viel geringer ist als der Unterschied zwischen 89 und 70.

2. Die Genauigkeit bei der Übersetzung von Bewertungen in Ränge kann verloren gehen, insbesondere wenn es eine Reihe von Verbindungen gibt.

3. Es ist schwierig, p aus Daten zu berechnen, wenn N groß ist, sagen wir mehr als 30.

2. Karl Pearson's Produkt-Moment-Methode:

Eine andere effiziente Methode zur Abschätzung des Korrelationskoeffizienten wird von Karl Pearson entwickelt, der allgemein als Produktmomentkoeffizient bezeichnet wird. Es wird Produktmoment genannt, weil „die Summe der Abweichungen vom Mittelwert (angehoben auf eine Leistung) und geteilt durch N ein Moment genannt wird. Wenn die entsprechenden Abweichungen in V und y multipliziert, summiert und durch N dividiert werden

der Begriff Produktmoment wird verwendet. "

Symbolisch wird der Produktmomentkoeffizient der Korrelation als 'r' bezeichnet.

Der Korrelationskoeffizient im Produktmoment ist:

Annahmen der Produkt-Moment-Korrelation:

1. Normalverteilung:

Die Variablen, aus denen die Korrelation berechnet werden soll, müssen normal verteilt sein. Die Annahme kann aus Stichproben entnommen werden.

2. Linearität in Korrelation

Die Produktmomentkorrelation kann in gerader Linie dargestellt werden, was als lineare Korrelation bezeichnet wird.

3. Fortlaufende Serie:

Die Messung der Variablen sollte in einem kontinuierlichen Maßstab erfolgen.

Berechnung der Produktmomentkorrelation:

Der Produktmomentkoeffizient kann in zwei verschiedenen Situationen berechnet werden:

(a) Wenn die Daten nicht gruppiert werden

(b) Wenn die Daten gruppiert sind

(a) Berechnung von r aus nicht gruppierten Daten:

Die Berechnung des Korrelationskoeffizienten in nicht gruppierten Daten erfolgt im Allgemeinen auf zwei Arten:

(i) Wenn Abweichungen vom Mittelwert genommen werden

(ii) Berechnen aus Rohwerten oder Originalwerten.

(i) Schätzung der Korrelation des Produktmoments, wenn Abweichungen vom Mittelwert genommen werden.

Die zur Berechnung von r aus nicht gruppierten Daten verwendete Formel, wenn Abweichungen von den Mittelwerten der beiden Verteilungen X und Y genommen werden, lautet wie folgt:

Beispiel:

Berechnen Sie den Korrelationskoeffizienten der Ergebnisse von 12 Schülern in einem Test von Englisch und MIL in der Produktmomentmethode.

Lösung:

Schritt 1

Ermitteln Sie den Mittelwert der Ergebnisse in Englisch (X) und den Mittelwert der Ergebnisse in MIL (Y). Hier ist M x = 62, 5, M y = 30, 4.

Schritt 2

Ermitteln Sie die Abweichung (x) jeder Bewertung im englischen Test (Tabelle 12.6, Spalte 4) und die Abweichung (y) jeder Bewertung im MIL-Test (Tabelle 12.6, Spalte 5).

Schritt 3

Quadrat aller x s und aller y s und finde x 2 und y 2 heraus . Addiere die x 2 s in col. 6 und y 2 s in col. 7 und finde ∑x 2 und ∑y 2 heraus .

Schritt 4

Multiplizieren Sie die Abweichungen der X-Variablen (Spalte 4) mit den Abweichungen der Y-Variablen (Spalte 5) unter Beachtung der Vorzeichen, um xy (Spalte 8) zu erhalten. Dann addieren Sie die Werte in col. 8 und ∑xy bekommen.

Schritt-5

Geben Sie den Wert in die Formel ein und erhalten Sie das Ergebnis.

Daher beträgt der Korrelationskoeffizient zwischen den Ergebnissen in Englisch und den Ergebnissen in MIL der 12 Schüler 0, 78.

(ii) Berechnung des Produktmomentkoeffizienten aus Originalwerten oder Rohwerten:

Ohne die Abweichungen zu berechnen, können wir das r auch aus Rohwerten oder direkt aus Originalwerten berechnen.

In diesem Fall wenden wir die folgende Formel an:

Beispiel:

Berechnen Sie den Korrelationskoeffizienten der folgenden zwei Sätze von Bewertungen, die aus einem Test der Mathematik und Naturwissenschaften von 10 Studenten in der Produktmoment-Methode erhalten wurden:

Lösung:

Schritt 1

Quadrieren Sie alle X und Y

Schritt 2

Finden Sie das Produkt von X und Y, indem Sie jedes X mit dem entsprechenden Y multiplizieren.

Schritt 3

Gebe Xs (Spalte 1), Ys (Spalte 2), X 2 (Spalte 3), Y 2 (Spalte 4) und XY (Spalte 5) hinzu, um X, Y, X zu erhalten 2 ∑Y 2 bzw. ∑XY.

Schritt 4

Geben Sie diese Werte in die Formel ein und erhalten Sie das Ergebnis.

Der Korrelationskoeffizient zwischen den beiden Punktesätzen beträgt also 0, 92.

(b) Berechnung von r aus gruppierten Daten:

Das in dem obigen Abschnitt erörterte Verfahren kann angewendet werden, wenn N klein ist. Wenn jedoch N groß ist, ist die Berechnung von r in dem obigen Verfahren mühsam und zeitaufwendig. Wir können die Schwierigkeit überwinden, indem wir die Daten in Form eines Diagramms oder Diagramms anordnen, das als Streudiagramm oder Streudiagramm bezeichnet wird. Es ist auch als Zweiwege-Häufigkeitsverteilung oder Bivariate Häufigkeitsverteilung bekannt. Lassen Sie uns überlegen, wie Sie ein Streudiagramm erstellen.

So bereiten Sie ein Streudiagramm vor:

Zum Beispiel erzielten 50 Schüler der 9. Klasse einer High School die folgenden Werte nach einem Gruppentests (X) und einem Algebra-Test (Y).

Lassen Sie uns für diese Ergebnisse ein Streudiagramm erstellen.

Nehmen wir die Klassenintervalle des Intelligenztests entlang des linken Randes von oben nach unten (Abb. 12.5) und die Klassenintervalle des Algebra-Tests oben in dem Diagramm von links nach rechts.

Angenommen, wir möchten die Ergebnisse des 1. Schülers im Diagramm darstellen. Der 1. Schüler hat eine Intelligenzbewertung von 48 und eine algebraische Bewertung von 173. Hier müssen wir eine Zählung in der Zelle entsprechend den Klassenintervallen, 45–49 in der Intelligenz und 170–179 im Algebra-Test angeben.

Ebenso müssen wir für alle 50 Schüler Abschläge in Übereinstimmung mit den beiden Scores Intelligenztest und Algebratest machen. Dann werden die Werte jeder Zelle gezählt und in die Anzahl übersetzt. Danach werden die Zahlen jeder Zeile addiert und die Häufigkeit für jedes Klassenintervall des Intelligenztests (X-Variable) f x ermittelt .

In Fig. 12.5 zum Beispiel ist fx für die 1. Reihe 1, 2. Reihe 6, 3. Reihe 7 und ebenfalls 8. Reihe 2. Auf dieselbe Weise werden die Zellennummern jeder Spalte hinzugefügt und die Häufigkeit für jedes Klassenintervall von Der Algebra-Test (Variable Y) wird bestimmt.

Zum Beispiel ist fy für die erste Spalte 3, 2. Spalte 1, 3. Spalte 2 und ebenfalls 10. Spalte 2. Nachdem alle Werte aufgelistet sind, wird die Häufigkeit in jeder Zelle hinzugefügt und in das Diagramm eingetragen. Das Streudiagramm ist dann eine Korrelationstabelle.

Berechnung von 'r' aus der Korrelationstabelle:

Wenn N groß oder sogar mäßig groß ist, ist es einfach, r zu berechnen, indem die Daten in einer bivariaten Häufigkeitsverteilung gruppiert werden und der r berechnet wird, indem Abweichungen vom angenommenen Mittelwert anstelle des tatsächlichen Mittelwerts genommen werden.

Die Formel zur Berechnung aus gruppierten Daten in der Methode der angenommenen Durchschnittswerte lautet wie folgt:

Lassen Sie uns r xy aus der Korrelationstabelle berechnen, die Sie im Streudiagramm finden.

Sobald die Korrelationstabelle erstellt ist, können Sie das r mithilfe der folgenden Formel ermitteln:

Schritt 1

Addieren Sie die Häufigkeiten jeder Spalte der Algebrawerte und erhalten Sie f y . Addieren Sie dann die Frequenzen jeder Reihe von Intelligenztests und erhalten Sie f x .

Schritt 2

Nehmen Sie einen Mittelwert für die Intelligenztest-Ergebnisse an (wie wir bei der Berechnung des Durchschnitts in der angenommenen Durchschnittsmethode besprochen haben), und zeichnen Sie eine doppelte Linie dieser Spalte, um sie deutlich zu machen.

Nehmen Sie ebenfalls einen Mittelwert für die Algebra-Testwerte an und zeichnen Sie eine doppelte Linie dieser Zeile, um sie deutlich zu machen. In diesem vorliegenden Problem für den Intelligenztest wird der Mittelpunkt von CI 40–44, dh 42, und für den Algebra-Test, der Mittelpunkt von CI 140–149, dh 144, 5, als angenommenes Mittel angenommen. Jetzt können wir x 'und y' von diesem Punkt nehmen, wie in der Fig.

Schritt 3

Multipliziere das x ' x mit f x und finde fx' heraus und multipliziere das y 'auf dieselbe Weise mit fy und finde fy' heraus.

Schritt 4

Multipliziere die fx'-Spalte mit der x'-Spalte und nimm fx ' 2 und fy' Zeile mit y 'und bekomme fy' 2 .

Schritt-5

Die nächste Aufgabe ist es, fx'y herauszufinden. Multiplizieren Sie das x 'der Spalte mit dem y' der Zeile einer bestimmten Zelle und geben Sie den algebraischen Zeichen eine angemessene Gewichtung. Schreiben Sie das Produkt in eine Klammer in die obere Ecke der Zelle.

Multiplizieren Sie dann die Zellfrequenz mit dem Produkt und erhalten Sie den Wert von fx'y 'dieser Zelle, und schreiben Sie ihn in die untere linke Ecke der Zelle.

Zum Beispiel ist die Frequenz der Zellen 20–24 und 180—189 1. Hier ist x '-4 und y' +4, das Produkt von x 'und y' ist –16. Durch Multiplikation des Produkts -16 mit der Zellfrequenz 1 erhalten wir fx'y '= -16 für diese Zelle.

Ebenso können wir das fx'y für alle Zellen berechnen. Wenn Sie die Werte der Zellen zeilenweise hinzufügen, erhalten Sie die Werte der Spalte fx'y. Addiert man diese Werte, erhält man ∑fx'y '. Um die Korrektheit zu überprüfen, addieren Sie die Werte der Spalte fx'y 'weise, um die Zeile fx'y' zu erhalten. Fügen Sie diese Werte hinzu, können wir auch ∑fx'y 'erhalten (siehe Tabelle 12.8).

Schritt-6

Fügen Sie den Wert von fx ', fx' 2, fy 'und fy' 2 hinzu und erhalten Sie ∑fx ', ∑fx' 2, ∑fy 'und ∑fy' 2 '.

Schritt-7

Geben Sie die Werte in die Formel ein und erhalten Sie das Ergebnis.