Gültigkeit eines Tests: 6 Typen

Die folgenden sechs Gültigkeitstypen werden allgemein verwendet, nämlich Gültigkeit von Gesichtern, Gültigkeit von Inhalten, Gültigkeit von Vorhersagen, Gleichzeitigkeit, Konstrukt- und Faktorengültigkeit. Von diesen sind die inhaltliche, prädiktive, gleichzeitige und konstruktive Gültigkeit die wichtigsten, die in der Psychologie und im Bildungswesen verwendet werden.

Diese werden im Folgenden besprochen:

Typ # 1. Gesicht Gültigkeit:

Flächengültigkeit bis zu dem Ausmaß, in dem der Test zu messen scheint, was gemessen werden soll.

Die Gesichtsvalidität bezieht sich darauf, ob ein Test als gültig erscheint oder nicht, dh ob das Objekt den gewünschten Aspekt zu messen scheint oder nicht. Wenn ein Test misst, was der Testautor messen möchte, sagen wir, dass der Test für gültig gehalten wird. Die Gesichtsvalidität bezieht sich also nicht auf das, was der Test misst, sondern auf das, was der Test zu messen scheint. Der Inhalt des Tests sollte offensichtlich nicht als unangemessen und irrelevant erscheinen.

Zum Beispiel sollte ein Test zur Messung von „Fertigkeit zusätzlich“ nur Elemente enthalten, die zusätzlich hinzugefügt werden. Wenn man die Gegenstände durchgeht und das Gefühl hat, dass alle Gegenstände die Fertigkeit zusätzlich zu messen scheinen, kann man sagen, dass der Test von Gesicht aus validiert wird.

Obwohl es sich nicht um eine effiziente Methode zur Bewertung der Gültigkeit eines Tests handelt und daher normalerweise nicht verwendet wird, kann es als erster Schritt zur Validierung des Tests verwendet werden. Sobald der Test vor Ort validiert ist, können wir mit der Berechnung des Gültigkeitskoeffizienten fortfahren.

Darüber hinaus hilft diese Methode einem Testhersteller, die Testobjekte an den jeweiligen Zweck anzupassen. Wenn ein Test schnell erstellt werden soll oder wenn ein Test dringend erforderlich ist und keine Zeit und kein Spielraum besteht, um die Gültigkeit mit anderen effizienten Methoden zu bestimmen, kann die Gültigkeit des Gesichts bestimmt werden.

Diese Art der Gültigkeit ist nicht angemessen, da sie auf Gesichtsebene wirkt und daher als letztes Mittel verwendet werden kann.

Typ # 2. Inhalt Gültigkeit:

Inhaltsgültigkeit Ein Prozess, bei dem die Testobjekte mit den Lernzielen abgeglichen werden.

Die Gültigkeit der Inhalte ist das wichtigste Kriterium für die Nützlichkeit eines Tests, insbesondere eines Leistungstests. Es wird auch als rationale Gültigkeit oder logische Gültigkeit oder curriculare Gültigkeit oder innere Gültigkeit oder intrinsische Gültigkeit bezeichnet.

Die Gültigkeit von Inhalten bezieht sich auf den Grad oder das Ausmaß, in dem ein Test aus Elementen besteht, die das Verhalten darstellen, das der Testmacher messen möchte. Inwieweit die Prüfungsgegenstände tatsächlich für den gesamten Inhalt und die Ziele der Lehre repräsentativ sind, wird als inhaltliche Gültigkeit der Prüfung bezeichnet.

Die Gültigkeit des Inhalts wird geschätzt, indem die Relevanz der Testobjekte bewertet wird. dh die Prüflinge müssen alle Inhalte und Verhaltensbereiche des zu messenden Merkmals ordnungsgemäß abdecken. Es gibt eine Vorstellung von Themen oder Verhaltensänderungen.

Auf diese Weise bezieht sich die Gültigkeit von Inhalten auf den Umfang, in dem ein Test Elemente enthält, die das Verhalten darstellen, das wir messen werden. Die Testpunkte sollten alle relevanten Merkmale des gesamten Inhaltsbereichs und der Ziele in einem angemessenen Verhältnis einschließen.

Bevor der Test erstellt wird, erstellt der Testhersteller eine zweiseitige Tabelle mit Inhalten und Zielen, die allgemein als "Spezifikationstabelle" bezeichnet wird.

Angenommen, ein Leistungstest in Mathematik ist vorbereitet. Es muss Elemente aus Algebra, Arithmetik, Geometrie, Mensuration und Trigonometrie enthalten. Außerdem müssen die Elemente die verschiedenen Verhaltensziele wie Wissen, Verständnis, Fertigkeit, Anwendung usw. messen. Daher ist es wichtig, dass die verschiedenen Inhaltsbereiche und Ziele gebührend gewichtet werden.

Ein Beispiel für 'Spezifikationstabelle' in der Mathematik ist in der folgenden Tabelle dargestellt:

Die Tabelle gibt die Stichprobe der zu messenden Lernaufgaben wieder. Je näher die Prüflinge der angegebenen Stichprobe entsprechen, desto größer ist die Wahrscheinlichkeit einer zufriedenstellenden Gültigkeit des Inhalts. Daher ist es wünschenswert, dass die Elemente in einem Test von einem Expertenteam überprüft werden. Sie sollten prüfen, ob die Platzierung der verschiedenen Elemente in den Zellen der Tabelle angemessen ist und ob alle Zellen der Tabelle über eine ausreichende Anzahl von Elementen verfügen.

Die Angemessenheit ist anhand der Gewichtung zu bewerten, die den verschiedenen inhaltlichen Zieltabellen zugeteilt wird, je nach dem Expertenteam, das den Lehrplan erstellt hat.

Einige allgemeine Punkte zur Gewährleistung der Gültigkeit von Inhalten sind nachfolgend aufgeführt:

1. Der Test sollte das erforderliche Niveau der Schüler erfüllen, weder über oder unter ihrem Standard.

2. Die Sprache sollte auf dem Niveau der Schüler sein.

3. Alles, was nicht im Lehrplan enthalten ist, sollte nicht in die Testobjekte aufgenommen werden.

4. Jeder Teil des Lehrplans sollte die erforderliche Gewichtung erhalten. Weitere Elemente sollten aus wichtigeren Teilen des Lehrplans ausgewählt werden.

Einschränkungen:

1. Die Gewichtung der verschiedenen Inhaltsbereiche ist subjektiv.

2. Es ist schwierig, den perfekten objektiven Test zu konstruieren.

3. Die Gültigkeit des Inhalts ist für Tests der Intelligenz, Leistung, Einstellung und in gewissem Umfang nicht ausreichend.

4. Die auf verschiedene Verhaltensänderungen bezogene Gewichtung ist nicht objektiv.

Geben Sie # 3 ein. Prädiktive Gültigkeit:

Prädiktive Gültigkeit Das Ausmaß, in dem der Test die zukünftige Leistung der Schüler vorhersagt.

Die Vorhersagekraft bezieht sich auf die Vorhersagefähigkeit eines Tests. Es zeigt die Wirksamkeit eines Tests zur Vorhersage oder Vorhersage zukünftiger Ergebnisse in einem bestimmten Bereich. Der Testbenutzer möchte die zukünftige Leistung einer Person prognostizieren. Testergebnisse können verwendet werden, um zukünftiges Verhalten oder Leistung vorherzusagen, und werden daher als vorhersagende Gültigkeit bezeichnet.

Um vorhersagende Gültigkeit zu finden, korreliert der Tester die Testergebnisse mit der nachfolgenden Leistung des Testpersonen, die technisch als „Criterion“ bezeichnet wird. Kriterium ist ein unabhängiges, externes und direktes Maß für das, was der Test vorhersagen oder messen soll. Daher wird es auch als "kriteriumbezogene Gültigkeit" bezeichnet.

Die vorhersagende oder empirische Gültigkeit wurde von Cureton (1965) als Schätzung des Korrelationskoeffizienten zwischen den Testergebnissen und dem wahren Kriterium definiert.

Ein Beispiel kann das Konzept besser verdeutlichen.

Beispiel:

Ein medizinischer Zugangstest wird konstruiert und durchgeführt, um den Kandidaten für die Zulassung zu MBBS-Kursen auszuwählen. Basierend auf den Bewertungen, die die Kandidaten in diesem Test gemacht haben, geben wir die Kandidaten zu.

Nach Abschluss des Kurses treten sie an der MBBS-Abschlussprüfung auf. Das Ergebnis der MBBS-Abschlussprüfung ist das Kriterium. Die Ergebnisse der Aufnahmeprüfung und der Abschlussprüfung (Kriterium) sind korreliert. Hohe Korrelation impliziert eine hohe prädiktive Gültigkeit.

Ähnliche Beispiele wie andere Rekrutierungstests oder Aufnahmeprüfungen in Landwirtschaft, Ingenieurwesen, Bankwesen, Eisenbahn usw. könnten hier angeführt werden, die eine hohe Vorhersagewahrscheinlichkeit besitzen müssen.

Das heißt, Tests, die für die Rekrutierung, Einstufung und Aufnahmeprüfung verwendet werden, müssen eine hohe Vorhersagekraft haben. Diese Art von Gültigkeit wird manchmal als "empirische Gültigkeit" oder "statistische Gültigkeit" bezeichnet, da unsere Bewertung hauptsächlich empirisch und statistisch ist.

Verjährung:

Wenn wir ein geeignetes Kriteriumsmaß erhalten, mit dem unsere Testergebnisse korreliert werden sollen, können wir die prädiktive Validität eines Tests bestimmen. Es ist jedoch sehr schwierig, ein gutes Kriterium zu erhalten. Darüber hinaus erhalten wir möglicherweise keine Kriteriumskennzahlen für alle Arten von psychologischen Tests.

Typ # 4. Gleichzeitige Gültigkeit:

Gleichzeitige Gültigkeit: Korrelieren der Testergebnisse mit anderen Kriterien.

Gleichzeitigkeit bezieht sich auf den Umfang, in dem die Testergebnisse der bereits festgelegten oder akzeptierten Leistung entsprechen, die als Kriterium bezeichnet wird. Um die Gültigkeit eines neu erstellten Tests zu ermitteln, wird er mit einigen verfügbaren Informationen korreliert oder verglichen.

Daher wird ein Test anhand einiger gleichzeitig verfügbarer Informationen validiert. Die mit einem neu erstellten Test erzielten Ergebnisse werden mit der vorab festgelegten Testleistung korreliert. Angenommen, wir haben einen Intelligenztest vorbereitet.

Wir verabreichen es einer Schülergruppe. Der Stanford-Binet-Test wird auch von derselben Gruppe durchgeführt. Jetzt werden die Testergebnisse unserer neu erstellten Testergebnisse und die Testergebnisse der Schüler des Stanford-Binet Intelligence Tests miteinander korreliert. Wenn der Korrelationskoeffizient hoch ist, wird gesagt, dass unser Intelligenztest eine hohe gleichzeitige Gültigkeit hat.

Die Wörterbuchbedeutung für den Begriff "gleichzeitig" ist "vorhanden" oder "gleichzeitig ausgeführt". Daher wird der Begriff „gleichzeitige Gültigkeit“ verwendet, um den Prozess der Validierung eines neuen Tests zu kennzeichnen, indem seine Bewertungen mit einer vorhandenen oder verfügbaren Informationsquelle (Kriterium) korreliert werden, die möglicherweise kurz vor oder kurz nach dem Test erteilt wurde.

Um die gleichzeitige Gültigkeit eines frisch erstellten Leistungstests zu ermitteln, werden seine Bewertungen mit den Bewertungen der gleichen Schüler in ihrer letzten Erst- oder Abschlussprüfung korreliert. Daher wird ein Test anhand einiger gleichzeitig verfügbarer Informationen validiert. Um ein Kriterium zu erhalten, müssen wir nicht lange warten.

Die vorhersagende Gültigkeit unterscheidet sich von der gleichzeitigen Gültigkeit dahingehend, dass in der früheren Gültigkeit gewartet wird, dass die Zukunft ein Kriteriumsmaß erhält. In Anbetracht der gleichzeitigen Gültigkeit brauchen wir jedoch nicht auf längere Lücken zu warten.

Der Begriff "gleichzeitig" beinhaltet hier die folgenden Merkmale:

1. Die beiden Tests - derjenige, dessen Gültigkeit geprüft wird, und derjenige mit nachgewiesener Gültigkeit - sollen den gleichen Inhaltsbereich auf einer bestimmten Ebene und das gleiche Ziel abdecken.

2. Die Population für beide Tests bleibt gleich und die beiden Tests werden in nahezu ähnlichen Umgebungen durchgeführt. und

3. Die Leistungsdaten beider Tests sind nahezu gleichzeitig verfügbar.

Diese Art der Gültigkeit wird auch als "externe Gültigkeit" oder "funktionale Gültigkeit" bezeichnet. Die gleichzeitige Gültigkeit ist für Tests relevant, die zur Diagnose verwendet werden, nicht für die Vorhersage des zukünftigen Erfolgs.

Typ # 5. Gültigkeit des Konstrukts:

Konstruktgültigkeit Das Ausmaß, in dem der Test als theoretisches Konstrukt oder psychologische Variable gemessen werden kann.

Ein Konstrukt ist hauptsächlich psychologisch. Normalerweise bezieht es sich auf ein Merkmal oder einen mentalen Prozess. Die Konstruktvalidierung ist der Prozess der Bestimmung des Ausmaßes, in dem ein bestimmter Test die psychologischen Konstrukte misst, die der Testmacher zu messen beabsichtigt.

Sie gibt an, inwieweit ein Test die abstrakten Attribute oder Qualitäten misst, die nicht operativ definiert sind.

Gronlund und Linn stellen fest: "Construct-Validierung kann definiert werden als der Prozess der Bestimmung des Ausmaßes, in dem die Testleistung als ein oder mehrere psychologische Konstrukte interpretiert werden kann."

Ebel und Frisbie beschreibt: "Die Validierung von Konstrukten ist der Prozess des Sammelns von Beweisen, um die Behauptung zu stützen, dass ein gegebener Test tatsächlich das psychologische Konstrukt misst, das die Testmacher beabsichtigten, um es zu messen."

Die Gültigkeit des Konstrukts wird auch als "psychologische Gültigkeit" oder "Eigenschaftsgültigkeit" oder "logische Gültigkeit" bezeichnet. Konstruktgültigkeit bedeutet, dass die Testergebnisse in Bezug auf ein Konstrukt untersucht werden. Es untersucht das Konstrukt oder die psychologischen Eigenschaften, die ein Test misst.

Das Ausmaß, in dem der Test die vom Testemacher definierten Persönlichkeitsmerkmale oder mentalen Prozesse misst, wird als Konstruktvalidität des Tests bezeichnet.

Beim Aufbau von Tests zu Intelligenz, Einstellung, mathematischer Eignung, kritischem Denken, Lernfähigkeiten, Angstzuständen, logischem Denken, Leseverständnis usw. müssen Konstruktionsvalidität gefunden werden. Nehmen Sie zum Beispiel "einen Test der Aufrichtigkeit".

Vor dem Aufbau solcher Testtypen wird der Testhersteller mit den Fragen konfrontiert:

1. Wie sollte der Begriff Aufrichtigkeit definiert werden?

2. Welche Verhaltensweisen sind von einer aufrichtigen Person zu erwarten?

3. Welche Art von Verhalten unterscheidet zwischen Aufrichtigkeit und Unaufrichtigkeit?

Jedes Konstrukt hat eine zugrunde liegende Theorie, die zur Beschreibung und Vorhersage des Verhaltens eines Schülers herangezogen werden kann.

Gronlund (1981) schlägt die folgenden drei Schritte zur Bestimmung der Konstruktvalidität vor:

(i) Identifizieren Sie die Konstrukte, von denen angenommen wird, dass sie die Testleistung berücksichtigen.

(ii) Leiten Sie Hypothesen bezüglich der Testleistung aus der jedem Konstrukt zugrunde liegenden Theorie ab.

(iii) Überprüfen Sie die Hypothesen mit logischen und empirischen Mitteln.

Es muss beachtet werden, dass die Gültigkeit des Konstrukts Inferenz ist. Es wird hauptsächlich verwendet, wenn andere Gültigkeitsarten nicht ausreichen, um die Gültigkeit des Tests anzuzeigen. Die Konstruktvalidität wird normalerweise in Bezug auf Lerngewohnheiten, Wertschätzung, Ehrlichkeit, emotionale Stabilität, Sympathie usw. einbezogen.

Typ # 6. Faktorielle Gültigkeit:

Faktorische Gültigkeit Das Ausmaß der Korrelation der verschiedenen Faktoren mit dem gesamten Test.

Die faktorielle Gültigkeit wird durch eine statistische Technik bestimmt, die als Faktoranalyse bekannt ist. Es verwendet Methoden zur Erklärung von Wechselbeziehungen, um Faktoren (die als Fähigkeiten verbalisiert werden können) zu identifizieren, die den Test ausmachen.

Mit anderen Worten werden Interkorrelationsmethoden und andere statistische Methoden verwendet, um die faktorielle Validität zu schätzen. Die Korrelation des Tests mit jedem Faktor wird berechnet, um das Gewicht zu bestimmen, das jeder dieser Faktoren zur Gesamtleistung des Tests beiträgt.

Dies sagt uns über die Faktorladungen. Diese Beziehung der verschiedenen Faktoren mit dem gesamten Test wird als faktorielle Gültigkeit bezeichnet. Guilford (1950) meinte, dass die faktorielle Validität die klarste Beschreibung dessen ist, was Testmessungen mit allen Mitteln vor anderen Validitätstypen zu bevorzugen haben.