4 wesentliche Kriterien für einen guten Test

Dieser Artikel beleuchtet die vier wesentlichen Kriterien eines guten Tests. Die Kriterien sind: - 1. Zuverlässigkeit 2. Gültigkeit 3. Objektivität 4. Verwendbarkeit.

Kriterium Nr. 1. Zuverlässigkeit:

Die Wörterbuchbedeutung von Zuverlässigkeit ist Konsistenz, Abhängigkeit oder Vertrauen. Ein Messverfahren ist insofern zuverlässig, als wiederholte Messungen für den Einzelnen konsistente Ergebnisse liefern.

Ein Test gilt als zuverlässig, wenn er bei der aufeinanderfolgenden Verwaltung konsistente Ergebnisse liefert. Unter Zuverlässigkeit eines Tests verstehen wir also, wie zuverlässig oder zuverlässig der Test ist. Allgemein ausgedrückt: Wenn ein Messgerät konstant misst, ist es zuverlässig.

Wenn ein Test zuverlässig ist, unterscheiden sich die Bewertungen der Mitglieder einer Gruppe beim erneuten Test mit demselben Test oder mit alternativen Formen desselben Tests nur sehr wenig oder gar nicht von ihren ursprünglichen Werten.

Beispiel 1:

Wenn ein Zeuge dieselbe Aussage zu einer Angelegenheit macht, wenn er von einem Anwalt vor Gericht immer wieder gefragt wird, vertrauen wir seiner Aussage und erachten seine Aussage als zuverlässig.

Beispiel 2

Wenn eine Uhr im Vergleich zur hindustanischen Zeit jeden Tag um 10 Minuten zu spät bleibt, können wir sagen, dass die Uhr ein zuverlässiges Instrument ist.

Beispiel 3:

Nehmen wir an, wir bitten Amit, sein Geburtsdatum anzugeben. Er berichtet, dass es sich um den 13. Juli 1985 handelt. Nach einiger Zeit stellten wir dieselbe Frage und er berichtete dasselbe vom 13. Juli 1985.

Wir können die Frage immer wieder stellen, und wenn die Antwort dieselbe ist, halten wir die Aussage von Amit für verlässlich.

Definitionen:

1. Thorndike:

Es ist die Konsistenz eines Tests, mit dem gemessen wird, was gemessen werden soll. Testzuverlässigkeit wird normalerweise als der Grad betrachtet, in dem der Test keine Kompensationsfehler aufweist.

2. Gronlund und Linn:

Zuverlässigkeit bezieht sich auf die Konsistenz der Messung, d. H. Wie konsistente Testergebnisse oder andere Bewertungsergebnisse von einer Messung zur anderen sind.

3. Anastasi:

Zuverlässigkeit bezieht sich auf die Konsistenz der Bewertungen, die von denselben Personen erzielt wurden, wenn sie bei verschiedenen Gelegenheiten mit demselben Test erneut oder mit unterschiedlichen Sätzen gleichwertiger Gegenstände oder unter variablen Prüfungsbedingungen geprüft wurden.

4. Davis:

Der Grad der relativen Messgenauigkeit eines Satzes von Testergebnissen wird als Zuverlässigkeit definiert.

5. Guilford:

Die Zuverlässigkeit ist der Anteil der wahren Abweichungen der erhaltenen Testergebnisse.

Aus der obigen Diskussion wurde deutlich, dass die Zuverlässigkeit eines Tests das Ausmaß bedeutet, in dem der Test bei aufeinanderfolgender Verabreichung bei derselben Population das gleiche Ergebnis liefert. Andere Bedingungen bleiben konstant. Wenn derselbe Test bei derselben Population zu zwei verschiedenen Gelegenheiten durchgeführt wird und die von den Individuen bei beiden Gelegenheiten erzielten Werte mehr oder weniger gleich sind, gilt der Test als zuverlässig.

Die Zuverlässigkeit eines Tests versucht folgende Fragen zu beantworten:

(i) Wie ähnlich wären die Schülerzahlen, wenn sie denselben Test zu zwei verschiedenen Gelegenheiten erhalten?

(ii) Wie würden sich die Bewertungen ändern, wenn eine andere Auswahl äquivalenter Elemente ausgewählt wird?

(iii) Wie würden sich die Ergebnisse ändern, wenn der Test von einem anderen Torschützen erzielt wird?

(iv) Wie würden sich die Punktzahlen ändern, wenn der Test zu unterschiedlichen Zeiten vom gleichen Torschützen erzielt wird?

Merkmale der Zuverlässigkeit:

Zuverlässigkeit hat folgende Eigenschaften:

(i) Eine Schätzung der Zuverlässigkeit bezieht sich immer auf eine bestimmte Art von Konsistenz.

(ii) bezieht sich auf die Genauigkeit oder Genauigkeit eines Messgeräts.

(iii) Zuverlässigkeit bezieht sich auf die Testergebnisse und nicht auf den Test selbst.

(iv) Es ist der Koeffizient der inneren Konsistenz.

(v) Die Zuverlässigkeit eines Satzes von Messungen ist logisch als der Anteil der Varianz, der echte Varianz ist.

(vi) Dies ist das Maß des variablen Fehlers oder des Zufallsfehlers oder des Messfehlers.

(vii) Zuverlässigkeit ist eine Frage des Grades. Es existiert nicht in allen oder anderen Bereichen.

(viii) Zuverlässigkeit gewährleistet nicht die Gültigkeit, Wahrhaftigkeit oder Zweckmäßigkeit eines Tests.

(ix) Zuverlässigkeit ist eine notwendige, aber keine ausreichende Bedingung für die Gültigkeit. Eine geringe Zuverlässigkeit kann den erzielten Gültigkeitsgrad einschränken, aber eine hohe Zuverlässigkeit bietet keine Gewähr für einen zufriedenstellenden Gültigkeitsgrad.

(x) Zuverlässigkeit ist primär statistischer Natur in dem Sinne, dass die bei zwei aufeinanderfolgenden Gelegenheiten erzielten Bewertungen miteinander korrelieren. Dieser Korrelationskoeffizient wird als Selbstkorrelation bezeichnet und sein Wert wird als "Zuverlässigkeitskoeffizient" bezeichnet.

Zuverlässigkeit und Fehler der Messung:

Die Definitionen der Zuverlässigkeit lassen sich unter drei Überschriften zusammenfassen:

(i) Empirisch,

(ii) logisch und

(iii) Theoretisch.

(i) Empirisch:

Die empirischen Definitionen der Zuverlässigkeit beziehen sich auf das Ausmaß der Korrelation zwischen zwei Sätzen von Bewertungen desselben Tests, die zu unterschiedlichen Zeitpunkten an demselben Individuum durchgeführt wurden.

(ii) Theoretisch:

Die theoretische Bedeutung bezieht sich auf die Konsistenz oder Genauigkeit der Testergebnisse. Dies bedeutet die Zuverlässigkeit eines Testergebnisses.

(iii) logisch:

Die logische Bedeutung von Zuverlässigkeit bezieht sich auf Messfehler.

Die folgende Abbildung kann zum Verständnis des Konzepts der Zuverlässigkeit und Messfehler beitragen:

Zum Beispiel sichert Herr Rohit 52 in einem mentalen Test. Was zeigt 52 an? Spricht es von seiner wahren Fähigkeit? Ist es seine wahre Punktzahl? Rohit könnte sich durch Zufall 52 gesichert haben. Es kann vorkommen, dass Rohit zufällig 52 Testgegenstände kannte und die Punkte etwas anders wären, hätte er diese Punktzahl nicht erreicht.

Alle diese Fragen beziehen sich auf die Tatsache, dass die Messung einige Arten von Fehlern beinhaltet, nämlich persönliche, konstante, variable und interpretatorische Fehler. Dieser Fehler wird als Messfehler bezeichnet. Bei der Bestimmung der Zuverlässigkeit eines Tests müssen wir daher die Anzahl der bei der Messung vorhandenen Fehler berücksichtigen.

Wenn der Zuverlässigkeitskoeffizient perfekt ist (dh 1, 00), wird die Messung genau und es sind keine Fehler mehr vorhanden. Aber die Messung in jedem Bereich beinhaltet einige Fehler. Zuverlässigkeit ist daher nie perfekt.

Eine Bewertung eines Tests kann als ein Index der wahren Bewertung plus Messfehler betrachtet werden.

Gesamtpunktzahl oder tatsächlich erzielte Punktzahl = wahre Punktzahl + Fehlerpunktzahl

Wenn eine Bewertung eine große Komponente der "wahren Bewertung" und eine kleine Fehlerkomponente aufweist, ist sie hoch. und umgekehrt, wenn ein Testergebnis eine kleine Komponente aus "wahrer Bewertung" und großer Komponente "Fehler" aufweist, ist seine Zuverlässigkeit gering.

Die Beziehungen der tatsächlich erhaltenen Bewertung, der tatsächlichen Bewertung und des Fehlers können mathematisch wie folgt ausgedrückt werden:

X = X + e

in der X = Erzielte Punktzahl für eine Person in einem Test.

X = wahre Punktzahl derselben Person

e = die variablen (zufälligen) Fehler.

Messfehler:

Der wahre Wert ist der Durchschnitt der erzielten Bewertungen für eine unendliche Anzahl paralleler Testformen. Jede erzielte Punktzahl ist entweder größer oder kleiner als die tatsächliche Punktzahl. Die Abweichungen der erzielten Bewertungen von den wahren Bewertungen werden als "Messfehler" bezeichnet.

Manchmal sind die Messfehler geringer und manchmal mehr. Wenn andere Dinge gleich sind, werden die Messfehler umso kleiner, je kleiner die Messfehler sind.

Standardfehler der Messung:

Die Messfehler (dh die Abweichung der erzielten Bewertungen von der wahren Bewertung) werden normal verteilt und die Standardabweichung dieser Abweichungen (oder Messfehler) wird als "Standardmessfehler" bezeichnet.

Wir können den Standardfehler der Messung (SE der Messung) herausfinden, wenn der Zuverlässigkeitskoeffizient und die Standardabweichung der Verteilung angegeben sind.

Die Formel zur Berechnung des Standardfehlers der Messung lautet wie folgt:

wobei σ sc = der SE einer erhaltenen Bewertung ist

σ 1 = Standardabweichung der Testergebnisse

r 11 = Zuverlässigkeitskoeffizient des gleichen Tests.

Beispiel 4:

In einer Gruppe von 300 College-Studenten beträgt der Zuverlässigkeitskoeffizient eines Eignungsprüfungstests in der Mathematik 0, 75, der Test M ist 80 und der SD der Punkteverteilung ist 16. John erzielt eine Punktzahl von 86. Was ist das SE dieser Punktzahl? ?

Lösung:

Aus der obigen Formel finden wir das

und die Chancen sind ungefähr 2: 1, dass die erzielte Punktzahl einer Person in der Gruppe von 300 ihren wahren Wert nicht um mehr als ± 8 Punkte (dh ± 1 SE sc ) verfehlt. Das .95-Konfidenzintervall für Johns wahres Ergebnis beträgt 86 ± 1, 96 x 8 oder 70 bis 102.

Verallgemeinernd für die gesamte Gruppe von 300 Schülern können wir davon ausgehen, dass etwa 1/3 ihrer Bewertungen ein Fehler von 8 oder mehr Punkten sind und 2/3 ein Fehler von weniger als diesem Wert.

Kriterium Nr. 2 Gültigkeit:

Die Wörterbuchbedeutung von Gültigkeit ist "gut", "effizient", "Klang". Es bezieht sich auf „Wahrhaftigkeit“. Somit ist alles gültig, was wahrhaftig ist, gut gegründet ist und dem richtigen Zweck dient.

Jeder Test hat seine eigenen Ziele. Es ist für einen bestimmten Zweck konstruiert und für diesen Zweck gültig. Wenn ein Test misst, was er messen möchte, gilt er als gültig. Die Gültigkeit bietet eine direkte Überprüfung, wie gut der Test seine Funktionen erfüllt. Gültigkeit ist die erste Voraussetzung für einen universellen Test.

Zuverlässigkeit kann notwendig sein, ist aber keine hinreichende Gültigkeit. Ein Test kann nur dann gültig sein, wenn er zuverlässig ist. Es kann zuverlässig sein, kann aber nicht als gültig erklärt werden. Die Relevanz eines Tests betrifft die Testmaßnahmen und den Ablauf der Maßnahmen.

Zusammenfassend kann gesagt werden, dass ein Test der Vorhersagefunktion dienen soll, und daher ist der Wert oder die Gültigkeit davon abhängig, inwieweit es ihm gelingt, die Leistung in einigen Arten der realen Situation abzuschätzen.

Beispiel 5

Angenommen, ein Zeuge gibt vor dem Richter eine Aussage ab. Wenn er bei aufeinanderfolgenden Kreuzprüfungen oder Kreuzbefragungen dieselbe Aussage immer wieder wiederholt, ist er als zuverlässiger Zeuge aufzurufen.

Ohne Zweifel kann seine Aussage richtig oder falsch sein. Wenn seine Aussage wahr ist, gilt er als gültiger Zeuge. Aber wenn seine Aussage durchweg falsch ist, ist er zwar zuverlässig, aber nicht gültig.

Beispiel 6:

Wenn eine Uhr 10 Minuten vor der Standardzeit bleibt, ist sie eine zuverlässige Uhr. Weil es jeden Tag mit 10 Minuten schnell ein konsistentes Ergebnis liefert. Unser Ziel ist es, die Zeit richtig zu kennen und wir konnten sie nicht kennen. Der eigentliche Zweck wird also nicht erfüllt. Daher ist es nicht gültig, wie durch "Standardzeit" beurteilt.

Somit wird festgestellt, dass ein Test zwar zuverlässig ist, jedoch möglicherweise nicht gültig ist. Gültige Maßnahmen oder Tests sind jedoch immer zuverlässig. Ein Test, der für einen bestimmten Zweck gültig ist, kann für einen anderen Zweck nicht gültig sein.

Ein Test, der zur Messung der rechnerischen Fähigkeiten von Studenten in Mathematik vorbereitet wurde, kann nur für diesen Zweck gelten, nicht jedoch für die Messung des mathematischen Denkens. Gültigkeit bezieht sich also auf den eigentlichen Zweck des Tests.

Definitionen:

Anne Anastasi:

Schreibt: "Die Gültigkeit eines Tests betrifft, was der Test misst und wie gut er dies tut."

Rummel:

"Die Gültigkeit eines Auswertegeräts ist der Grad, in dem es misst, was es messen soll."

FS Freeman:

"Ein Gültigkeitsindex gibt an, bis zu welchem ​​Grad ein Test misst, was er zu messen vermag, verglichen mit dem akzeptierten Kriterium."

LJ Cronbach:

"Gültigkeit ist der Umfang, in dem ein Test misst, was er zu messen vorgibt."

EF Lindquist:

Gültigkeit ist die Genauigkeit, mit der er das misst, was gemessen werden soll, oder der Grad, zu dem es sich der Unfehlbarkeit nähert, wenn es misst, was es zu messen vorgibt.

Aus der vorstehenden Diskussion geht hervor, dass sich die Gültigkeit auf den "eigentlichen Zweck des Tests" bezieht, und wenn der Zweck erfüllt ist, sollte der Test als gültig betrachtet werden. Ein gültiger Test muss also die Aufgabe erfüllen, die er wollte.

Das Konzept der Gültigkeit eines Tests ist daher hauptsächlich ein Anliegen für die "grundlegende Ehrlichkeit" des Tests. Ehrlichkeit im Sinne von, was man verspricht. Um genau zu sein, bezieht sich Gültigkeit darauf, wie gut ein Werkzeug misst, was es messen möchte.

Art der Gültigkeit:

1. Gültigkeit bezieht sich auf die Richtigkeit oder Zweckmäßigkeit von Testergebnissen, nicht jedoch auf das Instrument selbst.

2. Gültigkeit ist eine Frage des Grades. Es existiert nicht auf der Alles-oder-Nichts-Basis. Ein Instrument, das zur Messung einer bestimmten Fähigkeit entwickelt wurde, kann nicht als vollkommen oder überhaupt nicht gültig bezeichnet werden. Es ist im Allgemeinen mehr oder weniger gültig.

3. Es ist ein Maß für den "konstanten Fehler", während die Zuverlässigkeit das Maß für den "variablen Fehler" ist.

4. Gültigkeit gewährleistet die Zuverlässigkeit eines Tests. Wenn ein Test gültig ist, muss er zuverlässig sein.

5. Gültigkeit ist nicht unterschiedlich. Es ist ein einheitliches Konzept. Es basiert auf verschiedenen Arten von Beweisen.

6. Es gibt keine allgemeine Gültigkeit. Ein Test ist für einen bestimmten Zweck oder eine bestimmte Situation gültig, für andere Zwecke jedoch nicht. Mit anderen Worten, ein Werkzeug ist für einen bestimmten Zweck oder in einer bestimmten Situation gültig; es ist nicht allgemein gültig.

Zum Beispiel können die Ergebnisse eines Vokabeltests für das Testen des Vokabulars äußerst gültig sein, für das Testen der Kompositionsfähigkeit des Schülers jedoch nicht so sehr.

Kriterium Nr. 3. Objektivität:

Objektivität ist das wichtigste Merkmal eines guten Tests. Dies ist eine Voraussetzung für Gültigkeit und Zuverlässigkeit. Objektivität eines Tests ist das Maß, in dem verschiedene Personen das gleiche Ergebnis erzielen.

Lebenslauf gut (1973):

CV Good (1973) definiert Objektivität beim Testen als "das Ausmaß, in dem das Instrument frei von persönlichen Fehlern (persönliche Voreingenommenheit) ist, die Subjektivität des Auswerters ist."

Gronlund und Linn (1995):

"Objektivität eines Tests bezieht sich auf den Grad, zu dem gleichermaßen kompetente Tester die gleichen Ergebnisse erzielen."

Man kann also sagen, dass ein Test als objektiv betrachtet wird, wenn er die persönliche Meinung und die Befangenheit des Messers ausschließt.

Objektivität eines Tests bezieht sich auf zwei Aspekte:

(i) Objektivität der Gegenstände und

(ii) Objektivität der Bewertung.

(i) Objektivität der Gegenstände:

Objektivität der Elemente bedeutet, dass das Element eine eindeutige Einzelantwort erfordern muss. Zielelemente können nicht zwei oder mehr Antworten enthalten. Wenn die Frage anders angegeben wird, tritt ein Unterschied in der Bewertung auf.

Zum Beispiel:

"Erklären Sie das Konzept der Persönlichkeit."

Hier werden die von den Torschützen angegebenen Werte stark variieren, da die Frage nicht eindeutig die Art der richtigen Antwort angibt, die erwartet wird.

Hier kann das Kind alles schreiben, was sich auf die Frage bezieht. Wenn die Antwort von verschiedenen Prüfern bewertet wird, würden sich die Noten definitiv unterscheiden.

Mehrdeutige Fragen, mangelnde Richtung, Doppelfassfragen, Fragen mit Doppelnegativen, allgemeine Aufsatzfragen usw. haben keine Objektivität. Daher ist beim Framing der Fragen viel Vorsicht geboten.

(ii) Objektivität der Bewertung:

Ein Werkzeug ist objektiv, wenn es die gleiche Punktzahl gibt, auch wenn verschiedene Treffer das Objekt bewerten. Objektivität bei der Bewertung kann daher als Konsistenz bei der Bewertung durch verschiedene Treffer betrachtet werden.

In konkreten Situationen stellen wir oft fest, dass die Laune oder die Vorurteile des Gegners die Markierung beeinflussen. Die Fragen, die zu bestimmten Themen befragt werden, für die der Schreiber eine Neigung hat, können mehr Punkte erzielen als die anderen Fragen.

Diese Art von irrationalem Temperament in Bezug auf das Bewertungssystem ist eine Art von subjektiver Behandlung des Lehrplans, die wiederum den Bewertungsprozess beeinflusst. Daher ist Objektivität bei der Bewertung für eine genaue Bewertung sicherzustellen.

Gleichzeitig muss die Subjektivität nicht verurteilt und völlig ausgeschlossen werden, da die meisten Bewertungen in der Realität vorgenommen werden. Eine subjektive Beurteilung, die auf sorgfältiger Beobachtung, vorurteilsfreiem und vorurteilsfreiem Denken und logischer Analyse von Situationen und Phänomenen basiert, kann auch eine genaue Bewertung liefern. Diese Art disziplinierter Subjektivität kann auch in einer Schulsituation eine wichtige Rolle spielen.

Kriterium Nr. 4. Verwendbarkeit:

Usability - Grad, bis zu dem das Evaluierungswerkzeug erfolgreich von den Testbenutzern verwendet werden kann.

Wir haben inzwischen die drei Hauptkriterien eines guten Tests gelesen: Gültigkeit, Zuverlässigkeit und Objektivität. Ein weiteres wichtiges Merkmal eines Werkzeugs ist seine Verwendbarkeit oder Praktikabilität. Bei der Auswahl von Evaluierungswerkzeugen muss nach bestimmten praktischen Aspekten wie Vollständigkeit, einfacher Verwaltung und Bewertung, einfacher Interpretation, Verfügbarkeit vergleichbarer Formulare und Testkosten gesucht werden.

Alle diese Überlegungen veranlassen einen Lehrer, Bewertungsinstrumente zu verwenden, und solche praktischen Überlegungen werden als "Verwendbarkeit" eines Bewertungswerkzeugs bezeichnet. Mit anderen Worten bedeutet Usability, inwieweit das Evaluierungswerkzeug von Lehrern und Schulverwaltern erfolgreich eingesetzt werden kann.

(i) Verständlichkeit:

Die Testobjekte müssen frei von Mehrdeutigkeiten sein. Die Anweisungen zum Testen von Gegenständen und andere Anweisungen zum Test müssen klar und verständlich sein. Die Anweisungen für die Verwaltung und die Anweisungen für das Scoring müssen klar angegeben werden, damit sie leicht verstanden und befolgt werden können. Darüber hinaus muss der Testbenutzer das Verfahren zur Testadministration, zum Scoring und zur Score-Interpretation verstehen.

(ii) Einfache Verabreichung:

Es bezieht sich auf die Leichtigkeit, mit der ein Test durchgeführt werden kann. Jeder Test hat seine eigenen Administrationsbedingungen. Bei der Auswahl eines Tests sollte aus einer Sammlung von Tests ein Test ausgewählt werden, der ohne große Vorbereitung und Schwierigkeiten verabreicht werden kann.

ein. Die einfache Administration umfasst klare und präzise Anweisungen für die Administration. Damit ein Test leicht durchgeführt werden kann, sollten die Anweisungen für den Administrator und die Anweisungen für den Geschmack einfach, klar und vollständig sein.

b. Zeit ist auch ein sehr wichtiger Faktor. Für eine maximale Verwaltung in Schulen ist es üblich, dass ein Test innerhalb einer normalen Unterrichtsstunde abgelegt wird.

(iii) Einfache Bewertung:

Ein Test zur besseren Nutzung sollte leicht zu bewerten sein. Der Bewertungsschlüssel sollte gebrauchsfertig sein und kann leicht beurteilt werden. Manchmal werden die Orte auf der rechten Seite der Fragen als Antworten angezeigt, um Antworten zu geben.

In einigen Fällen werden die Antworten auf separaten Blättern angegeben. Ein idealer Test kann von jedermann oder sogar von einer Maschine bewertet werden, die mit einem Bewertungsschlüssel versehen wurde. Jedem Testobjekt sollten gleiche Punkte zugeordnet werden, um die Bewertung zu erleichtern.

Je nach Realisierbarkeit können entweder Hand-Scoring-Geräte oder Machine-Scoring-Geräte vorgesehen sein.

(iv) Einfache Interpretation:

Wenn die erzielten Testergebnisse leicht zu verstehen und zu interpretieren sind, spricht man von einem guten Test. Zu diesem Zweck sollte das Testhandbuch vollständige Normen für die Interpretation von Bewertungen enthalten, z. B. Altersnormen, Benennungsnormen, Perzentilen-Normen und Standard-Bewertungsnormen. Die Normen erleichtern die Interpretation der Testergebnisse.

(v) Vorbereitung des Tests:

Der Test sollte ein schönes Get-up haben. Dies muss gut und attraktiv aussehen. Die Buchstaben sollten nicht unnötig zu klein oder zu groß sein. Die Qualität des verwendeten Papiers, Typografie und Druck, die Briefgröße, der Abstand, die dargestellten Bilder und Diagramme, die Bindung, der Raum für die Reaktion der Schüler usw. sind zu untersuchen.

(vi) Kosten des Tests:

Der Test sollte nicht zu teuer sein. Die Kosten sollten auf ein mögliches Maß reduziert werden, so dass sie weit verbreitet werden können.