Psychologische Tests in der Industrie: Merkmale, Typen und Normen

Die bloße Zusammenstellung von Fragen stellt keinen psychologischen Test dar. Ein Test kann am besten als Messung einer standardisierten Probe menschlichen Verhaltens definiert werden. Als solches muss es bestimmte Grundanforderungen erfüllen. Erstens sollte die Verhaltensstichprobe sowohl groß genug sein als auch repräsentativ genug für die von uns gemessene Verhaltensklasse sein, um eine Verallgemeinerung und Vorhersage der Testergebnisse zu ermöglichen.

Zweitens meinen wir unter Standardisierung des Tests, dass die Reihe von Fragen oder Aufgaben bei jeder Testdurchführung einheitlich verwaltet werden sollte. Schließlich müssen alle psychologischen Tests die Voraussetzungen für Gültigkeit, Zuverlässigkeit und Normen aufweisen.

Wenn Sie eine Reihe von Fragen zusammenstellen, unabhängig davon, ob sie sich auf psychologische Themen beziehen, werden sie nicht auf das Niveau psychologischer Tests erhoben. Zum Beispiel stellen viele Zeitungsspalten und beliebte Bücher der Gesellschaftsspiel-Spielart 88 eine Reihe von Fragen dar; Die Person bewertet die Antworten und bewertet sich selbst mit „ausgezeichnet“, „gut“, „schlecht“ oder „schrecklich“. Dies sind keine psychologischen Tests; Sie sind nur eine Reihe von Fragen.

Natürlich hat ein Individuum oft eine überwältigende Neugier, etwas heimlich herauszufinden, und daher ist der Selbsttestplan sehr beliebt. Der Gegenstand dieser Tests ist in der Regel weit verbreitet. In einer Spalte werden Sie beispielsweise gefragt, ob Sie ein hervorragender Ehemann sind, indem Sie einige Fragen beantworten. Eine Person mag unergründliche Weisheit haben, aber der einzige Weg, einen Test zu entwickeln, um solche Qualitäten zu messen, besteht darin, eine Reihe von Fragen zu haben, die von erfolgreichen Ehemännern (wer auch immer sie sind) auf eine Weise beantwortet werden und in einer völlig anderen Art und Weise erfolglos sind Ehemänner

Testnormen:

Das Thema der Prüfnormen ist von erheblicher Bedeutung und bedarf weiterer Klärung. Normen sollten als Referenz für alle bei der Auswahl verwendeten Tests entwickelt werden. Eine Norm ist ein Referenzstandard; Damit kann man die Bedeutung eines Testergebnisses verstehen. Abhängig vom Test kann eine Rohbewertung auf verschiedene Weise angegeben werden: Gesamtzeit für den Test, Anzahl der korrekten Elemente oder Anzahl der versuchten Elemente sind einige der anhand von Tests erzielten Rohbewertungen.

Tatsächlich ist das reine Ergebnis bei einem psychologischen Test in der Regel eine bedeutungslose Zahl. Bei einem Test kann beispielsweise eine Bewertung von 240 Sekunden schlecht sein, während bei einem anderen Test eine Bewertung von 75 Sekunden außergewöhnlich sein kann. Das Problem ist noch komplizierter, wenn eine Punktzahl von 180 Sekunden mit einer Punktzahl von 95 Elementen verglichen werden muss. Ohne die Verwendung einer Norm wären solche Vergleiche unmöglich; bestenfalls glichen sie einem Versuch, Äpfel und Pfirsiche zu vergleichen.

Die zwei am häufigsten verwendeten Normsysteme sind Perzentile und Standardwerte. Beide Messgrößen geben indirekt Aufschluss über die Testleistung der Personen im Verhältnis zu einer bekannten Population. Sie zeigen auch die relative Position einer Person in der Gruppe zur Gruppe als Ganzes.

Bei einem Test zum Messen der stenographischen Fähigkeit könnte der Rohwert einer Person 105 Wörter pro Minute mit einem Fehler bei der Transkription sein. Wenn wir nicht Informationen über den Geschwindigkeitsbereich haben, der auf vielen Personen basiert, konnten wir nicht wissen, ob diese Geschwindigkeit gut oder schlecht war. Wenn dieser Test jedoch für 155 erwerbstätige Stenographen durchgeführt wurde und die Bewertung dieses Individuums sie auf das 90. Perzentil brachte, könnten wir ihre Fähigkeit schätzen, die Abkürzung als „außergewöhnlich“ zu bezeichnen, da sie 9 von 10 Mädchen übersteigt Abkürzung Geschwindigkeit.

Wenn diese gleiche Person mit einer Geschwindigkeit von 45 Wörtern pro Minute arbeitet und dieser Wert „dem 20-Perzentil entspricht“, können wir feststellen, dass 8 von 10 beschäftigten Stenographen schnellere Schreibkräfte sind. Tatsächlich können dann die Kurz- und Schreibgeschwindigkeit verglichen werden. Auf der Grundlage der verfügbaren Normen können wir einen direkten Vergleich der Leistung dieses Mädchens bei diesen beiden Tests vornehmen. Unsere Schlussfolgerung, dass sie sehr gut Diktat nehmen kann, aber schlecht im Schreiben ist, ist berechtigt. Ob sie eingestellt wird, hängt von den Bedürfnissen des Jobs ab. Es ist sehr wahrscheinlich, dass sie ihre Schreibgeschwindigkeit verbessern müsste, bevor die Arbeitsvermittlung möglich wäre.

Für manche Büroarbeiten ist die Geschwindigkeit von großer Bedeutung, in anderen dagegen ist Genauigkeit wichtiger. Zum Beispiel könnte für die Adressierung von Rundschreiben eher Geschwindigkeit als Genauigkeit angestrebt werden. Andererseits ist für das Ablegen wichtiger Papiere äußerste Genauigkeit erforderlich. Manchmal sind getrennte Normen für Geschwindigkeit und Genauigkeit sowie Normen, die auf einer Kombination der beiden Maße basieren, erforderlich.

Bei der Festlegung von Normen sollten spezifische Informationen nicht nur über die Größe der gemessenen Gruppe verfügbar sein, sondern auch über Fakten wie Alter, ob die Gruppe erwerbstätig ist, ob es sich um eine Universitätsbevölkerung handelt, und ob sie aus einer Gruppe besteht normale nicht ausgewählte Stichprobe.

Zum Beispiel kann eine Person, die im 70. Perzentil einer normalen Bevölkerung einen Intelligenztest durchführt, als überdurchschnittlich intelligent eingestuft werden. Sein wahrscheinlicher Erfolg in einem Grad an einer Hochschule oder Graduiertenschule wäre jedoch fraglich. Mit anderen Worten, eine Norm ist nur dann sinnvoll, wenn die Merkmale der Bevölkerung, auf der sie basiert, bekannt sind.

Arten von Tests:

Psychologische Tests können abhängig vom jeweiligen Zweck des Klassifizierungssystems in verschiedene Gruppen eingeteilt werden. Bevor Sie fortfahren, kann es sinnvoll sein, einige dieser Klassifizierungssysteme in Betracht zu ziehen.

Art des gemessenen Verhaltens:

Wahrscheinlich basiert das am häufigsten verwendete Klassifizierungssystem auf der Art des Verhaltens, das den Messversuch testet. So finden wir Tests, die als Intelligenztests, Persönlichkeitstests, Interessentests, Sehtests, Musiktests, Kunsttests, mechanischen Tests, verbalen Tests usw. bezeichnet werden, wobei jede Gruppe ziemlich verhaltensspezifisch ist.

Leistungs- und Eignungsprüfungen:

Sehr häufig werden Autoren zwischen Eignungsprüfungen und Leistungstests unterscheiden. Ersteres ist angeblich ein Maß für das Potenzial einer Person in einem bestimmten Gebiet, während letzteres ein Maß für die aktuelle Fähigkeit einer Person zum Zeitpunkt des Testens ist. Da ein und derselbe Test je nach Verwendung häufig sowohl als Leistungstest als auch als Eignungstest betrachtet werden kann, ist dieses Klassifizierungssystem oft unscharf.

Mit vielen Tests kann man also:

(1) Messen Sie die Höhe der vorhandenen Fertigkeit und

(2) Verwenden Sie die vorliegende Bewertung, um die zukünftige Leistung vorherzusagen.

Papier-und-Bleistift-Tests und Leistungstests:

Viele Tests sind von Papier und Bleistift:

Der Proband erhält einfach ein Testpapier oder eine gedruckte Broschüre mit den Testfragen und zeichnet seine Antworten schriftlich auf dem Antwortblatt auf, das normalerweise bereitgestellt wird. Bei vielen anderen Tests ist jedoch keine schriftliche Antwort erforderlich, sondern es handelt sich um eine Art Manipulationsaktivität, z. B. das Bearbeiten von Stiften oder Blöcken oder das Zusammenstellen mechanischer Objekte. Diese letzteren Tests werden als Leistungstests bezeichnet.

Geschwindigkeits- und Leistungstests:

Einige Tests sind so aufgebaut, dass jedes Element sehr einfach ist. In kürzester Zeit müssen so viele Elemente wie möglich ausgeführt werden. Wenn die Testleistung hauptsächlich auf der Geschwindigkeit basiert, mit der gearbeitet wird, wird der Test als Geschwindigkeitstest bezeichnet. Das andere Extrem wäre ein Test, bei dem die Gegenstände schwierig waren und der Person so viel Zeit gegeben wurde, wie nötig war, um die Gegenstände fertigzustellen. Bei solchen Tests basiert die Bewertung einer Person ausschließlich auf der Fähigkeit, die Fragen richtig zu beantworten, unabhängig davon, wie lange (natürlich innerhalb eines vernünftigen Rahmens). Diese Art von Test wird als Leistungstest bezeichnet.

Einzel- und Gruppentests:

Es gibt eine Reihe von Tests, die einzeln verwaltet werden sollen. Das heißt, sie können nicht von einem einzigen Prüfer gleichzeitig an zwei oder mehr Personen gegeben werden. Ein Beispiel wäre die Stanford-Binet Intelligence Scale. Häufig werden Einzeltests zur klinischen Bewertung verwendet. Gruppentests sind solche, die von vielen Personen gleichzeitig abgelegt werden können. Für industrielle Tests werden Gruppentests im Allgemeinen bevorzugt, da sie wirtschaftlicher sind.

Sprach- und nichtsprachliche Tests:

Manchmal ist es wichtig, zwischen den Tests zu unterscheiden, die die Kenntnis einer bestimmten Sprache (z. B. Englisch) erfordern, um entweder die Testanweisungen oder die Testobjekte selbst zu verstehen. Alle diese Tests werden Sprachtests genannt, da die Leistung bei ihnen zum Teil von der Sprachfähigkeit des Testteilnehmers abhängt, unabhängig von der Art der Fähigkeit, die der Test messen soll.

In einigen Fällen ist es wünschenswert oder notwendig, die sprachliche Ausrichtung eines Tests zu vermeiden. Zum Beispiel die Prüfung der mechanischen Fähigkeiten von Menschen, die Analphabeten sind, anhand eines Tests, der schriftliche Anweisungen impliziert, wäre völlig ungeeignet. Um dieses Problem zu lösen, wurden Tests in bestimmten Bereichen erstellt, bei denen es sich um sprachfreie Tests handelt. Sie erfordern keine Sprachkenntnisse seitens des Testpersonen. Diese werden als nicht sprachliche Tests bezeichnet.

Tests gegen andere Auswahlgeräte:

In diesem Artikel widmen wir uns ausschließlich der Untersuchung psychologischer Tests. Tests sind jedoch keinesfalls das einzige Vorhersagewerkzeug, das der Psychologe in einer Auswahlsituation einsetzt. Weitere Standardauswahlhilfen sind Empfehlungsschreiben, Bewerbungsunterlagen und Interviews. Umfangreiche Auswahlprogramme verwenden diese zusätzlich zu Tests als Teil des gesamten Auswahlprozesses.

Eine Studie in Kontroverse:

Vielleicht veranschaulicht kein einziger Test die umstrittenen Probleme, die mit industriellen Tests verbunden sind, besser als die Aktivitätsvektoranalyse. Ein kurzer Überblick über die Kontroverse um dieses Bewertungsinstrument sollte einige dieser Schwierigkeiten veranschaulichen. Locke und Hulin (1962) führten eine umfassende Überprüfung der Verwendung dieses Tests als industrielles Auswahlgerät durch. Sie überprüften insgesamt 18 Studien, von denen 17 für den Wert von AVA in der Industrie relevant waren. Die Mehrzahl dieser Studien war jedoch von der Art der gleichzeitigen Gültigkeit, bei der die AVA an die derzeitigen Mitarbeiter vergeben wurde.

Locke und Hulin berichteten, dass es Anhaltspunkte dafür gab, dass es zwischen folgenden unterscheiden könnte:

1. Manager und Produktionsmitarbeiter

2. Führungskräfte und eine gemischte Arbeitergruppe

3. Sieben verschiedene Berufsgruppen, vom Maschinenbediener bis zum Firmenpräsidenten

4. Gute und arme Mitarbeiter in verschiedenen Berufen

In allen anwesenden Mitarbeiterstudien wurden Gültigkeiten jedoch dadurch erzielt, dass ein Schlüssel auf der Grundlage dieser Stichprobe entwickelt wurde und dann der Schlüssel wieder auf die Stichprobe angewendet wurde, auf der der Schlüssel entwickelt wurde - ein Verfahren, das als "Fold-Back" -Validierung bekannt ist. In seltenen Fällen wurde versucht, den erforderlichen Prozess der gegenseitigen Validierung bei einer anderen Gruppe von Angestellten durchzuführen. Locke und Hulin glauben, dass die Autoren der AVA-Studien allzu oft die akzeptierten Grenzen überschritten hatten, als sie den Wert ihrer Ergebnisse diskutierten, und oftmals den Eindruck erwecken, dass ihre Gültigkeit die Vorhersagekraft des Tests anzeigte.

Nur eine Studie verwendete nach Meinung von Locke und Hulin ein echtes Verfahren der prädiktiven Gültigkeit, bei dem ein zuvor entwickelter Wertungsschlüssel vor der Beschäftigung gegeben und später auf Gültigkeit geprüft wurde. In diesem Fall wurde keine Gültigkeit erhalten.

Es scheint, dass eine Entscheidung, dass der AVA einen Vorhersagewert hat, zumindest verschoben werden muss, bis umfangreichere Beweise vorliegen. Hier geht es jedoch nicht nur um den tatsächlichen Wert des Tests, sondern auch um die Diskrepanz zwischen den gemachten Angaben zu ihrem Wert und den tatsächlichen empirischen Befunden. Locke und Hulin sind nicht allein, wenn sie die AVA aufgrund falscher Darstellung von Forschungsergebnissen zur Aufgabe machen. Dunnette und Kirchner (1962) haben die "farbige" Berichterstattung von AVA-Daten durch Meranda und Clarke (1959) heftig protestiert.

In seiner Rezension des AVA für The Fifth Mental Measurement Yearbook von 1959 (1959) ist Bennett auch ziemlich unkompliziert und erklärt: "Der Mumbo-Jumbo von angeblich anspruchsvollen statistischen Verfahren ist kein Ersatz für nachgewiesene Gültigkeit." Dunnette und Kirchner Artikel (1962) und die entsprechende Antwort von Meranda und Clarke in derselben Ausgabe von Journal of Applied Psychology.

Überblick über Persönlichkeitstests in der Industrie:

Ghiselli und Barthol (1953) untersuchten 113 Studien zur Gültigkeit von Persönlichkeitsinventaren bei der Mitarbeiterauswahl. Ihre Ergebnisse sind in Tabelle 4.3 zusammengefasst. Sie kommen zu dem Schluss, dass unter bestimmten Umständen die Bewertungen der Persönlichkeitsinventare besser mit den Kenntnissen in einer breiteren Vielfalt von Arbeitsplätzen korrelieren, als erwartet werden könnte. Die Autoren erkennen sowohl den potenziellen Wert von Persönlichkeitstests in der Industrie als auch die Notwendigkeit einer erheblichen Steigerung und Verbesserung von Forschung und Entwicklung an.