Zum Inhalt springen

Wenn ChatGPT einen Persönlichkeitstest erfindet: Ein Live-Experiment

Dr.  Markus Ebner ,  MSc.

Dr.  Markus Ebner ,  MSc.

Organisationspsychologie
Begründer des PERMA-Lead Modells

In der Welt der Psychologie kursieren zahlreiche Mythen: Intellektuell Hochbegabte haben angeblich mehr Beziehungsprobleme, Autistische Menschen sind meist sind hochbegabt, Handschriften sagen etwas über die Persönlichkeit, bei Vollmond nimmt die Gewalt zu und es gibt Menschen, die überwiegend mit der linken Gehirnhälfte denken und andere mit der rechten. Eines haben diese Annahmen gemeinsam: Sie sind entweder unbewiesen oder sogar wissenschaftlich widerlegt.

Ebenso verhält es sich mit vielen in Organisationen eingesetzten Testverfahren: Oft fehlt der Beweis oder sie stehen im Widerspruch zu aktuellen Forschungsergebnissen. Trotzdem verteidigen viele Anwender diese Tests, da sie sich in den Ergebnissen wiederfinden – ein Phänomen, bekannt als Barnum-Effekt. Dieser wurde von dem Psychologen Bertram R. Forer vor Jahrzehnten in einem Experiment mit seinen Studierenden aufgezeigt. Er gab ihnen einen Persönlichkeitstest, dessen "Ergebnisse" aus einem Astrologiebuch stammten. Alle Studierenden erhielten denselben Text, hielten das Ergebnis jedoch für individuell und zutreffend. Dies illustriert, wie Menschen bereit sind, an die Qualität solcher Tests zu glauben, selbst wenn das Ergebnis nichts mit dem echten Spektrum ihrer tatsächlichen Persönlichkeit zu tun hat.

Das Experiment

In unserem derzeitigen Zeitfenster, in der die Grenzen zwischen Mensch und Maschine immer mehr verschmelzen, kam mir die Frage: Funktioniert das berühmte Forer-Experiment auch heute, unter Einbeziehung modernster Technologien und des aktuellen Wissensstands von Psychologiestudierenden? Zudem fand ich es faszinierend, den Barnum-Effekt nicht nur theoretisch zu vermitteln, sondern ihn auch praktisch erfahrbar zu machen.

Um dies zu untersuchen, setzte ich den Barnum-Effekt in einem realen Experiment mit meinen Masterstudierenden an der Universität Wien ein, wo ich seit Jahren lehre. Mit der Unterstützung von ChatGPT, ein wenig Kreativität und einigen Stunden Aufwand, erfand ich ein Persönlichkeitsmodell, die „Psychostrukturierte Lerntyp-Analyse“. Diese sollte den Studierenden zeigen, zu welchem der vier möglichen Lerntypen sie gehören. Die zufällig getroffene Wahl fiel auf vier Typen, da mir dies als eine sinnvolle Anzahl erschien. Nachdem sich die meisten der problematischen angewandten Tests in der Praxis auf vorwissenschaftliche Konzepte von C.G. Jung oder Marston beziehen, habe ich in meiner Modellentwicklung direkt auf eine der bekanntesten Persönlichkeiten gesetzt: Auf Sigmund Freud!

Mit der Hilfe von künstlicher Intelligenz entwickelte ich ein vermeintlich fundiertes Modell, das nicht nur die vier Lerntypen unterscheidet, sondern auch auf Freuds Erkenntnissen basierend erklärt, wie und warum sich ein individueller Lerntyp entwickelt. Natürlich durfte eine professionelle Kurzbeschreibung für die Glaubwürdigkeit nicht fehlen – und hier kam erneut ChatGPT ins Spiel, um eine kurze Einleitung für den erfundenen Test zu schreiben:

„Im Rahmen unseres kontinuierlichen Bestrebens, Ihre Lernerfahrungen zu verbessern und zu personalisieren, möchten wir Sie herzlich einladen, an einer aufschlussreichen Analyse teilzunehmen. Dieser Fragebogen basiert auf tiefenpsychologischen Erkenntnissen, einem innovativen Ansatz, der darauf abzielt, unterschiedliche Lernstile und Präferenzen im Kontext der Prüfungsvorbereitung zu beleuchten.

Insgesamt nutzt das Modell die psychoanalytischen Konzepte, um die psychologischen Grundlagen des Lernverhaltens von Studierenden in der Prüfungsvorbereitung zu erklären. Es bietet einen tiefen Einblick in die intrapsychischen Prozesse, die hinter verschiedenen Lernstilen stehen.

Haben Sie sich jemals gefragt, warum bestimmte Lernstrategien für Sie besser funktionieren als andere? Oder warum manche Studierende scheinbar mühelos erfolgreich in Prüfungen sind, während andere intensivere Vorbereitung benötigen? Dieses Modell, wissenschaftlich fundiert entwickelt anhand der Theorien Sigmund Freuds, bietet interessante Erkenntnisse für Sie in diese Fragen.

Der folgende Fragebogen ist so gestaltet, dass er Ihnen hilft, Ihre persönlichen Lernstile und -strategien zu reflektieren. Es ist ein Werkzeug, das Ihnen nicht nur Einblicke in Ihre individuellen Präferenzen gibt, sondern auch potenzielle Wege aufzeigt, wie Sie Ihre Prüfungsvorbereitung optimieren können.“

Die Entwicklung des Fragebogens dauerte keine fünf Minuten und brachte erstaunlich plausibel klingende Testfragen hervor. Hier ein kurzer Auszug:

Damit die Typen auch einprägsame Namen haben, wurde jeder Typ von der KI mit einem passenden Tiernamen und einer dazugehörigen Eigenschaft versehen. So kann man eindrücklich feststellen, ob man vom Lerntyp her ein akribischer Adler, eine analytische Eule oder mehr ein intuitiver Löwe oder gar ein krisenerprobtes Kaninchen ist. Und um das Ganze abzurunden, wurde für jeden Lerntypen auch ein passendes Bild entwickelt – selbstverständlich ebenfalls mithilfe der KI. Als Beispiel sehen Sie links einen der erfundenen Typen.

Da es immer faszinierend ist, eine Erklärung dafür zu haben, warum man so ist, wie man ist, wurde auch diese in meinem Experiment mitgeliefert: „Studierende vom Lerntyp Adler zeichnen sich durch ein stark ausgeprägtes ‚Über-Ich‘ aus, das für hohe moralische Standards und Perfektionsstreben steht. Ihr striktes Lernverhalten könnte als Reaktionsbildung gesehen werden, ein Abwehrmechanismus, der unannehmbare Impulse ins Gegenteil verkehrt. So könnte beispielsweise die Angst vorm Scheitern in übermäßige Gewissenhaftigkeit umschlagen.“

Nachdem die Studierenden den Test absolviert hatten, präsentierte ich ihnen das Modell mit einer professionell gestalteten PowerPoint-Präsentation. Ich stellte es als neueste Entwicklung des fiktiven Autorenduos Renbe Sukram & Tahc Tpg an unserer Fakultät vor. Es war erstaunlich, wie leicht es mir gelang, diesen Ansatz als glaubwürdig und wichtig darzustellen, obwohl er lediglich das Resultat meiner eigenen Eingaben und den daraus resultierenden KI-Erzeugnissen war.

Um potenzieller Kritik entgegenzuwirken, orientierte ich mich an Formulierungen bekannter Tests und betonte, dass in uns allen Aspekte aller Typen vorhanden sind, wobei sich meist ein dominierender Typ herausbildet. Dies war eine geschickte Taktik, um alle Testergebnisse zu rechtfertigen. Zusätzlich entwickelte ich mit Hilfe der KI spezifische Tipps für jeden Lerntyp, um die Work-Life-Balance zu verbessern. Hier einige Beispiele für den Typ „Adler“:

Flexibilität erhöhen: Versuchen Sie, etwas flexibler zu sein und nicht zu streng mit sich selbst, um Stress zu vermeiden.

Pausen einplanen: Regelmäßige Pausen sind wichtig, um Überarbeitung und Burnout vorzubeugen.

Perfektionismus hinterfragen: Lernen Sie, dass nicht alles perfekt sein muss, und setzen Sie sich realistische Ziele.

Selbstfürsorge priorisieren: Sorgen Sie für genügend Schlaf, Bewegung und soziale Aktivitäten.

Reflexion üben: Nehmen Sie sich Zeit, um über Ihre Lernmethoden nachzudenken und diese gegebenenfalls anzupassen.

Ich war sehr zufrieden mit dem Verlauf! Das Experiment hatten einen nachvollziehbaren roten Faden: Zunächst eine psychologische Testung, gefolgt von einer fundierten Typen-Erklärung, basierend auf den Lehren einer berühmten Persönlichkeit im Bereich der Psychologie, und abschließend individuelle, maßgeschneiderte Tipps, die wie das Tüpfelchen auf dem i wirken. Was könnte es Besseres geben?

Aber ich wollte noch weiter gehen. In dieser Vorlesung ging es nicht nur um Positive Leadership, sondern auch um das Erlernen von Coachingtechniken. Deshalb trainierten alle Teilnehmerinnen und Teilnehmer ihre Coachingfähigkeiten anhand der Testergebnisse. Ziel war es, die gecoachten Personen dazu anzuregen, ihre Testergebnisse mit konkreten Beispielen zu untermauern und auf dieser Basis ihre Lernstrategien zu verbessern.

Der Test kommt gut an

Am Ende des Seminars führte ich eine anonyme Online-Bewertung der Ergebnisse und eine Einschätzung des Tests durch. Die Ergebnisse waren aufschlussreich: Alle vier Lerntypen wurden identifiziert, wobei "Löwe" mit 45 % am häufigsten und "Adler" mit 5 % am seltensten vorkam. 31 % der Teilnehmenden fanden den Test wenig oder gar nicht hilfreich zur Selbsterkenntnis. immerhin war für die übrigen 69% der Test mindestens mittelmäßig oder sehr hilfreich! Interessanterweise fand niemand (!) die Beschreibung des durch den Test diagnostizierten Lerntyps unzutreffend, 62 % fühlten sich sogar sehr gut oder zumindest gut beschrieben.

Die entscheidende Frage am Ende lautete: „Soll dieser Test samt Beratung an unserer Universität implementiert werden, um Studierende bei der Verbesserung ihrer Lernstrategien zu unterstützen?“ Bedenkt man, dass es sich hierbei um eine der größten Universitäten Europas mit über 80.000 Studierenden handelt, eröffnet sich ein enormes Potential für die Vermarktung eines solchen Tests. Beeindruckende 85 % der Seminarteilnehmenden stimmten mit „Ja“.

Die Enthüllung des Fakes

Dann enthüllte ich die Wahrheit: Ich bat die Studierenden, die Namen der Testautoren rückwärts zu lesen und klärte sie darüber auf, dass diese Test eine reine Erfindung ist. Die Reaktionen variierten von Lachen über Erleichterung bis hin zu Irritation. Die darauf folgende Reflexion war sehr aufschlussreich. Viele waren zunächst irritiert über meine Präsentation eines Freud-basierten Modells als modernster Wissenschaft, vertrauten mir aber aufgrund meiner Position als Universitätsdozent – ein typisches Beispiel für Eminenzbasierung. Andere waren verärgert über sich selbst, da sie in einer kürzlich besuchten Veranstaltung genau diese Effekte gelernt hatten und nun darauf hereingefallen waren. Einige wenige konnte ich trotz meiner überzeugenden Darstellung nicht für dieses Testverfahren gewinnen, sie waren besonders erleichtert, dass alles nur ein Fake war. Ich zweifle, dass ich die Fassade bei unseren kompetenten Psychologiestudierenden noch lange hätte aufrechterhalten können. Einige hatten bereits vor, mich nach testtheoretischen Kennwerten zu fragen – Werte, die ich natürlich nicht hatte. Ebenso wenig hätte ich evidenzbasierte Belege für die Wirksamkeit der praxisbezogenen Tipps vorweisen können.

Was ist das Problem?

Aber wie oft stellen Unternehmen, die sich für ein Testverfahren entscheiden, wirklich tiefgehende Fragen nach testtheoretischen Kennzahlen und evidenzbasierten Belegen? Wie viele Entscheidungsträger in diesen Organisationen sind tatsächlich qualifiziert, um die Bedeutung solcher Kennwerte richtig zu deuten? In meiner jahrzehntelangen Laufbahn als Organisationspsychologe habe ich eine ermutigende Entwicklung beobachtet: Immer mehr Fachkräfte in Personalabteilungen verfügen über die notwendige Ausbildung, um die Qualität solcher Tests zu beurteilen. Und wo dieses Wissen fehlt, werden zunehmend externe Expertinnen und Experten hinzugezogen, um fundierte Entscheidungen zu treffen.

Doch ein gewisses Paradox bleibt bestehen: Zahlreiche Personalverantwortliche, Coaches und Trainer zeigen weiterhin eine Vorliebe für Modelle, die zwar logisch erscheinen und praktisch anwendbar sind, aber jeglicher wissenschaftlicher Grundlage entbehren. Warum ist das so? Meine Vermutung: In ihren Ausbildungen bekommen sie oft nicht die Werkzeuge an die Hand, um die Kennzahlen, die Aufschluss über die Fundierung eines Verfahrens belegen, zu bewerten. Dennoch erleben sie, dass solche Ansätze in der Praxis auf großes Interesse stoßen. Wenn in der Beschreibung eines Tests das Wort „wissenschaftlich“ auftaucht oder Bezug auf prominente Namen genommen wird, wirkt das Ganze auf den ersten Blick seriös. Und wenn dann noch beeindruckende Zahlen, wie die prozentuale Verteilung der Typen in Amerika, oder sogar spezifische physische Merkmale, wie waagerechte Stirnlinien bei einem bestimmten Typ (wie es unglaublicherweise tatsächlich in einem der  Verfahren beschrieben wird), hinzukommen, scheint die Nähe zur Praxis unbestreitbar. Das wird oft noch verstärkt durch eine Liste bekannter Unternehmen, die diese Tests bereits nutzen – wer würde da noch Zweifel hegen und nach den tatsächlichen wissenschaftlichen Fundamenten suchen?

Mit den fortschreitenden Möglichkeiten der Künstlichen Intelligenz kann zukünftig jeder ein eigenes Persönlichkeitsmodell zu allen erdenklichen Themen entwickeln. Der Zeitaufwand dafür ist minimal, die Überzeugungskraft der durch KI generierten Erklärungen hingegen enorm. Wie mein Experiment zeigte, lässt sich auch ein passender Fragebogen rasch erstellen. Ich bin sicher, dass ich ein noch überzeugenderes Modell hätte entwickeln können, wenn ich noch ein paar Stunden mehr investiert hätte. Diese technologischen Entwicklungen bergen jedoch eine große Gefahr: Marketingtechnisch gut aufbereitete, aber wissenschaftlich unhaltbare Testinstrumente und Modelle könnten zukünftig Organisationen überschwemmen.

Ein möglicher Lösungsvorschlag

Es wird daher immer wichtiger, klare Kriterien festzulegen, nach denen entschieden wird, ob ein Test oder Modell in Organisationen zum Einsatz kommen soll. Ich schlage vor, drei entscheidende Aspekte zu überprüfen und kritisch zu beurteilen, um sowohl Seriosität als auch Anwendbarkeit eines Modells zu gewährleisten:

1) Plausibilität: Das Herzstück eines jeden Modells

Ein Modell sollte wie ein gut geschriebenes Buch sein: in sich schlüssig und mit einer klaren, nachvollziehbaren Logik. Warum gerade vier, sechs oder zehn Dimensionen? Diese Entscheidung muss überzeugend begründet werden. Und optimalerweise sollten diese Dimensionen nicht nur gut durchdacht, sondern auch mit den neuesten Theorien untermauert sein. So entsteht ein Modell, das nicht nur nachvollziehbar, sondern auch fundiert ist.

2) Praktikabilität: Der Schlüssel zur Anwendung

Bei der Praktikabilität eines Modells geht es um mehr als nur Theorie. Es stellt sich die Frage: Gibt es effektive Testverfahren, die für die Anwendung in der Praxis aufbereitet sind? Wie lässt sich das Modell in Workshops oder Vorträgen überzeugend vermitteln? Welche didaktischen Methoden sind hierfür geeignet? Ist das Modell in der Praxis verständlich oder zu komplex? Diese Fragen sollte man sich in Bezug auf die Praktikabilität stellen. Je komplexer ein Modell wird, desto mehr entspricht es zwar in der Regel auch der Komplexität von Menschen, aber meist verliert es dadurch an Praktikabilität. Hier braucht es eine gute Ausbalancierung.

3) Wissenschaftliche Fundierung: Die Basis der Glaubwürdigkeit

Hier kommt es auf die harten Fakten an: Welche testtheoretischen Kennzahlen liegen vor? Wie wurden diese mit statistischen Methoden überprüft und entsprechen sie aktuellen wissenschaftlichen Standards? Wichtig sind auch nachlesbare, evidenzbasierte Studien, die die Behauptungen des Modells an großen Stichproben überprüfen. Ein bloßer Verweis auf bekannte Namen oder Unternehmen reicht nicht aus, um die wissenschaftliche Fundierung zu belegen.

Viele in der Praxis beliebte Testverfahren erfüllen zwar die ersten beiden der zuvor genannten Aspekte, werden jedoch in der wissenschaftlichen Gemeinschaft meist negiert oder sogar klar widerlegt. Auf der anderen Seite neigen wissenschaftlich fundierte Modelle dazu, die Praktikabilität zu vernachlässigen oder sind in einer solchen Fachsprache verfasst, dass ihre Plausibilität in der Praxis nicht ersichtlich ist. Sie finden daher meist nur in wissenschaftlichen Publikationen Verwendung. Wenn es ein Anliegen ist, fundierte Forschung und praktische Anwendung zu verzahnen, dann braucht es eine Kombination aus den Erwartungen in Wissenschaft und Praxis. In einer guten Verknüpfung wird es daher zukünftig wichtig sein, alle drei Aspekte zu vereinen.

In der Nachbesprechung meines Experiments zeigte ich meinen Studierenden verschiedene typologische Testverfahren, die in Organisationen eingesetzt werden. Die Namen der Verfahren sind in der Praxis oft sehr bekannt, meine Studierenden kannten keinen einzigen. Und als sie sich die Manuale durchgelesen hatten, und ich ihnen erklärt habe, dass sie auf diese Tests in der Praxis treffen werden, wähnten sich einige schon wieder im nächsten Experiment.

Letztlich war es eine ungemein bereichernde Erfahrung für uns alle. Eine Erfahrung, die zweifellos nachwirken und den Studierenden helfen wird, zukünftig ihnen vorgelegte Testverfahren mit der notwendigen kritischen Haltung zu begegnen.

Über den/die Autor*in

Dr. Markus Ebner, MSc.

Organisationspsychologie
Begründer des PERMA-Lead Modells

Er unterrichtet an mehreren Universitäten und Fachhochschulen den Schwerpunkt Führung, hat in diesem Bereich zahlreiche Bücher und Publikationen verfasst und verfügt über Zusatzausbildungen in Coaching, Supervision, Krisenintervention, Sozialpädagogik sowie Organisations- und Teamentwicklung. Neben seiner mehr als 20-jährigen Tätigkeit als Trainer, Coach und Berater ist er der Begründer des PERMA-Lead Modells und als einer der namhaften europäischen Experten für Positive Leadership im Board of Directors des Österreichischen Dachverbands für Positive Psychologie. 2021 wurde er für seine Arbeit vom Weltdachverband für Positive Psychologie (IPPA) mit dem „Exemplary Research to Practice Award“ ausgezeichnet.