8   Forschungsdesiderata


8.1 Vorbemerkungen

In diesem Kapitel sollen exemplarisch Forschungsdesiderata aufgezeigt werden, die solche Problemstellungen betreffen, die prüfungsdidaktisch von Bedeutung sind, die mehr Licht in die Durchführung von Prüfungen bringen und mittelfristig dazu beitragen können, diese immer mehr zu systematisieren. Um diese Reflexionen konkreter zu gestalten, werden exemplarisch Forschungsdesigns beschrieben, die die tatsächliche Durchführung der in Zukunft notwendig zu klärenden Forschungsfragen fördern und es anderen Forscher(gruppe)n erleichtern sollen, diese Projekte zu realisieren.

Von diesem Verfahren erhoffen wir uns einen erheblichen Katalysatoreffekt, der bewirkt, dass die Prüfungsdidaktik in den kommenden Jahren in intensiver Form erforscht und auf diese Weise immer mehr zu einer wirklichen Wissenschaft wird. Dazu wird an dieser Stelle - gleichsam als Anstoß - ein Überblick über interessante Fragestellungen gegeben. Dabei kann es jedoch nur um eine Auswahl relevanter Ansätze gehen; exhaustiv können sie an dieser Stelle nicht behandelt werden, ohne den Rahmen der vorliegenden Arbeit zu sprengen.

Hinsichtlich des weiteren Verlaufs hier initiierter Forschungsaktivitäten regen wir an dieser Stelle an, dass Kolleginnen und Kollegen sich mit uns in Verbindung setzen mögen, sollten sie sich dazu entschließen, Forschungsprojekte auf dem Gebiet der Prüfungsdidaktik durchzuführen. Auf diese Weise könnten diese Aktivitäten dokumentarisch an einer Stelle zusammenfließen und von dieser koordiniert werden. Wir stellen uns hiermit im Sinne und Interesse der Prüfungsdidaktik als eine solche Stelle wissenschaftlicher Koordination zur Verfügung und appellieren an die wissenschaftliche Gemeinschaft, dieses Verfahren zu fördern. Der neuen Disziplin, die mit dieser Publikation weiter fortgeschrieben wird, würde damit ein erheblicher Dienst erwiesen.

Im Folgenden beschränken wir uns auf den Sprachbereich, wie dies im Übrigen für die gesamte Monographie gilt. Dabei wird zwischen allgemeinen Fragestellungen unterschieden und solchen, die sich auf Prüfungen in den modernen Philologien einerseits und auf die Prüfungen im Rahmen der Fremdsprachenvermittlung andererseits beziehen - auch dies im Sinne eines höheren Grades an Systematizität.

Diesem Ziel dient auch die interne Gliederung des vorliegenden Kapitels auf der Ebene der dargestellten Forschungsprojekte. Hier soll die jeweilige Fragestellung, als die das Forschungsdesiderat formuliert wird, als erste behandelt werden. Im Anschluss daran wird diese begründet. Auf diese Begründung folgen die Vorwissenschaftlichen Annahmen, die zwar noch nicht empirisch abgeklärt sind - was ja in diesem Forschungsprojekt dann später geleistet werden soll -, die aber einer gewissen Plausibilität entsprechen. Daraus folgend, wird die für das jeweilige Forschungsprojekt als relevant zu Grunde gelegte Arbeitshypothese formuliert und - darauf aufbauend -  das sich hieraus ergebende Forschungsdesign beschrieben.

Die im Folgenden behandelten Hauptbereiche an Forschungsdesiderata können graphisch wie folgt veranschaulicht werden:


                    Abb. 95: Forschungsdesiderata: Hauptbereiche



8.2 Allgemeine Forschungsdesiderata

Im Folgenden werden solche Forschungsdesiderata beschrieben, die sich sowohl auf Prüfungen in den modernen Philologien als auch auf Prüfungen im Bereich der Fremdsprachenvermittlung beziehen und die prinzipiell auf Prüfungen allgemein bezogen werden können.


8.2.1 Forschungsprojekt Prüfungsqualität prüfungsdidaktisch ausgebildeter Prüfer gegenüber nicht prüfungsdidaktisch ausgebildeten Prüfern


Fragestellung
Die Grundfrage, die zudem gegebenenfalls die Berechtigung des Faches Prüfungsdidaktik zu unterstreichen vermag, ist diejenige, ob Prüfer, die eine prüfungsdidaktische (Zusatz)Ausbildung genossen haben, in jeglicher Art und Ausprägung hochschulischer Prüfungen - also in mündlichen Prüfungen ebenso wie in Klausuren, der Stellung schriftlicher Abschlussarbeiten (Staatsexamens-, Magisterarbeit; Bachelor- und Master-Thesis; Dissertation) - bessere Prüfer sind als solche, die keinerlei prüfungsdidaktische Ausbildung genossen haben.


Begründung

Wäre diese Frage generell negativ zu beantworten, so würde dieses neue Fach bis in die Grundfesten erschüttert: In diesem Falle wäre das Fach Prüfungsdidaktik mehr oder minder unnötig. Würde die hier gestellte Frage dagegen positiv beantwortet, so unterstriche dieses Ergebnis nachhaltig die Notwendigkeit dieser neuen Disziplin. In diesem Falle müsste die weitere Konstituierung und Verbreitung des Faches Prüfungsdidaktik mit Nachdruck vorangetrieben werden.



Arbeitshypothese
Prüfer, die eine prüfungsdidaktische (Zusatz)Ausbildung erhalten haben, sind in allen Arten und Ausprägungen an sie gestellter, hochschulischer Prüfungsanforderungen bessere Prüfer als solche, die niemals eine wie auch immer geartete prüfungsdidaktische Zusatzausbildung genossen haben.





Vorwissenschaftliche Annahmen

In dem Verständnis, das sich vor der Durchführung dieses Forschungsprojektes ergibt, ist aus Plausibilitätsgründen davon auszugehen, dass solche Prüfer, die die Grundfragen des Prüfens analytisch durchdrungen und gegebenenfalls auch in praktischer Form durchlebt haben, in ihrer Funktion als Prüfer wertvollere - weil reflektierte - Arbeit leisten als solche, die das Prüfen niemals gelernt haben und ihre Arbeit im Sinnes eines trial-and-error-Verfahrens durchführen. Selbstverständlich wird es immer solche Prüfer geben, die gleichsam Naturtalente darstellen und denen das Prüfen so nachhaltig gegeben ist, dass sie keinerlei weitere Unterweisung und kein Feedback von außen benötigen. Realistischerweise ist jedoch davon auszugehen, dass diese prüfungsdidaktischen Naturtalente zahlenmäßig verschwindend gering sind und dass die breite Mehrheit der Prüfer und Prüferinnen der fundierten, angeleiteten Reflexion und ebenso der praktischen Durchführung unter Anleitung - beispielsweise in Form von Rollenspielen - bedürfen. An diese breite Mehrheit wendet sich das Forschungsprojekt.

In diesem Zusammenhang wäre der Begriff prüfungsdidaktische Zusatzausbildung zu definieren, die im Rahmen des nun zu beschreibenden Forschungsdesigns als solche anzuerkennen wäre. Wäre dies die Absolvierung eines mehrsemestrigen Teilstudiums[1] - das bisher ja an keiner deutschen Hochschule angeboten wird - oder lediglich die Teilnahme an Veranstaltungen im Sinne von Wochenendseminaren oder Workshops? Entsprechende Parameter müssten von dem jeweiligen Forscherteam zur Durchführung des nunmehr zu beschreibenden Forschungsdesigns exakt festgelegt werden.


Forschungsdesign

Zu dem vorliegenden Forschungsprojekt sind mehrere Forschungsdesigns vorstellbar, die unterschiedliche Wege zu einem vergleichbaren Ziel repräsentieren. Wir wollen im Folgenden eines dieser denkbaren Designs beschreiben.

Im Rahmen dieses Projekts ist es notwendig, zwei Prüfergruppen zu bilden -  eine Gruppe, die prüfungsdidaktisch geschult ist und die die Experimentalgruppe bildet und eine, die nicht entsprechend geschult ist und die hier als Kontrollgruppe fungiert. Als prüfungsdidaktische Schulung würde sich in diesem Zusammenhang generell eine Teilnahme an mehreren Wochenendseminaren oder an einer einsemestrigen Veranstaltung von zwei Semesterwochenstunden eignen. Realistischerweise wollen wir hier von ersterer Möglichkeit ausgehen, da sie organisatorisch und auch hinsichtlich der Bereitschaft der teilnehmenden Informanden leichter durchführbar und zugänglicher erscheint, obwohl natürlich die Teilnahme an einer zweistündigen, seminarähnlichen Semesterveranstaltung wegen ihrer erhöhten Gründlichkeit und ausgeprägteren Reflexionstiefe wünschenswerter wäre.

Im Sinne der Gruppengröße wollen wir hier von einer Zahl von 50 Prüfern pro Gruppe ausgehen. Diese Zahl erscheint realistisch, und es dürfte möglich sein, ebenso viele Hochschuldozenten zu finden, die sich an der Untersuchung beteiligen - nicht zuletzt um einer Verbesserung und gründlicheren Fundierung der eigenen Arbeit willen.

Im Rahmen dieses Forschungsprojektes sind die folgenden Prüferrollen zu berücksichtigen, in denen beide Gruppen zu beobachten bzw. zu begleiten sind:
·    der Prüfer als Interaktant in mündlichen Prüfungen;
·    der Prüfer als Ersteller von Examensklausuren;
·    der Prüfer als Korrektor von Examensklausuren;
·   der Prüfer als Betreuer von Studienabschlussarbeiten (Staatsexamens- und Magisterarbeiten nach dem traditionellen System; Bachelor- und Master-Arbeiten im Bologna-Zeitalter);
·    der Prüfer als Bewerter von Studienabschlussarbeiten.

Diese Begleitung bzw. Beobachtung sollte vorzugsweise unter realen Bedingungen - also im Rahmen wirklicher Prüfungen - vonstattengehen. Eine Realisierung unter Laborbedingungen wäre zwar ebenso denkbar, könnte die erarbeiteten Ergebnisse jedoch beinträchtigen.

Die erzielten Ergebnisse lassen sich generell in folgender Weise interpretieren:
·   Ergibt sich eine prüfungsdidaktische Überlegenheit der entsprechend geschulten Prüfergruppe, so bestätigt dieses Ergebnis empirisch die Notwendigkeit einer für die Planung und Durchführung von Prüfungen zu fordernden Zusatzausbildung und letztendlich die Notwendigkeit der weiteren Betreibung und des Ausbaus des Faches Prüfungsdidaktik;
·   Ergibt sich eine weitgehende Gleichwertigkeit zwischen der prüfungsdidaktisch geschulten und der nicht entsprechend geschulten Prüfergruppe, so lässt sich aus diesem Ergebnis zwar keine Bestätigung der Notwendigkeit prüfungsdidaktischer Schulungen bzw. der Prüfungsdidaktik selbst folgern, jedoch ebenso wenig das Gegenteil;
·  Ergibt sich eine Überlegenheit der prüfungsdidaktisch nicht geschulten Prüfergruppe, so würde dieses Resultat darauf hindeuten, dass prüfungsdidaktische Schulungen für die Planung und Durchführung effizienter Prüfungen nicht notwendig seien. Ein solches Ergebnis würde zugleich im Hinblick auf die Prüfungsdidaktik insgesamt die Sinnfrage erheben.

A priori steht zu erwarten, dass eine prüfungsdidaktische Schulung von Prüfern für deren Arbeit eher förderlich als hinderlich ist. Ein Ergebnis, das sich von dem zuerst skizzierten unterscheiden würde, würde somit eine Überraschung darstellen. Für jegliches ermittelte Ergebnis gilt jedoch, dass es in zumindest einer Folgeuntersuchung - wünschenswert jedoch in mehreren  - verifiziert werden müsste, um als gesichert gelten zu können. 



8.2.2 Forschungsprojekt Zuverlässigkeit mündlicher Gruppenprüfungen


Fragestellung
Sind mündliche Gruppenprüfungen zuverlässig? Oder sind sie es nicht und sollten unbedingt abgeschafft werden?


Begründung

In einigen wissenschaftlichen Disziplinen  wie z.B. den Rechtswissenschaften - ist es üblich, mündliche Gruppenprüfungen anstelle von Einzelprüfungen durchzuführen, wobei diese jedoch genauso lange dauern, wie die für die gleiche Anzahl von Prüflingen durchgeführten Einzelprüfungen dauern würden. Es erscheint fraglich, ob ein solches Vorgehen wirklich förderlich für die Prüflinge und somit ratsam ist. Vielmehr steht zu fragen, ob mit einem solchen Prüfungsdesign nicht über die eigentliche Prüfung hinausgehende Faktoren, wie beispielsweise die psychische Belastbarkeit der Prüflinge, getestet werden sollen.



Arbeitshypothese
Mündliche Gruppenprüfungen beeinflussen die Leistungen der einzelnen Prüflinge signifikant - entweder in positiver oder in negativer Hinsicht. Sie ermöglichen dagegen nicht die zuverlässige Erhebung des tatsächlichen Leistungspotentials der Prüflinge und wirken somit dem Kriterium der Prüfungsobjektivität entgegen.



Vorwissenschaftliche Annahmen

Die Durchführung mündlicher Gruppenprüfungen erscheint prüfungsdidaktisch nicht sinnvoll und bringt weder Prüfern noch Prüflingen Vorteile - von einem möglichen Zeitvorteil ganz zu schweigen. Sie sind daher kontraproduktiv und zur Erhebung der Leistungs- und Berufsfähigkeit der Prüflinge nicht geeignet. Mündliche Gruppenprüfungen setzen die Prüflinge einem erheblichen Druck aus, der aufgrund der in ihnen und durch sie aktualisierten, unmittelbar zutage tretenden Konkurrenzsituation gegenüber Einzelprüfungen drastisch verstärkt wird. Gerade Prüflinge, die aufgrund ihrer Persönlichkeitsstruktur weniger spontan sind als andere, sind in dieser Situation einem nahezu unvermeidlichen Misserfolg preisgegeben, wohingegen sie in Einzelprüfungen durchaus brillieren könnten: Nicht selten geht eine größere Reflexionstiefe mit geringerer persönlicher Spontaneität einher. In Gruppenprüfungen wird hingegen auf den Zeitfaktor gesetzt: Einem von mehreren Prüflingen wird eine Frage gestellt. Kann er diese nicht unmittelbar beantworten, geht sie an die Mitprüflinge weiter und ist in ihrer Beantwortung für den zuerst gefragten Prüfling somit verloren.

Zudem ist von Bedeutung, dass der Erfolg in Gruppenprüfungen stark mit der Konstellation der jeweiligen Gruppe von Prüflingen zusammenhängt: Ist ein gegebener Prüfling Teil einer starken Gruppe, wird sein Prüfungsergebnis schlechter ausfallen, als wenn er im Rahmen einer schwachen Gruppe geprüft wird. Das Prüfungsergebnis des Einzelnen ist somit mehr oder minder dem Zufall überlassen, wodurch die Objektivität solcher Gruppenprüfungen im Allgemeinen deutlich herabgesetzt wird.


Forschungsdesign

Benötigt werden zwei Experimentalgruppen von je 25 Prüflingen, die aus denselben Personen bestehen. Diese werden je einer Gruppen- und je einer Einzelprüfung unterzogen. Diese Zahl von 25 Probanden ergibt sich aus dem hohen Aufwand, der für dieses Experiment notwendig ist. Bei 25 Probanden werden fünf mündliche Prüfungen notwendig, wenn eine Gruppengröße von fünf Probanden festgesetzt wird. Jede der 25 Einzelprüfungen dauert 30 Minuten, jede der fünf Gruppenprüfungen dauert 2,5 Stunden. Somit ergibt sich für die Durchführung dieser Prüfungen - und damit für die Datenerhebung - eine Nettozeit von zweimal 12,5 Stunden, also insgesamt 25 Stunden.

Um nicht jeden Prüfling insgesamt vier Prüfungen zu unterziehen - zwei Prüfungen, bei denen die Gruppenprüfung die erste und zwei Prüfungen, bei denen die Einzelprüfung die erste Prüfung ist -, sollten die Prüfungen, und insbesondere die Prüfungsfragen, nicht identisch gestaltet sein. Die Fragen in der Gruppen- und der Einzelprüfung sollen jedoch sehr ähnlich sein, ähnliche Gebiete abdecken, und somit in etwa dem gleichen Schwierigkeitsgrad entsprechen. Ob die Gruppen- oder die Einzelprüfung als erste abgehalten wird, ist zweitrangig - vorausgesetzt, diese wird bei allen Probanden auf die gleiche Weise durchgeführt.



8.2.3 Forschungsprojekt Erstellung von Videoaufnahmen in mündlichen Prüfungen


Fragestellung
Ist es ratsam, mündliche Prüfungen generell per Video aufzuzeichnen? Werden mögliche, durch diese Dokumentationsform für die Prüflinge verursachte Nachteile durch die größere, dadurch erzielbare Objektivität aufgewogen?


Begründung

Unter dokumentarischem wie auch unter juristischem Blickwinkel ist es unbestreitbar vorteilhaft, mündliche Prüfungen auf jeglicher Ebene - von der Schule über die Berufsausbildung bis hin zur Universität - per Video zu dokumentieren, anstatt sie dem ephemeren Charakter preiszugeben, der mündlichen Prüfungssituationen inhärent ist.


Arbeitshypothese
Aufgrund der soeben dargestellten Zusammenhänge steht zu erwarten, dass der Einfluss von Videoaufnahmen auf mündliche Prüfungen erheblich und keineswegs fruchtbar ist. Die Durchführung mündlicher Prüfungen mit Hilfe der Videodokumentation beeinflusst die Prüflinge in einem Maße, das diese Maßnahme nicht ratsam erscheinen lässt.
Würde diese Arbeitshypothese falsifiziert, so würde dies das beste denkbare Argument für die Nutzung von Videodokumentationen in mündlichen Prüfungen bereitstellen: Das Forschungs-ergebnis wäre durch eine Falsifizierung dieser negativ formulierten Arbeitshypothese ungleich überzeugender als durch Bestätigung der positiv formulierten Variante der Hypothese.



Vorwissenschaftliche Annahmen

Vom Blickwinkel reiner Prüfungsobjektivität aus gesehen, lässt sich kaum ein Argument gegen die Videodokumentation mündlicher Prüfungen finden.

Unter psychologischem Aspekt ist die Liste anführbarer Gegenargumente hingegen lang. In Auswahl lassen sich die folgenden benennen:
·   Prüflinge können allein durch das Wissen, dass sie gefilmt werden, in ihren spontanen Reaktionen irritiert und somit in ihren Leistungen beeinträchtigt werden;
·    Das sichtbare Vorhandensein der notwendigen Technik verstärkt diesen Effekt;
·    Diese Irritation kann so stark sein, dass  sie - zusätzlich zu dem ohnehin bei den meisten Prüflingen vorhandenen Grad an Nervosität - zu einer völligen Blockade führen kann;
·    Viele Prüflinge sind aufgrund der Videobeobachtung nicht dazu in der Lage, ihre volle Leistungsfähigkeit auszuschöpfen. Die Wahrscheinlichkeit der Verfälschung des Prüfungsergebnisses in unzulässigem Umfang ist somit hoch;
·     Aus juristischen Gründen ist die Durchführung von Prüfungen ohne die Einholung der Genehmigung bzw. ohne das Einverständnis des Prüflings nicht zulässig;
·   Auch Prüfer können sich durch das Wissen um die Videoaufnahme gestört fühlen, was auch ihr Verhalten beeinträchtigen kann. Diese Beeinträchtigung kann sich - in Abhängigkeit von der Persönlichkeit des Prüfers - auf unterschiedliche Weise auswirken. Tendenziell werden seine Fragen jedoch anspruchsvoller werden und er wird sich vor der Kamera im besten Licht darzustellen versuchen, um einen Beweis seiner eigenen Kompetenz zu schaffen. Die Aufmerksamkeit, die dem Prüfling während der Prüfung zuteilwerden sollte, wird dadurch zumindest beeinträchtigt.

Da hier nicht der Ort ist, über die Frage des Videoeinsatzes in mündlichen Prüfungen grundsätzlich zu räsonieren, soll die Erwähnung dieser möglichen Einwände an dieser Stelle genügen. Interessant für uns ist die Frage, ob die möglichen Vorteile dieser Art der Dokumentation ihre Nachteile überwiegen. Diese Vorteile sind - ebenfalls hier nur kurz angeschnitten - die folgenden:
·     Prüfungen werden durch Videodokumentation weniger anfechtbar;
·   Prüfer werden besser kontrolliert, als es ohne Videodokumentation möglich wäre;
·    Für die Forschung kann anschauliches Grundlagenmaterial geschaffen werden, um mündliche Prüfungen langfristig zu verbessern. Prüflinge können nach einer Prüfung ihr Verhalten in dieser besser analysieren - wenn das Material denn auch ihnen zur Verfügung gestellt wird -, um Folgeprüfungen (noch) erfolgreicher zu absolvieren.

Forschungsdesign
Für die Durchführung dieses Projektes ist es notwendig, eine Experimentalgruppe von mindestens 50 Probanden zu bestimmen, die jeweils insgesamt vier mündliche Prüfungen ablegen. Jeder Proband durchläuft dabei in der Rolle des Prüflings die folgenden Einzelprüfungen:
· Prüfung 1 ohne Videomitschnitt über Inhalt A,
· Prüfung 2 mit Videomitschnitt über Inhalt A,
· Prüfung 3 mit Videomitschnitt über Inhalt B,
· Prüfung 4 ohne Videomitschnitt über Inhalt B.

Die Inhalte A und B sind in den Prüfungen 1 und 2 (A) und 3 und 4 (B) identisch. Durch diese thematische Konstanthaltung wird vermieden, dass das Ergebnis des Experiments durch variierende Inhalte verfälscht wird. Das Faktum, dass Probanden in Prüfung 2 und Prüfung 4 die Inhalte und Fragen bereits kennen, wird dadurch kompensiert, dass zwischen diesen Prüfungen ein Zeitraum von mindestens vier Wochen liegen muss. Idealerweise ist daher die Abfolge der Prüfungen die folgende: 1 - 3 - 2 - 4. Diese gewährleistet eine hinreichende inhaltliche Variation, um die jeweils erste Prüfung gleichen Inhalts vergessen zu machen, und ermöglicht zudem die Ansetzung von nur einem Vier-Wochen-Intervall, während bei einer Abfolge der Prüfungen in der Folge 1 - 2 - 3 - 4 insgesamt zwei Vier-Wochen-Intervalle angesetzt werden müssten.

In diesem Falle ist es von Bedeutung, die Experimentalgruppe konstant zu halten, um Verfälschungen zu vermeiden. Sollte es nicht möglich sein, 50 Probanden mit weitgehend dem gleichen Wissensstand zu finden, so können auch solche Probanden ausgewählt werden, die unterschiedliche Wissensstände aufweisen. In diesem Falle müssten diese jedoch binnendifferenziert werden. Bei dieser Art der Realisierung des Experiments geht es dann darum, festzustellen, welche Probanden bei welcher Variante - mit oder ohne Videomitschnitt - am besten abschneiden. Die einzelnen Probanden müssen dann mit sich selbst - auf individueller Ebene - verglichen werden. Von Bedeutung ist, dass dieses Forschungsdesign in beiden Unteransätzen - mit einer Probandengruppe mit einheitlichen Vorkenntnissen oder einer in sich heterogenen, aber binnendifferenzierten Gruppe von Probanden - brauchbare Ergebnisse liefert.

Die Feststellung des Vorwissens erfolgt durch die Erhebung der Kenntnisse der Probanden in der später in den mündlichen Prüfungen zugrunde gelegten wissenschaftlichen Disziplin, beispielsweise Linguistik. Dieser Vortest kann ein Multiple-Choice-Test sein, der für alle Probandengruppen der gleiche sein muss. Er bildet auch die Grundlage für die entsprechende Binnendifferenzierung der Probanden, sollte diese notwendig sein. Eine solche Binnendifferenzierung ist spätestens dann vonnöten, wenn die Streubreite der Prüfungsergebnisse der Probanden in diesem Vortest mehr als 10 Prozent beträgt, wovon mit großer Wahrscheinlichkeit auszugehen ist. Diese Größe von 10 Prozent kann auch die Grundgröße für die multiple Binnendifferenzierung der Probanden darstellen, so dass solche Probanden zusammengruppiert werden, deren Tests Ergebnisse zwischen 100% und 91 % aufweisen, solche, deren Tests Ergebnisse zwischen 90 % und 81 % erbringen, und so weiter.



8.2.4 Forschungsprojekt Vergleichbarkeit von an verschiedenen Hochschulen erhobenen Prüfungsergebnissen


Fragestellung
Sind Prüfungen, die an unterschiedlichen Hochschulen abgenommen werden, per se nicht vergleichbar? Setzt also die Vergleichbarkeit von Prüfungen deren Ablegung an ein und derselben Hochschule - an ein und demselben Ort - voraus?


Begründung

Prüfungsergebnisse, die an unterschiedlichen Hochschulen erhoben werden, gelten bislang als wenig vergleichbar: Einerseits existieren zu viele, kaum kontrollierbare Einflussfaktoren, die einer prinzipiellen Vergleichbarkeit entgegenstehen. Andererseits mag dieser Umstand überbewertet werden, so dass diese Einflussfaktoren weniger bedeutsam sind als bislang angenommen. Nur wenn eine Nichtvergleichbarkeit von an unterschiedlichen Hochschulen durchgeführten Prüfungen nachgewiesen werden kann, ist es langfristig sinnvoll, zentralisierte Prüfungen in den einzelnen (Sprach)Fächern zu organisieren. Ist die Vergleichbarkeit von Prüfungen trotz vorhandener geographischer Disparität gegeben, bedarf es dagegen keiner flächendeckenden Einführung zentralisierter Prüfungen.



Arbeitshypothese
Eine Vergleichbarkeit zwischen Prüfungen, die an verschiedenen Hochschulen durchgeführt werden, ist schwieriger zu realisieren als eine Vergleichbarkeit zwischen solchen Prüfungen, die an ein und derselben Hochschule abgenommen werden.



Vorwissenschaftliche Annahmen

Natürlich wird es gemeinhin leichter sein, Vergleichbarkeit zwischen Prüfungen zu erzielen, die an ein und derselben Hochschule erhoben werden. Diese Aussage gilt jedoch nur unter der Bedingung, dass diese Prüfungen auch zu ein und derselben Zeit abgenommen werden. Bereits dann, wenn eine gleichwertige Prüfung - beispielsweise eine Bachelorklausur zur französischen Fachdidaktik - ein Semester später abgelegt wird, wird diese Vergleichbarkeit reduziert, selbst wenn der Ort der Prüfung der gleiche ist. Vom logischen Standpunkt her ist somit die Vergleichbarkeit von Prüfungen dann ebenso in Gefahr, wenn diese an unterschiedlichen Orten und somit an unterschiedlichen Hochschulen durchgeführt werden, wie dann, wenn sie an ein und demselben Ort und somit an ein und derselben Hochschule abgenommen werden, jedoch zu unterschiedlichen Zeiten. Legt man diese Überlegung zugrunde, dann erkennt man, dass die Vergleichbarkeit von Prüfungen ein kaum erfüllbares Konstrukt zu sein scheint. Dennoch ist sie ein wichtiges Qualitätskriterium; dennoch muss sie erzielbar sein. Vergleichbarkeit hängt somit weniger von der Konstanz von Ort und Zeit ab als vielmehr von der Konstanz der Parameter einer Prüfung. Diese gilt es überindividuell festzulegen und in der Weise zu fixieren, dass sie von verschiedenen Individuen an unterschiedlichen Orten und zu unterschiedlichen Zeiten weitgehend identisch umgesetzt werden.


Forschungsdesign

Für eine gegebene Prüfung ist ein in sich eindeutiger Anweisungstext für die Prüfer zu erstellen, nach dem sie die Prüfung durchführen sollen. Dieser umfasst alle denkbaren Variablen in möglichst detaillierter Form, die nicht nur die eigentliche Prüfung - beispielsweise eine Klausur unter Aufsicht - betreffen, sondern alle mit dieser einhergehenden Umstände, auch solche technischer Art. Diese umfassen die Höchstanzahl der Prüflinge, die Raumgröße, die Anwesenheit der Prüfer in einer vorgegebenen Zahl (entweder absolut oder in Relation zu der Zahl anwesender Prüflinge), die Verwendung möglicher Hilfsmittel etc. Ist die Prüfung eine Klausur, so hat diese identisch zu sein. Handelt es sich um eine mündliche Prüfung, so sind alle Prüferfragen im Vorhinein festzulegen und vollständig und in exakt dieser Form abzuarbeiten.

An mindestens drei verschiedenen Hochschulen ist diese identische Prüfung durchzuführen - und zwar im Anschluss an eine Veranstaltung, die an allen diesen Hochschulen in identischer Form - unter Verwendung des jeweils gleichen (Vorlesungs)Skriptes - abgehalten wurde. Die Gruppe der Studierenden sollte vor Beginn dieser Veranstaltung über ein vergleichbares Vorwissen verfügen. Aus diesem Grunde ist es ratsam, für eine solche Veranstaltung eine Einführung in ein für die Studierenden neues Fachgebiet zu wählen. 

Lassen sich nun auf der Basis dieses Forschungsdesigns solche Ergebnisse erzielen, die in den entsprechenden, durch die Forscher festzulegenden Grenzen als vergleichbar angesehen werden können, so ist zumindest der Beweis dafür erbracht, dass an unterschiedlichen Orten und somit an unterschiedlichen Hochschulen abgelegte Prüfungen nicht notwendigerweise unvergleichbar sein müssen, oder, positiv ausgedrückt, dass die Erzielung von Vergleichbarkeit möglich ist. Dieser Versuch ist dann in unterschiedlichen Fächern und in unterschiedlichen Kontexten in analoger Weise zu wiederholen. Ergibt sich in der breiten Mehrheit der Fälle - wünschenswert wäre hier eine Auslastung von etwa 80 % - ebenso eine Vergleichbarkeit der abgelegten Prüfungen, so kann die Arbeitshypothese als falsifiziert gelten.



8.3 Forschungsdesiderata für Prüfungen in den modernen Philologien

8.3.1 Forschungsprojekt Der Einfluss des Prüferverhaltens auf Prüfung und Prüfling


Fragestellung
Welchen Einfluss hat das Verhalten des Prüfers – als freundlicher, unfreundlicher, abgelenkter, hingebungsvoller, desinteressierter (etc.) Prüfer - auf die Prüfung und den Prüfling? Ist der Einfluss des Prüfers größer oder geringer, als man denken mag?


Begründung

In menschlicher Interaktion ist es unbestreitbar, dass Freundlichkeit Türen öffnet. Die Frage, die sich stellt, ist, ob diese generelle Feststellung, die ein psychologisches Grundmuster darstellt, sich auf mündliche Prüfungssituationen übertragen lässt. Ist also ein freundlicher Prüfer dazu in der Lage, das intellektuelle Potential seiner Prüflinge optimal zutage zu fördern, während ein unfreundlicher und abweisender, vielleicht arroganter Prüfer es dem Prüflingen mehr oder minder verunmöglicht, sich voll zu entfalten, oder besitzen diese angenommenen Zusammenhänge keine Gültigkeit?



Arbeitshypothese
Das Verhalten der Prüfer in mündlichen Prüfungen hat einen entscheidenden Einfluss auf das Prüfungsergebnis und die Note des Prüflings.



Vorwissenschaftliche Annahmen

Es steht zu erwarten, dass die beschriebenen Zusammenhänge Gültigkeit besitzen, dass das Prüferverhalten somit Einfluss auf die Prüfungsergebnisse hat: Das gegenteilige Ergebnis, nach dem jeglicher Einfluss zu negieren sei, widerspräche aller psychologischen Erwartung. Diese Annahme gilt tendenziell allgemein, unabhängig von Art, Umfang und Inhalt der mündlichen Prüfung.


Forschungsdesign

Benötigt werden zwei Probandengruppen von mindestens je 50 Studierenden, die jeweils zwei Prüfungen unterzogen werden. Die eine Hälfte der Probanden legt zunächst eine Prüfung bei einem abweisenden und unfreundlichen Prüfer ab und danach eine Prüfung bei einem freundlichen Prüfer, der auf sie eingeht. Die andere Probandengruppe macht dies umgekehrt. Zwischen beiden Prüfungen liegen mindestens vier Wochen; die Prüfungen selbst sind identisch, die Fragen vorgegeben. Die Prüfer erhalten genaue Verhaltensinstruktionen; gegebenenfalls können als „Prüfer“ sogar Schauspieler herangezogen werden, die in der Lage sind, die von ihnen geforderten Charakterzüge zuverlässig darzustellen.

Die Prüfungen werden zu Dokumentationszwecken gefilmt - mit nachträglich eingeholtem Einverständnis der Probanden. Vor den Prüfungen legen die Prüflinge einen schriftlichen Wissenstest über das später mündlich zu prüfende Fachgebiet (z.B. Linguistik) ab. Auf diese Weise werden die Ergebnisse in zweierlei Hinsicht vergleichbar:
·    individuell im Hinblick auf die beiden Einzelergebnisse der Probanden und
· überindividuell im Hinblick auf solche Probanden, die im Vortest ein vergleichbares (also nicht signifikant unterschiedliches) Ergebnis aufwiesen.

Sollten sich bei einer signifikanten Mehrheit der Probanden signifikant bessere Ergebnisse bei dem freundlichen, zugänglichen Prüfer - und somit signifikant schlechtere Ergebnisse bei dem unfreundlichen, abweisenden Prüfer - ergeben,  so würde die Arbeitshypothese dadurch als verifiziert gelten.



8.3.2 Forschungsprojekt Aufwertung der Sprachpraxisanteile in schriftlichen philologischen Lehramtsprüfungen[2]


Fragestellung
Ist der Anteil der Abprüfung der Beherrschung der Fremdsprache in schriftlichen Philologieprüfungen mit dem Ziel des Lehramtes hinreichend oder sollte dieser Anteil in Qualität und Quantität ausgeweitet werden.


Begründung

Der qualitative und quantitative Anteil der schriftlichen Prüfung der fremdsprachlichen Fertigkeiten der Prüflinge ist im Allgemeinen auch nach Einführung von Bachelor- und Master-Studiengängen weitgehend mit demjenigen vergleichbar, der zu Zeiten von Staatsexamensprüfungen herrschte. Während der fremdsprachliche Anteil in mündlichen Prüfungen in der Regel dadurch abgedeckt wird, dass diese in der jeweiligen Fremdsprache durchgeführt werden, stellt sich im Rahmen der schriftlichen Prüfungen ein komplexeres Bild dar. So ist zu bezweifeln, dass anhand der nicht selten geforderten Erstellung der jeweils geforderten Fachklausuren zur Linguistik, Literaturwissenschaft, Fachdidaktik und Landeswissenschaft die Beherrschung der Fremdsprache in geeigneter Form nachgewiesen werden kann. Ebenso fragwürdig ist es, eine - ebenfalls nicht selten geforderte - (Hin- und / oder Her)Übersetzung als Nachweis fremdsprachlicher Kenntnisse heranzuziehen. Beide Formen der Ermittlung der fremdsprachlichen Fertigkeiten der Prüflinge stellen prüfungsdidaktische Problembereiche dar.



Arbeitshypothese
Die gegenwärtige Situation der Abprüfung fremdsprachlicher Fertigkeiten im philologischen Lehramtsstudium ist unbefriedigend. Die praktizierten Prüfungsformen sind nicht hinreichend valide, da sie nicht das messen, was sie messen sollen. Ebenso ist ihr Umfang nicht hinreichend, da die fachlichen Inhalte der modernen Philologien allzu stark im Vordergrund stehen.



Vorwissenschaftliche Annahmen

Studierende, die ein Lehramt anstreben, sollten in gleichem Rang und mit gleicher Relevanz, mit der sie ihre fachliche - also linguistische, literaturwissenschaftliche, didaktische und / oder landeswissenschaftliche - Qualifikation nachweisen, ihre fremdsprachlichen Fähigkeiten und Fertigkeiten nachweisen müssen. Diese sind als gleichberechtigter Teil ihrer gesamtfachlichen Qualifikation anzusehen und nicht gegenüber jenen hintanzustellen. Im Schulalltag wird die fremdsprachliche Qualifikation - ganz im Gegenteil - gemeinhin als wichtiger und vordringlicher zu betrachten sein als Kenntnisse in Linguistik, Literaturwissenschaft, Fachdidaktik oder Landeswissenschaft, zumal Mängel in diesen sich im Zweifelsfalle rascher und mit vergleichsweise geringerem Aufwand beheben lassen als fremdsprachliche Defizite.

Die erhebliche Bedeutung der sprachpraktischen Fertigkeiten der Prüflinge wie auch die Sicherstellung von deren inhaltlich valider und quantitativ hinreichender Abprüfung, die bis heute nicht adäquat eingeschätzt wird, muss erkannt und entsprechend in die Prüfungspraxis umgesetzt werden. In diesem Zusammenhang kann die Prüfungsdidaktik einen wichtigen Beitrag leisten.

Im Bereich der Klausuren ist somit generell wegzukommen von der traditionellen Übersetzung. Diese Prüfungsform, die für die Ausbildung von Übersetzern - nicht jedoch für diejenige von Fremdsprachenlehrern - von Nutzen sein kann, ist nicht mehr zeitgemäß und sollte daher in den modernen Philologien abgeschafft werden.  

Ebenso ist zweifelhaft, ob der Fachaufsatz unbedingt in der Fremdsprache zu verfassen ist. Es wird empfohlen, von dieser Möglichkeit abzusehen, da:
· die diesem zugrunde liegenden Veranstaltungen zu Linguistik, Literaturwissenschaft, Fachdidaktik und Landeswissenschaft ohnehin mehrheitlich auf Deutsch abgehalten werden[3] und
·    die Prüflinge in ihrem Berufsleben in den seltensten Fällen vor der Notwendigkeit stehen, schriftliche Texte in der Fremdsprache über Linguistik oder Fachdidaktik erstellen zu müssen - es sei denn, sie arbeiten in der Forschung. In den Bereichen Literaturwissenschaft und Landeswissenschaft mag diese Notwendigkeit sich eher ergeben. Dennoch sollte in allen Bereichen auf eine Gleichbehandlung in den Prüfungen hingearbeitet werden. Dabei liegt der gemeinsame Nenner in der Darstellung fachlicher Sachverhalte auf Deutsch[4].

Abhilfe in dieser Situation kann eine neue Klausurkonzeption im sprachpraktischen Teil des Philologiestudiums leisten, die kommunikationsorientiert ist: Es sollten daher vordringlich solche Klausurthemen zugrunde gelegt werden, die allgemeine Themen umfassen, deren Behandlung in der Fremdsprache in der Berufspraxis der künftigen Lehrer wahrscheinlich ist, also beispielhaft im Einzelnen Themenstellungen:
·    zu Interkulturalität und Landeskunde im Sinne solcher Texte, die ein Lehrer für seine Schüler und zur Vorbereitung seines eigenen Unterrichts erstellen wird;
·   zur Literaturinterpretation, die jedoch inhaltlich klar unter dem Niveau rein literaturwissenschaftlicher Analysen liegen muss und deren Zielstellung solche Werkinterpretationen sein sollten, die ein praktizierender Lehrer als Musterlösungen für seine Schüler zu verfassen hat;
·    zu aktuellen Fragen der Politik des bzw. eines  Zielsprachenlandes;
·    zur Zeitgeschichte des oder eines Zielsprachenlandes;
·    zu institutionellen Fragestellungen des oder eines Zielsprachenlandes.

Von unbedingter Bedeutung ist, dass die von den Prüflingen geforderten Textsorten ausnahmslos mit solchen identisch sein müssen, die der künftige Lehrer in seinem Berufsalltag zu verfassen bzw. zu lehren haben wird, einschließlich solcher wie dem englischen Essay oder der französischen Dissertation. Schriftliche Fremdsprachenprüfungen ohne eine solche Berufsrelevanz sind vergleichsweise wertlos, da ihnen die notwendige Validität abgeht.


Forschungsdesign

Für ein solches, weitgehend konzeptionell ausgerichtetes Forschungsprojekt lässt sich kaum ein allgemeingültiges Forschungsdesign erstellen. Eine Möglichkeit besteht jedoch darin, in fiktiven Musterprüfungen das alt hergebrachte System mit dem neuen, hier skizzierten Prüfungssystem zu vergleichen und die in beiden Prüfungsverfahren erzielten Ergebnisse mit solchen Parametern in Beziehung zu setzen, die für (künftige) Lehrer von Bedeutung sind, wie beispielsweise:
·    die Anzahl und Länge von Auslandsaufenthalten;
·   die mentale Aufgeschlossenheit gegenüber der Zielsprachenkultur und gegenüber anderen Kulturen allgemein;
·    dem Interesse an der Fremdsprache;
·    der allgemeinen Kommunikationsfähigkeit der Prüflinge;
·    dem Sprachwissen, über das sie verfügen[5];
·    dem Vermögen, dieses Sprachwissen in Sprachkönnen umzusetzen.

Dabei wird die Feststellung einer Korrelation zwischen diesen Parametern und der von uns skizzierten, neuen Prüfungsform wahrscheinlicher sein als eine Korrelation zwischen diesen und den althergebrachten schriftlichen Fremdsprachenprüfungen.



8.3.3 Forschungsprojekt Mündliche Philologieprüfungen  in der Fremdsprache


Fragestellung
Leidet der Inhalt in mündlichen Philologieprüfungen, wenn diese in der Fremdsprache abgehalten werden?


Begründung

Die hier formulierte Fragestellung drängt sich aus dem Grunde auf, weil sowohl von Professoren im Bereich der modernen Philologien als auch von vielen Lehrern im Bereich der universitären Sprachpraxis - und ebenso auf der Ebene des schulischen Fremdsprachenunterrichts - nicht selten die Behauptung geäußert wird, die Behandlung wissenschaftlicher Themenstellungen bzw. solcher eines gehobenen Niveaus in der Fremdsprache gehe zu Lasten der inhaltlichen Ausbeute. Diese Einstellung ist allgemein weit verbreitet, und ihr ist auf den ersten Blick eine gewisse Plausibilität nicht abzusprechen.




Arbeitshypothese
Entgegen der häufig geäußerten Meinung leiden die Inhalte von in der Fremdsprache durchgeführten mündlichen Philologieprüfungen nicht gegenüber denjenigen von in der Muttersprache durchgeführten Prüfungen.



Vorwissenschaftliche Annahmen

Jeder Dozent, der einmal eine wissenschaftliche Veranstaltung in der Fremdsprache durchgeführt hat - wie beispielsweise ein Linguistik-Hauptseminar auf Französisch -, wird zweifelsohne festgestellt haben, dass einige Studierende aufgrund ihrer nicht hinreichenden Fremdsprachenkenntnisse nicht in der Lage sind, die sachlich geforderten Inhalte in adäquater Form darzustellen. Diese Studierenden stellen jedoch die Minderheit dar. Die breite Mehrheit der Studierenden versucht, die entsprechenden wissenschaftlichen Fakten sachlich angemessen darzustellen. Diese Darstellung geht dann nicht zu Lasten der Inhalte, sondern allenfalls zu Lasten der Sprache: Die gewählte Lexik und die verwendete Grammatik werden bei nicht hinreichenden Sprachkenntnissen der Studierenden zu einem gewissen Grad inkorrekt sein. Die Inhalte jedoch werden im Allgemeinen auf angemessenem Niveau dargestellt und erfolgreich vermittelt. Per se davon auszugehen, dass mündliche Prüfungen, die in der Fremdsprache durchgeführt werden, inhaltlich weniger anspruchsvoll oder gar inadäquat seien, ginge somit entgegen der allgemeinen Plausibilitätsannahme zu weit.


Forschungsdesign

Im Rahmen des Forschungsdesigns dieses Projektes werden die folgende Experimental- und die folgende Kontrollgruppe benötigt:
·  Experimentalgruppe: Eine Anzahl von 50 bis 100 Studierenden, deren Kenntnisse einer gegebenen Fremdsprache zu gleichen Anteilen von mittlerem und zu gleichen Anteilen von hohem Niveau sind;
·    Kontrollgruppe: Die gleiche Anzahl an Studierenden mit quantitativ und qualitativ vergleichbaren Sprachkenntnissen.

Die Erhebung des Sprachkenntnisstandes der Probanden geschieht durch einen kalibrierten C-Test. Die Kalibrierung des C-Tests ist dabei die Voraussetzung dafür, diesen als zuverlässiges Testinstrument einsetzen zu können.

Mit Experimental- und Kontrollgruppe werden mündliche Prüfungen identischer Länge (z.B. 30 Minuten) durchgeführt. Diese Prüfungen sind standardisiert, d.h. die den Studierenden gestellten Fragen sind zuvor festgelegt worden. Das Fachgebiet ist für alle Probanden das gleiche, z.B. die Linguistik des Englischen. Die Prüfer - d.h. die als Prüfer fungierenden Personen - werden konstant gehalten.

Die sprachliche Qualität der Äußerungen der Prüflinge wird anhand eines entsprechend zu erstellenden Rasters hinsichtlich Ausdrucksvermögen, sprachlicher Korrektheit und der Variation des Vokabulars (type-token ratio) analysiert[6]. Die Inhalte der von den Prüflingen beantworteten Fragen und der von ihnen gemachten Äußerungen werden anhand einer von den Prüfern zuvor abgegebenen Vorhersage über die qualitative Tiefe der zu erwartenden Ausführungen der Prüflinge erstellt. Diese Punkte zu standardisieren, wird Teil der Aufgaben des Faches Prüfungsdidaktik sein. Dabei stellt die Standardisierung inhaltlicher Leistungen die im Vergleich schwierigere Aufgabe dar als diejenige der Standardisierung sprachlicher Leistungen - so schwierig diese ihrerseits bereits ist. Die überindividuell erstellte Liste zu erwartender Antworten und deren Tiefe mag in dieser Hinsicht eine akzeptable Lösung darstellen. Dabei ist deren überindividueller Charakter jedoch entscheidend.

Um dies alles zu dokumentieren, sollten Video-Aufnahmen der Prüfungen erstellt werden. Dies dürfen die Probanden jedoch nicht wissen. Daher darf erst nach der Prüfung die Freigabe der erstellten Aufnahmen von ihnen erbeten werden.


8.3.4 Forschungsprojekt Die Auswirkung von Transferfragen auf mündliche Prüfungen


Fragestellung
Sind die Noten der Prüflinge in solchen mündlichen Prüfungen, in denen vom Prüfer mehrheitlich Transferfragen gestellt werden, besser als in solchen Prüfungen, in denen reine Wissensfragen gestellt werden?


Begründung

Im Unterschied zu reinen, gleichsam auswendig lernbaren Wissensfragen werden Transferfragen gemeinhin als höherwertig angesehen, da deren Beantwortung auf der persönlichen Reflexion der Prüflinge basiert. In mündlichen Prüfungen ist es daher interessant festzustellen, ob eine hohe Häufigkeit von Transferfragen wirklich zu signifikant besseren Ergebnissen führt. Das Faktum, dass Transferfragen Wissensfragen inkludieren, dürfte dieses Ergebnis im Grunde zeitigen.



Arbeitshypothese
Transferfragen verbessern die Ergebnisse mündlicher Prüfungen und führen auch zu besseren Noten der Prüflinge. Dieser Unterschied ist als signifikant anzunehmen.



Vorwissenschaftliche Annahmen

Die vorherrschende Verwendung von Transferfragen in mündlichen Prüfungen dürfte zu signifikant besseren Noten für die Prüflinge führen als die ausschließliche Stellung reiner Wissensfragen oder ein hälftiger Anteil von Wissens- und Transferfragen: Möglichkeiten, einen Transfer zu erstellen, ergeben sich nur dann, wenn die faktenorientierte Basis, die diesen Transfer ermöglicht, gegeben ist. Transfer kann somit als Kombination von Faktenwissen und kreativer Anwendung dessen angesehen werden. Dabei kommt es beim Faktenwissen nicht in erster Linie auf die Kenntnis einzelner Informationsbestandteile an, sondern auf das Verständnis der grundlegenden Zusammenhänge des behandelten Themas. Um ein Beispiel zu nennen, kommt es in der Linguistik nicht darauf an, die exakten Lebensdaten Ferdinand de Saussures zu kennen, sondern vielmehr darauf, über die zentralen Aussagen seines Ansatzes Bescheid zu wissen, diese weiterverarbeiten und anwenden zu können.

Pure Fakten helfen mit Blick auf das Verständnis von Theorien nicht immer weiter. Andererseits bedeuten hohe Reproduktionsleistungen nicht unbedingt, dass der Prüfling ein tiefes Verständnis von seinem Fach erworben hat. Wenn er also die genauen Lebensdaten Ferdinand des Saussures kennt, bedeutet dies folgerichtig nicht, dass er viel über Linguistik weiß. Faktenwissen greift somit als Prüfungsinstrumentarium nicht immer in zufriedenstellender Art und Weise. Zudem kann die reine Abfragung von Faktenwissen unschwer auf potentielle Schwachstellen eines Prüflings verweisen und ihn auf der Basis unzureichend memorierter Fakten rasch zu schlechten Noten zu führen.

Lediglich die Kombination von Faktenwissen und dessen Anwendung erlaubt Aussagen darüber, über welche Kenntnisse der Prüfling in dem gegebenen Fach verfügt. Kennt er also die ungefähren Lebensdaten Ferdinand de Saussures bzw. die Epoche, in der dieser lebte, kann er diese in Verbindung bringen mit dem damaligen Entwicklungsstand der Linguistik. Ist er dazu in der Lage, erweist er sich in dieser Frage als Experte und stellt sein Fachwissen erfolgreich zur Schau. Diese Demonstration von Expertenwissen wird ihm jedoch nur durch die Kombination von Faktenwissen und dessen Anwendung - also durch Transfer - möglich.

Transferleistungen stellen somit intellektuelle Leistungen dar, die nicht auf dem Zufallsprinzip basieren: Während die Beantwortung reiner Wissensfragen nicht selten von der Willkür der Auswahl bestimmt wird - ein Prüfling mag die gestellten Wissensfragen beantworten können, andere dagegen nicht oder umgekehrt - stehen Transferleistungen für systematische intellektuelle Fähigkeiten des Prüflings. Sie sind somit auch unter diesem Gesichtspunkt valider als reine Wissensfragen (vgl. hierzu auch Kap. 4.2.6).


Forschungsdesign

Für das vorliegende Forschungsprojekt erforderlich ist die Festlegung einer Experimental- und einer Kontrollgruppe von je 25 bis 50 Studierenden (in Abhängigkeit von dem verfügbaren Budget), die in etwa das gleiche Leistungsniveau aufweisen. Um die Forschungsergebnisse zuverlässiger zu gestalten, sollte dieses Leistungsniveau im mittleren Bereich liegen. Ein hohes Leistungsniveau der Prüflinge könnte zu einer Begünstigung der Ergebnisse hinsichtlich von Transferfragen führen; ein geringeres Leistungsniveau der Probanden könnte dagegen zu einer Begünstigung des Ergebnisses zum Vorteil reiner Wissensfragen führen. Nur die Zugrundelegung eines mittleren Leistungsniveaus der Probanden gewährleistet somit die prinzipielle Offenheit hin zu der möglichen Erzielung beider denkbaren Ergebnisse; nur diese Stoßrichtung gewährleistet die Neutralität hinsichtlich des möglichen Forschungsergebnisses.

Auch in diesem Projekt sollten Videoaufnahmen erstellt werden, was die Probanden nicht wissen dürfen und deren Freigabe von ihnen erst nach der Prüfung erbeten wird.

Zudem ist es von Bedeutung, solche Prüfer für das Projekt auszuwählen, die nicht nur über eine erhebliche Prüfungserfahrung verfügen, sondern auch Erfahrung darin haben - und die Neigung dazu besitzen -, Transferfragen zu stellen: Die Praxis des Prüfens lehrt, dass es für Prüfer ungleich leichter ist, Wissensfragen zu stellen als Transferfragen, weil Transferfragen - im Unterschied zu statischen und weitgehend kontextunabhängig stellbaren Wissensfragen - von dynamischem Charakter und kontextgebunden sind, das Mitdenken des Prüfers voraussetzen und vor allem auch von Seiten des Prüfers Kreativität erfordern.

Ein weiteres Forschungsprojekt, das hier jedoch wegen der Ähnlichkeit der Fragestellung und des Forschungsdesigns nicht weiter ausgeführt zu werden braucht, wird sich in Zukunft auf die Fragestellung beziehen müssen, wie das Verhältnis von reinen Wissens- und Transferfragen in realen, d.h. nicht unter Versuchsbedingungen durchgeführten mündlichen Prüfungen aussieht. Die Plausibilitätsannahme hinsichtlich dieser Fragestellung geht dahin, dass in der Praxis mit erheblicher Wahrscheinlichkeit ungleich mehr Wissens- als Transferfragen gestellt werden, wobei der Anteil letzterer im Allgemeinen unter 30 % liegen dürfte. Sollte sich diese Annahme empirisch bestätigen lassen, dann wird in Zukunft auch auf diesem Feld eine grundlegende Prüferschulung notwendig sein.


8.4  Forschungsdesiderata für Prüfungen im Bereich der Fremdsprachenvermittlung


8.4.1 Forschungsprojekt Separate oder integrierte Prüfung produktiver und rezeptiver sprachlicher Fertigkeiten


Fragestellung 
Sollen die Fertigkeiten Leseverstehen bzw. Hörverstehen zusammen mit den Fertigkeiten Schreibfertigkeit bzw. Sprechfertigkeit geprüft werden oder ist deren prinzipielle Trennung prüfungsdidaktisch vorteilhafter?


Begründung

Eine empirische Untersuchung zu dieser Fragestellung würde Licht bringen in einen Bereich, in dem gegenwärtig zwar mit fundierten Argumenten operiert wird (vgl. Kap. 6.1), in dem jedoch noch keine wirklich gesicherten Aussagen vorliegen: Die Problematik, ob eher eine im Vergleich exaktere Ermittlung der Prüfungsergebnisse angestrebt werden sollte - was für den separierenden Ansatz spräche - oder eher die Nähe zu den Erfordernissen des späteren Berufslebens der Prüflinge - was für den integrierenden Ansatz spräche - ist bisher ungeklärt. Eine Untersuchung wie die hier skizzierte wäre daher dringend erforderlich.



Arbeitshypothese 1
Die integrierte Abprüfung produktiver und rezeptiver sprachlicher Fertigkeiten ist deren separater Abprüfung vorzuziehen, da jene eher den im späteren Berufsleben an die Prüflinge gestellten Anforderungen entspricht. Dieser Vorteil wiegt eine mögliche, größere Exaktheit der Prüfungsergebnisse der separierenden Methode auf.



Entsprechend sollte eine zweite Arbeitshypothese formuliert werden, die die entgegengesetzte Fragestellung abdeckt und die zentraler Teil einer Kontrolluntersuchung wäre:



Arbeitshypothese 2 (Kontrolluntersuchung):
Eine separate Abprüfung der sprachlichen Fertigkeiten Leseverstehen und Schreibfertigkeit ist einer integrierten Abprüfung dieser Fertigkeiten vorzuziehen, da die auf diese Weise erzielbaren Prüfungsergebnisse im Vergleich zuverlässiger sein werden.


Werden mindestens zwei unabhängige Forschungsprojekte durchgeführt, die je eine Richtung abdecken und gehen deren Ergebnisse inhaltlich in die gleiche Richtung, so kann davon ausgegangen werden, dass die entsprechende Arbeitshypothese sich bestätigen lässt.


Vorwissenschaftliche Annahmen

Unter rein logischen Gesichtspunkten ist anzunehmen, dass die separate Abprüfung der beiden genannten sprachlichen Fertigkeiten exaktere Prüfungsergebnisse mit sich bringt als deren integrierte Abprüfung. Wenn diese Annahme wohl auch nicht eigentlich einer empirischen Erhebung bedarf, da sie in dieser Weise bestätigt werden dürfte, ist das beschriebene Forschungsprojekt dennoch notwendig, denn es dient im Idealfalle der Klärung der folgenden, wesentlichen Frage: Ist die im Rahmen des separierenden Ansatzes erfolgende Ermittlung der Prüfungsergebnisse in einem solch hohen Maße zuverlässiger als deren integrierte Abprüfung, dass sie die durch den integrierenden Ansatz gewährleistete Realitätsnähe der Prüfung bei weitem übertrifft oder ist die Exaktheit des Prüfverfahrens lediglich marginal höher? Der separierende Ansatz, der prüfungsdidaktisch eine erhebliche Künstlichkeit aufweist, ist nämlich nur unter der Bedingung zu rechtfertigen, dass die Exaktheit der durch ihn gewährleisteten Prüfungsergebnisse erheblich über derjenigen des integrierenden Ansatzes liegt. Ist hingegen bei dem separierenden Ansatz lediglich ein geringeres Maß größerer Exaktheit festzustellen, so sollte dem integrierenden Ansatz der Vorzug gegeben werden.


Forschungsdesign

Das Forschungsdesign zu diesem Projekt ist recht übersichtlich. Es ist eine Reihe solcher Prüfungen durchzuführen, in denen die Fertigkeiten Leseverstehen und Schreibfertigkeit strikt voneinander getrennt sind. Dies kann zur Abprüfung des Leseverstehens der Probanden etwa dadurch geschehen, dass diese die in einem schriftlich gefassten Text enthaltenen Informationen durch Ankreuzung vorgegebener Antworten im Sinne von Multiple-Choice- oder True-False-Aufgaben wiedergeben müssen. Dies kann jedoch auch dadurch geschehen, dass die Probanden gebeten werden, diese Informationen in ihrer Muttersprache wiederzugeben, wobei zwar auch eine gewisse Sprachproduktion ins Spiel kommt, jedoch die zielsprachliche Schreibfertigkeit nicht berührt wird. Zur Abprüfung der Schreibfertigkeit sollten solche Verfahren verwendet werden, bei denen die Probanden einen schriftlichen Text in der Fremdsprache verfassen müssen, jedoch ohne einen sprachlichen Stimulus dazu zu bekommen. Dies kann beispielsweise in der Weise vonstatten gehen, dass sie ein Schaubild beschreiben oder eine Statistik interpretieren müssen. Es kann ihnen für einen zu verfassenden Aufsatz auch lediglich eine Themenstellung vorgegeben werden, die nicht weiter erläutert wird. In diesen Fällen lässt sich die Prüfungsanforderung eindeutig auf die Schreibfertigkeit beschränken.  

In umgekehrter Richtung - gleichsam als Kontrollverfahren (vgl. Arbeitshypothese 2) - ist eine Reihe von Prüfungen durchzuführen, in denen beide Fertigkeiten dezidiert miteinander verflochten sind. Für die Abprüfung des Leseverstehens können die Probanden - alternativ oder kumulativ - beispielsweise darum gebeten werden, einen schriftlichen Text in der Zielsprache zusammenzufassen, dann Fragen zu ihm zu beantworten und schließlich ihre eigene Meinung zu dem behandelten Thema zu Papier zu bringen. Zur Ermittlung der Schreibfertigkeit kann ihnen beispielsweise ein Aufsatzthema vorgegeben werden, das sie zuerst zu bearbeiten haben. Im Anschluss daran erhalten sie einen Leseverstehenstext, der exakt die gleiche Thematik behandelt wie das Aufsatzthema. Durch die im Rahmen der Schreibaufgabe bereits bewirkte Aktivierung des entsprechenden Teils des mentalen Lexikons der Probanden werden sie mit hoher Wahrscheinlichkeit eine höhere Leseleistung erbringen, als wenn sie den gleichen Leseverstehenstext bekommen hätten, ohne zuvor einen Aufsatz über dieses Thema verfasst zu haben.


8.4.2 Forschungsprojekt Die Bedeutung des Fehlerquotienten in Fremdsprachenklausuren

Die Zugrundelegung eines Fehlerquotienten - wie er auch in der vorliegenden Monographie empfohlen wird - wird im Fremdsprachenbereich recht kontrovers gesehen, also entweder vehement verteidigt oder vollkommen abgelehnt. Unter prüfungsdidaktischen Gesichtspunkten wäre es daher interessant zu erfahren, welche dieser beiden Einschätzungen sich als die realistischere erweist.


Fragestellung
Ist die Bewertung solcher schriftlicher Fremdsprachenklausuren, in denen ein Fehlerquotient für die Ermittlung der sprachlichen Leistung zugrunde gelegt wird, eine andere - eine bessere oder eine schlechtere - als in solchen Prüfungen, denen kein Fehlerquotient zugrunde liegt?


Begründung

Das Faktum, dass ein Fehlerquotient aus sich heraus keine vollkommene Objektivität vermitteln kann, ist grundsätzlich evident. Diese Problematik ist allein schon von der Festsetzung entsprechender Fehlerbereiche und deren Korrelationen mit entsprechenden Noten abhängig: Verändert man diese, ändern sich die von den Prüflingen erzielten Noten zum Besseren oder Schlechteren, was notwendigerweise den Quotienten als solchen in unterschiedlichem Licht erscheinen lässt und seine potentielle Zuverlässigkeit nachhaltig beeinflussen kann.

Aus der entgegengesetzten Argumentationsrichtung ist es kaum vorstellbar, dass Klausurkorrektoren aus dem rein intuitiven, also auf keinerlei Zahlenwerte gestützten Eindruck einer fremdsprachlichen Klausur auf die Qualität der vom Prüfling erbrachten sprachlichen Leistung zu schließen imstande sind. Aus dem rein visuell erfassbaren Anteil der Verteilung roter Korrekturfarbe in einer gegebenen Klausur (vgl. Kap. 7.4.7.1) ist dies ebenso wenig möglich wie auf der Basis einzelner sprachlicher Fehler, die dem Korrektor nach getaner Arbeit zum Zwecke des Erhalts eines allgemeinen Eindrucks ins Auge springen mögen. Diese extrem anmutenden Beispiele lassen bereits deutlich werden, dass eine rein subjektive Einschätzung der Fehlerhaftigkeit einer Fremdsprachenklausur kaum je zu einer zuverlässigen Bewertung oder zu einer gerechten Benotung führen kann.   




Arbeitshypothese
Die Verwendung eines Fehlerquotienten führt zu einer vergleichsweise zuverlässigen Bewertung fremdsprachlicher Schreibfertigkeitsleistungen. Dieser Zuverlässigkeitsgrad ist höher als ein solcher, der unter der Nichtberücksichtigung eines Fehlerquotienten erzielt werden kann.



Vorwissenschaftliche Annahmen

Es steht auf dem Hintergrund der soeben angestellten Reflexionen zu erwarten, dass die Zugrundelegung eines Fehlerquotienten die Zuverlässigkeit der Bewertung schriftlicher fremdsprachlicher Leistungen erhöht. Die Verwendung eines Fehlerquotienten ist somit - trotz möglicherweise vorhandener Vorbehalte - der Nichtnutzung dieses Instrumentes vorzuziehen. Diese Annahme ist begründet auf dem Faktum, dass jegliche Berechnung, jegliche Quantifizierung - so ungenau sie im Einzelfall auch sein mag - der Bildung eines ad-hoc-Eindrucks naturgemäß überlegen ist. Zudem führt die Verwendung eines Fehlerquotienten zu der Notwendigkeit, fremdsprachliche Fehler klassifizieren und in ihrer Schwere definieren zu müssen, was aus sich heraus bereits in einer Erhöhung der Bewertungsexaktheit resultiert. Die Verwendung eines Fehlerquotienten erscheint somit vielversprechend.


Forschungsdesign

Das Forschungsdesign, das in Zusammenhang mit der skizzierten Fragestellung verwendet werden kann, ist ein potentiell multiples. Aus den zur Verfügung stehenden Möglichkeiten kristallisiert sich jedoch recht rasch die folgende, auf drei Säulen beruhende Vorgehensweise heraus:
·   Festlegung einer in sich kohärenten Fehlerquotienten-Progression - ähnlich der in der vorliegenden Monographie vorgeschlagenen Progression (vgl. Kap. 7.4.7.1) - durch Befragung praktisch tätiger Lehrer und Lehrerinnen;
·    Erstellung von bzw. Verwendung bestehender Musterklausuren, die mindestens 50 praktizierenden Lehrern und Lehrerinnen vorgelegt werden, die diese auf der Basis der im ersten Schritt festgelegten Fehlerquotienten-Progression zu bewerten haben. Ziel dieses Schrittes ist die Klärung der Frage, ob die von den Probanden erzielten Bewertungsergebnisse aufgrund dieser Basis in sich homogen sind;
·  Vorlage der gleichen Musterklausuren gegenüber denselben Lehrern und Lehrerinnen mit deren Korrekturen, jedoch unter Tilgung der ermittelten Fehlerquotienten, mit der Aufgabe, spontan - allein aufgrund des visuellen Eindrucks dieser Klausuren - eine Sprachnote festzulegen. Dieser Schritt sollte in hinreichendem zeitlichen Abstand zu dem vorhergehenden Schritt erfolgen, damit die Probanden die Noten der zuvor korrigierten Klausuren nicht mehr in Erinnerung haben.

Auf diese Weise lassen sich die folgenden Problembereiche einer  zumindest ansatzweisen Klärung zuführen:
·   die Erstellung eines überindividuellen Fehlerquotienten mit einer entsprechenden Progression, die im Sinne eines Mittelwertes aus der Arbeit praktizierender Lehrerinnen und Lehrer hervorgeht;
·   der Nachweis der Frage, ob real vorgenommene Bewertungen auf der Basis dieses Fehlerquotienten zu mehr oder minder einheitlichen Bewertungsresultaten führen;
·  die Feststellung einer möglichen Korrelation zwischen dem aufgrund des Fehlerquotienten ermittelten Bewertungsergebnisses mit demjenigen, das auf der Basis des bloßen visuellen Eindrucks erzielt worden ist, und der Versuch der Einschätzung der Frage, welcher Ansatz - derjenige auf der Basis des Fehlerquotienten realisierte oder der intuitive, rein visuelle - die zuverlässigeren Ergebnisse zeitigt.

Das hier vorgestellte Forschungsdesign lässt bereits deutlich werden, wie schwer der Nachweis einer Über- oder Unterlegenheit des Fehlerquotienten methodisch zu führen ist, da in diesem Bereich nicht von einer allein auf Objektivität beruhenden Vergleichsfolie ausgegangen werden kann. Mit Hilfe dieses - aber auch anderer denkbarer - Forschungsdesigns lassen sich somit lediglich Tendenzen ermitteln, die eine zuverlässigere Einschätzung der hier beschriebenen Problematik ermöglichen. Letztlich gültige, gleichsam unumstößliche Aussagen lassen sich mit Hilfe dieser Verfahren dagegen nicht machen.

Bei der Beschreibung dieser Forschungsprojekte wollen wir es im vorliegenden Zusammenhang bewenden lassen. Weitere Projekte zur Prüfungsdidaktik wären unproblematisch hinzuzufügen - die potentielle Liste dieser ist lang -, jedoch würde uns die Berücksichtigung weiterer Projekte nicht weiterbringen: Die hier beschriebenen Forschungsprojekte haben lediglich exemplarischen Charakter und mögen - so ist zu hoffen - ein gewisses Motivationspotential für interessierte Forscher bereithalten.



[1] Von der Implementierung vollständiger Regelstudiengänge im Fach Prüfungsdidaktik wollen wir  in diesem Zusammenhang realistischerweise nicht ausgehen.
[2] Wir verwenden in gegebenem Zusammenhang zur Erleichterung der Kommunikation und zur Vermeidung von Missverständnissen den Begriff Lehramtsstudium – in dem Bewusstsein, dass ein „Lehramtsstudium“ zu Zeiten von Bachelor- und Master-Studiengängen nicht mehr an allen Universitäten und Hochschulen existiert.
[3] Wenn in den modernen Philologien die Erstellung der Fachklausuren in der jeweiligen Fremdsprache verlangt wird, dann müssen die Fachveranstaltungen dieses Gebietes auch ausnahmslos in der Fremdsprache angeboten werden. Solange diese Bedingung nicht erfüllt ist, sollte die Erstellung der Fachklausuren aus Gründen der Fairness auf Deutsch verlangt werden.
[4] Zu betonen ist hier, dass diese Aussage von einem Fachvertreter getroffen wird, der selbst nachdrücklich für die frequentest mögliche Anwendung der zu lehrenden Fremdsprachen im Unterricht steht und auf universitärer Ebene auf den Gebieten Linguistik und Fachdidaktik die Betreuung von Klausuren in den Fremdsprachen vorgenommen hat - also gerade in der Form, von der im gegebenen Zusammenhang abgeraten wird. Die hier getroffene Empfehlung basiert somit auf entsprechenden Erfahrungswerten.
[5] Im vorliegenden Zusammenhang ist es leider nicht möglich, die einzelnen Schritte der hier erwähnten Einzeluntersuchungen explizit zu operationalisieren.
[6] Hier lehnen wir uns bewusst an die von uns beschriebenen Kriterien der Bewertung von Prüfungen zur Sprechfertigkeit an (vgl. Kap. 7.2).