8 Forschungsdesiderata
8.1 Vorbemerkungen
In diesem Kapitel sollen exemplarisch Forschungsdesiderata aufgezeigt
werden, die solche Problemstellungen betreffen, die prüfungsdidaktisch von Bedeutung
sind, die mehr Licht in die Durchführung von Prüfungen bringen und
mittelfristig dazu beitragen können, diese immer mehr zu systematisieren. Um
diese Reflexionen konkreter zu gestalten, werden exemplarisch Forschungsdesigns
beschrieben, die die tatsächliche Durchführung der in Zukunft notwendig zu
klärenden Forschungsfragen fördern und es anderen Forscher(gruppe)n erleichtern
sollen, diese Projekte zu realisieren.
Von diesem Verfahren erhoffen wir uns einen erheblichen Katalysatoreffekt,
der bewirkt, dass die Prüfungsdidaktik in den kommenden Jahren in intensiver
Form erforscht und auf diese Weise immer mehr zu einer wirklichen Wissenschaft
wird. Dazu wird an dieser Stelle - gleichsam als Anstoß - ein Überblick über interessante
Fragestellungen gegeben. Dabei kann es jedoch nur um eine Auswahl relevanter
Ansätze gehen; exhaustiv können sie an dieser Stelle nicht behandelt werden,
ohne den Rahmen der vorliegenden Arbeit zu sprengen.
Hinsichtlich des weiteren Verlaufs hier initiierter
Forschungsaktivitäten regen wir an dieser Stelle an, dass Kolleginnen und
Kollegen sich mit uns in Verbindung setzen mögen, sollten sie sich dazu entschließen,
Forschungsprojekte auf dem Gebiet der Prüfungsdidaktik durchzuführen. Auf diese
Weise könnten diese Aktivitäten dokumentarisch an einer Stelle zusammenfließen
und von dieser koordiniert werden. Wir stellen uns hiermit im Sinne und
Interesse der Prüfungsdidaktik als eine solche Stelle wissenschaftlicher
Koordination zur Verfügung und appellieren an die wissenschaftliche
Gemeinschaft, dieses Verfahren zu fördern. Der neuen Disziplin, die mit dieser
Publikation weiter fortgeschrieben wird, würde damit ein erheblicher Dienst
erwiesen.
Im Folgenden beschränken wir uns auf den Sprachbereich, wie dies im
Übrigen für die gesamte Monographie gilt. Dabei wird zwischen allgemeinen
Fragestellungen unterschieden und solchen, die sich auf Prüfungen in den
modernen Philologien einerseits und auf die Prüfungen im Rahmen der
Fremdsprachenvermittlung andererseits beziehen - auch dies im Sinne eines
höheren Grades an Systematizität.
Diesem Ziel dient auch die interne Gliederung des vorliegenden Kapitels
auf der Ebene der dargestellten Forschungsprojekte. Hier soll die jeweilige Fragestellung, als die das Forschungsdesiderat
formuliert wird, als erste behandelt werden. Im Anschluss daran wird diese
begründet. Auf diese Begründung
folgen die Vorwissenschaftlichen Annahmen,
die zwar noch nicht empirisch abgeklärt sind - was ja in diesem
Forschungsprojekt dann später geleistet werden soll -, die aber einer gewissen
Plausibilität entsprechen. Daraus folgend, wird die für das jeweilige
Forschungsprojekt als relevant zu Grunde gelegte Arbeitshypothese formuliert und - darauf aufbauend - das sich hieraus ergebende Forschungsdesign beschrieben.
Die im Folgenden behandelten Hauptbereiche an Forschungsdesiderata können
graphisch wie folgt veranschaulicht werden:
Abb. 95: Forschungsdesiderata: Hauptbereiche
8.2 Allgemeine
Forschungsdesiderata
Im Folgenden werden solche Forschungsdesiderata beschrieben, die sich
sowohl auf Prüfungen in den modernen Philologien als auch auf Prüfungen im
Bereich der Fremdsprachenvermittlung beziehen und die prinzipiell auf Prüfungen
allgemein bezogen werden können.
8.2.1 Forschungsprojekt Prüfungsqualität
prüfungsdidaktisch ausgebildeter Prüfer gegenüber nicht prüfungsdidaktisch ausgebildeten
Prüfern
Fragestellung
Die Grundfrage, die zudem gegebenenfalls
die Berechtigung des Faches Prüfungsdidaktik zu unterstreichen vermag, ist
diejenige, ob Prüfer, die eine prüfungsdidaktische (Zusatz)Ausbildung genossen
haben, in jeglicher Art und Ausprägung hochschulischer Prüfungen - also in
mündlichen Prüfungen ebenso wie in Klausuren, der Stellung schriftlicher Abschlussarbeiten
(Staatsexamens-, Magisterarbeit; Bachelor- und Master-Thesis; Dissertation) -
bessere Prüfer sind als solche, die keinerlei prüfungsdidaktische Ausbildung
genossen haben.
Begründung
Wäre diese Frage generell negativ zu beantworten, so würde dieses neue
Fach bis in die Grundfesten erschüttert: In diesem Falle wäre das Fach Prüfungsdidaktik mehr oder minder unnötig.
Würde die hier gestellte Frage dagegen positiv beantwortet, so unterstriche
dieses Ergebnis nachhaltig die Notwendigkeit dieser neuen Disziplin. In diesem
Falle müsste die weitere Konstituierung und Verbreitung des Faches Prüfungsdidaktik mit Nachdruck vorangetrieben
werden.
Arbeitshypothese
Prüfer,
die eine prüfungsdidaktische (Zusatz)Ausbildung erhalten haben, sind in allen
Arten und Ausprägungen an sie gestellter, hochschulischer Prüfungsanforderungen
bessere Prüfer als solche, die niemals eine wie auch immer geartete
prüfungsdidaktische Zusatzausbildung genossen haben.
Vorwissenschaftliche
Annahmen
In dem Verständnis, das sich vor der Durchführung dieses
Forschungsprojektes ergibt, ist aus Plausibilitätsgründen davon auszugehen,
dass solche Prüfer, die die Grundfragen des Prüfens analytisch durchdrungen und
gegebenenfalls auch in praktischer Form durchlebt haben, in ihrer Funktion als
Prüfer wertvollere - weil reflektierte - Arbeit leisten als solche, die das Prüfen
niemals gelernt haben und ihre Arbeit im Sinnes eines trial-and-error-Verfahrens durchführen. Selbstverständlich wird es
immer solche Prüfer geben, die gleichsam Naturtalente darstellen und denen das
Prüfen so nachhaltig gegeben ist, dass sie keinerlei weitere Unterweisung und
kein Feedback von außen benötigen. Realistischerweise ist jedoch davon
auszugehen, dass diese prüfungsdidaktischen Naturtalente zahlenmäßig
verschwindend gering sind und dass die breite Mehrheit der Prüfer und
Prüferinnen der fundierten, angeleiteten Reflexion und ebenso der praktischen
Durchführung unter Anleitung - beispielsweise in Form von Rollenspielen - bedürfen.
An diese breite Mehrheit wendet sich das Forschungsprojekt.
In diesem Zusammenhang wäre der Begriff prüfungsdidaktische Zusatzausbildung zu definieren, die im Rahmen
des nun zu beschreibenden Forschungsdesigns als solche anzuerkennen wäre. Wäre
dies die Absolvierung eines mehrsemestrigen Teilstudiums[1]
- das bisher ja an keiner deutschen Hochschule angeboten wird - oder lediglich die
Teilnahme an Veranstaltungen im Sinne von Wochenendseminaren oder Workshops?
Entsprechende Parameter müssten von dem jeweiligen Forscherteam zur
Durchführung des nunmehr zu beschreibenden Forschungsdesigns exakt festgelegt
werden.
Forschungsdesign
Zu dem vorliegenden Forschungsprojekt sind mehrere Forschungsdesigns
vorstellbar, die unterschiedliche Wege zu einem vergleichbaren Ziel repräsentieren.
Wir wollen im Folgenden eines dieser denkbaren Designs beschreiben.
Im Rahmen dieses Projekts ist es notwendig, zwei Prüfergruppen zu bilden
- eine Gruppe, die prüfungsdidaktisch
geschult ist und die die Experimentalgruppe bildet und eine, die nicht
entsprechend geschult ist und die hier als Kontrollgruppe fungiert. Als
prüfungsdidaktische Schulung würde sich in diesem Zusammenhang generell eine
Teilnahme an mehreren Wochenendseminaren oder an einer einsemestrigen Veranstaltung
von zwei Semesterwochenstunden eignen. Realistischerweise wollen wir hier von
ersterer Möglichkeit ausgehen, da sie organisatorisch und auch hinsichtlich
der Bereitschaft der teilnehmenden Informanden leichter durchführbar und
zugänglicher erscheint, obwohl natürlich die Teilnahme an einer zweistündigen,
seminarähnlichen Semesterveranstaltung wegen ihrer erhöhten Gründlichkeit und
ausgeprägteren Reflexionstiefe wünschenswerter wäre.
Im Sinne der Gruppengröße wollen wir hier von einer Zahl von 50 Prüfern
pro Gruppe ausgehen. Diese Zahl erscheint realistisch, und es dürfte möglich
sein, ebenso viele Hochschuldozenten zu finden, die sich an der Untersuchung
beteiligen - nicht zuletzt um einer Verbesserung und gründlicheren Fundierung
der eigenen Arbeit willen.
Im Rahmen dieses Forschungsprojektes sind die folgenden Prüferrollen zu
berücksichtigen, in denen beide Gruppen zu beobachten bzw. zu begleiten sind:
· der Prüfer als
Interaktant in mündlichen Prüfungen;
· der Prüfer als
Ersteller von Examensklausuren;
· der Prüfer als
Korrektor von Examensklausuren;
· der Prüfer als
Betreuer von Studienabschlussarbeiten (Staatsexamens- und Magisterarbeiten nach
dem traditionellen System; Bachelor- und Master-Arbeiten im Bologna-Zeitalter);
· der Prüfer als
Bewerter von Studienabschlussarbeiten.
Diese Begleitung bzw. Beobachtung sollte vorzugsweise unter realen Bedingungen
- also im Rahmen wirklicher Prüfungen - vonstattengehen. Eine Realisierung
unter Laborbedingungen wäre zwar ebenso denkbar, könnte die erarbeiteten
Ergebnisse jedoch beinträchtigen.
Die erzielten Ergebnisse lassen sich generell in folgender Weise
interpretieren:
· Ergibt sich eine
prüfungsdidaktische Überlegenheit der entsprechend geschulten Prüfergruppe, so
bestätigt dieses Ergebnis empirisch die Notwendigkeit einer für die Planung und
Durchführung von Prüfungen zu fordernden Zusatzausbildung und letztendlich die
Notwendigkeit der weiteren Betreibung und des Ausbaus des Faches Prüfungsdidaktik;
· Ergibt sich eine
weitgehende Gleichwertigkeit zwischen der prüfungsdidaktisch geschulten und
der nicht entsprechend geschulten Prüfergruppe, so lässt sich aus diesem
Ergebnis zwar keine Bestätigung der Notwendigkeit prüfungsdidaktischer
Schulungen bzw. der Prüfungsdidaktik selbst folgern, jedoch ebenso wenig das
Gegenteil;
· Ergibt sich eine
Überlegenheit der prüfungsdidaktisch nicht geschulten Prüfergruppe, so würde
dieses Resultat darauf hindeuten, dass prüfungsdidaktische Schulungen für die
Planung und Durchführung effizienter Prüfungen nicht notwendig seien. Ein
solches Ergebnis würde zugleich im Hinblick auf die Prüfungsdidaktik insgesamt
die Sinnfrage erheben.
A priori steht zu erwarten, dass eine prüfungsdidaktische Schulung von Prüfern
für deren Arbeit eher förderlich als hinderlich ist. Ein Ergebnis, das sich von
dem zuerst skizzierten unterscheiden würde, würde somit eine Überraschung
darstellen. Für jegliches ermittelte Ergebnis gilt jedoch, dass es in zumindest
einer Folgeuntersuchung - wünschenswert jedoch in mehreren - verifiziert werden müsste, um als gesichert
gelten zu können.
8.2.2 Forschungsprojekt
Zuverlässigkeit mündlicher Gruppenprüfungen
Fragestellung
Sind mündliche Gruppenprüfungen
zuverlässig? Oder sind sie es nicht und sollten unbedingt abgeschafft werden?
Begründung
In einigen wissenschaftlichen Disziplinen wie z.B. den Rechtswissenschaften - ist es
üblich, mündliche Gruppenprüfungen anstelle von Einzelprüfungen durchzuführen,
wobei diese jedoch genauso lange dauern, wie die für die gleiche Anzahl von
Prüflingen durchgeführten Einzelprüfungen dauern würden. Es erscheint fraglich,
ob ein solches Vorgehen wirklich förderlich für die Prüflinge und somit ratsam
ist. Vielmehr steht zu fragen, ob mit einem solchen Prüfungsdesign nicht über
die eigentliche Prüfung hinausgehende Faktoren, wie beispielsweise die psychische
Belastbarkeit der Prüflinge, getestet werden sollen.
Arbeitshypothese
Mündliche
Gruppenprüfungen beeinflussen die Leistungen der einzelnen Prüflinge signifikant
- entweder in positiver oder in negativer Hinsicht. Sie ermöglichen dagegen
nicht die zuverlässige Erhebung des tatsächlichen Leistungspotentials der
Prüflinge und wirken somit dem Kriterium der Prüfungsobjektivität entgegen.
Vorwissenschaftliche Annahmen
Die Durchführung mündlicher Gruppenprüfungen erscheint prüfungsdidaktisch
nicht sinnvoll und bringt weder Prüfern noch Prüflingen Vorteile - von einem
möglichen Zeitvorteil ganz zu schweigen. Sie sind daher kontraproduktiv und zur
Erhebung der Leistungs- und Berufsfähigkeit der Prüflinge nicht geeignet. Mündliche
Gruppenprüfungen setzen die Prüflinge einem erheblichen Druck aus, der aufgrund
der in ihnen und durch sie aktualisierten, unmittelbar zutage tretenden
Konkurrenzsituation gegenüber Einzelprüfungen drastisch verstärkt wird. Gerade
Prüflinge, die aufgrund ihrer Persönlichkeitsstruktur weniger spontan sind als
andere, sind in dieser Situation einem nahezu unvermeidlichen Misserfolg
preisgegeben, wohingegen sie in Einzelprüfungen durchaus brillieren könnten:
Nicht selten geht eine größere Reflexionstiefe mit geringerer persönlicher Spontaneität
einher. In Gruppenprüfungen wird hingegen auf den Zeitfaktor gesetzt: Einem
von mehreren Prüflingen wird eine Frage gestellt. Kann er diese nicht
unmittelbar beantworten, geht sie an die Mitprüflinge weiter und ist in ihrer
Beantwortung für den zuerst gefragten Prüfling somit verloren.
Zudem ist von Bedeutung, dass der Erfolg in Gruppenprüfungen stark mit
der Konstellation der jeweiligen Gruppe von Prüflingen zusammenhängt: Ist ein
gegebener Prüfling Teil einer starken Gruppe, wird sein Prüfungsergebnis
schlechter ausfallen, als wenn er im Rahmen einer schwachen Gruppe geprüft
wird. Das Prüfungsergebnis des Einzelnen ist somit mehr oder minder dem Zufall
überlassen, wodurch die Objektivität solcher Gruppenprüfungen im Allgemeinen
deutlich herabgesetzt wird.
Forschungsdesign
Benötigt werden zwei Experimentalgruppen von je 25 Prüflingen, die aus denselben
Personen bestehen. Diese werden je einer Gruppen- und je einer Einzelprüfung
unterzogen. Diese Zahl von 25 Probanden ergibt sich aus dem hohen Aufwand, der
für dieses Experiment notwendig ist. Bei 25 Probanden werden fünf mündliche Prüfungen
notwendig, wenn eine Gruppengröße von fünf Probanden festgesetzt wird. Jede der
25 Einzelprüfungen dauert 30 Minuten, jede der fünf Gruppenprüfungen dauert 2,5
Stunden. Somit ergibt sich für die Durchführung dieser Prüfungen - und damit
für die Datenerhebung - eine Nettozeit von zweimal 12,5 Stunden, also insgesamt
25 Stunden.
Um nicht jeden Prüfling insgesamt vier Prüfungen zu unterziehen - zwei
Prüfungen, bei denen die Gruppenprüfung die erste und zwei Prüfungen, bei denen
die Einzelprüfung die erste Prüfung ist -, sollten die Prüfungen, und insbesondere
die Prüfungsfragen, nicht identisch gestaltet sein. Die Fragen in der Gruppen-
und der Einzelprüfung sollen jedoch sehr ähnlich sein, ähnliche Gebiete
abdecken, und somit in etwa dem gleichen Schwierigkeitsgrad entsprechen. Ob
die Gruppen- oder die Einzelprüfung als erste abgehalten wird, ist zweitrangig
- vorausgesetzt, diese wird bei allen Probanden auf die gleiche Weise
durchgeführt.
8.2.3 Forschungsprojekt Erstellung
von Videoaufnahmen in mündlichen Prüfungen
Fragestellung
Ist es ratsam, mündliche Prüfungen
generell per Video aufzuzeichnen? Werden mögliche, durch diese
Dokumentationsform für die Prüflinge verursachte Nachteile durch die größere, dadurch
erzielbare Objektivität aufgewogen?
Begründung
Unter dokumentarischem wie auch unter juristischem Blickwinkel ist es
unbestreitbar vorteilhaft, mündliche Prüfungen auf jeglicher Ebene - von der
Schule über die Berufsausbildung bis hin zur Universität - per Video zu dokumentieren,
anstatt sie dem ephemeren Charakter preiszugeben, der mündlichen
Prüfungssituationen inhärent ist.
Arbeitshypothese
Aufgrund
der soeben dargestellten Zusammenhänge steht zu erwarten, dass der Einfluss von
Videoaufnahmen auf mündliche Prüfungen erheblich und keineswegs fruchtbar ist.
Die Durchführung mündlicher Prüfungen mit Hilfe der Videodokumentation
beeinflusst die Prüflinge in einem Maße, das diese Maßnahme nicht ratsam
erscheinen lässt.
Würde
diese Arbeitshypothese falsifiziert, so würde dies das beste denkbare Argument
für die Nutzung von Videodokumentationen in mündlichen Prüfungen bereitstellen:
Das Forschungs-ergebnis wäre durch eine Falsifizierung dieser negativ
formulierten Arbeitshypothese ungleich überzeugender als durch Bestätigung der
positiv formulierten Variante der Hypothese.
Vorwissenschaftliche
Annahmen
Vom Blickwinkel reiner Prüfungsobjektivität aus gesehen, lässt sich kaum
ein Argument gegen die Videodokumentation mündlicher Prüfungen finden.
Unter psychologischem Aspekt ist die Liste anführbarer Gegenargumente
hingegen lang. In Auswahl lassen sich die folgenden benennen:
· Prüflinge können allein durch das Wissen, dass sie gefilmt werden, in ihren spontanen Reaktionen irritiert und somit in ihren Leistungen beeinträchtigt werden;
· Das sichtbare Vorhandensein der notwendigen Technik verstärkt diesen Effekt;
· Diese Irritation kann so stark sein, dass sie - zusätzlich zu dem ohnehin bei den meisten Prüflingen vorhandenen Grad an Nervosität - zu einer völligen Blockade führen kann;
· Viele Prüflinge sind aufgrund der Videobeobachtung nicht dazu in der Lage, ihre volle Leistungsfähigkeit auszuschöpfen. Die Wahrscheinlichkeit der Verfälschung des Prüfungsergebnisses in unzulässigem Umfang ist somit hoch;
· Aus juristischen Gründen ist die Durchführung von Prüfungen ohne die Einholung der Genehmigung bzw. ohne das Einverständnis des Prüflings nicht zulässig;
· Auch Prüfer können sich durch das Wissen um die Videoaufnahme gestört fühlen, was auch ihr Verhalten beeinträchtigen kann. Diese Beeinträchtigung kann sich - in Abhängigkeit von der Persönlichkeit des Prüfers - auf unterschiedliche Weise auswirken. Tendenziell werden seine Fragen jedoch anspruchsvoller werden und er wird sich vor der Kamera im besten Licht darzustellen versuchen, um einen Beweis seiner eigenen Kompetenz zu schaffen. Die Aufmerksamkeit, die dem Prüfling während der Prüfung
zuteilwerden sollte, wird dadurch zumindest beeinträchtigt.
Da hier nicht der Ort ist, über die Frage des Videoeinsatzes in mündlichen
Prüfungen grundsätzlich zu räsonieren, soll die Erwähnung dieser möglichen
Einwände an dieser Stelle genügen. Interessant für uns ist die Frage, ob die
möglichen Vorteile dieser Art der Dokumentation ihre Nachteile überwiegen.
Diese Vorteile sind - ebenfalls hier nur kurz angeschnitten - die folgenden:
· Prüfungen werden
durch Videodokumentation weniger anfechtbar;
· Prüfer werden
besser kontrolliert, als es ohne Videodokumentation möglich wäre;
· Für die
Forschung kann anschauliches Grundlagenmaterial geschaffen werden, um mündliche
Prüfungen langfristig zu verbessern. Prüflinge können nach einer Prüfung ihr
Verhalten in dieser besser analysieren - wenn das Material denn auch ihnen zur
Verfügung gestellt wird -, um Folgeprüfungen (noch) erfolgreicher zu
absolvieren.
Forschungsdesign
Für die Durchführung dieses Projektes ist es notwendig, eine Experimentalgruppe
von mindestens 50 Probanden zu bestimmen, die jeweils insgesamt vier mündliche
Prüfungen ablegen. Jeder Proband durchläuft dabei in der Rolle des Prüflings
die folgenden Einzelprüfungen:
· Prüfung 1 ohne
Videomitschnitt über Inhalt A,
· Prüfung 2 mit
Videomitschnitt über Inhalt A,
· Prüfung 3 mit
Videomitschnitt über Inhalt B,
· Prüfung 4 ohne
Videomitschnitt über Inhalt B.
Die Inhalte A und B sind in den Prüfungen 1 und 2 (A) und 3 und 4 (B)
identisch. Durch diese thematische Konstanthaltung wird vermieden, dass das
Ergebnis des Experiments durch variierende Inhalte verfälscht wird. Das Faktum,
dass Probanden in Prüfung 2 und Prüfung 4 die Inhalte und Fragen bereits
kennen, wird dadurch kompensiert, dass zwischen diesen Prüfungen ein Zeitraum
von mindestens vier Wochen liegen muss. Idealerweise ist daher die Abfolge der
Prüfungen die folgende: 1 - 3 - 2 - 4. Diese gewährleistet eine hinreichende
inhaltliche Variation, um die jeweils erste Prüfung gleichen Inhalts vergessen
zu machen, und ermöglicht zudem die Ansetzung von nur einem
Vier-Wochen-Intervall, während bei einer Abfolge der Prüfungen in der Folge 1 -
2 - 3 - 4 insgesamt zwei Vier-Wochen-Intervalle angesetzt werden müssten.
In diesem Falle ist es von Bedeutung, die Experimentalgruppe konstant zu
halten, um Verfälschungen zu vermeiden. Sollte es nicht möglich sein, 50 Probanden
mit weitgehend dem gleichen Wissensstand zu finden, so können auch solche
Probanden ausgewählt werden, die unterschiedliche Wissensstände aufweisen. In
diesem Falle müssten diese jedoch binnendifferenziert werden. Bei dieser Art
der Realisierung des Experiments geht es dann darum, festzustellen, welche
Probanden bei welcher Variante - mit oder ohne Videomitschnitt - am besten
abschneiden. Die einzelnen Probanden müssen dann mit sich selbst - auf
individueller Ebene - verglichen werden. Von Bedeutung ist, dass dieses
Forschungsdesign in beiden Unteransätzen - mit einer Probandengruppe mit
einheitlichen Vorkenntnissen oder einer in sich heterogenen, aber
binnendifferenzierten Gruppe von Probanden - brauchbare Ergebnisse liefert.
Die Feststellung des Vorwissens erfolgt durch die Erhebung der
Kenntnisse der Probanden in der später in den mündlichen Prüfungen zugrunde gelegten
wissenschaftlichen Disziplin, beispielsweise Linguistik. Dieser Vortest kann
ein Multiple-Choice-Test sein,
der für alle Probandengruppen der gleiche sein muss. Er bildet auch die
Grundlage für die entsprechende Binnendifferenzierung der Probanden, sollte diese
notwendig sein. Eine solche Binnendifferenzierung ist spätestens dann
vonnöten, wenn die Streubreite der Prüfungsergebnisse der Probanden in diesem Vortest
mehr als 10 Prozent beträgt, wovon mit großer Wahrscheinlichkeit auszugehen
ist. Diese Größe von 10 Prozent kann auch die Grundgröße für die multiple
Binnendifferenzierung der Probanden darstellen, so dass solche Probanden
zusammengruppiert werden, deren Tests Ergebnisse zwischen 100% und 91 %
aufweisen, solche, deren Tests Ergebnisse zwischen 90 % und 81 % erbringen, und
so weiter.
8.2.4 Forschungsprojekt Vergleichbarkeit
von an verschiedenen Hochschulen erhobenen
Prüfungsergebnissen
Fragestellung
Sind Prüfungen, die an
unterschiedlichen Hochschulen abgenommen werden, per se nicht vergleichbar? Setzt also die Vergleichbarkeit von
Prüfungen deren Ablegung an ein und derselben Hochschule - an ein und demselben
Ort - voraus?
Begründung
Prüfungsergebnisse, die an unterschiedlichen Hochschulen erhoben werden,
gelten bislang als wenig vergleichbar: Einerseits existieren zu viele, kaum kontrollierbare
Einflussfaktoren, die einer prinzipiellen Vergleichbarkeit entgegenstehen.
Andererseits mag dieser Umstand überbewertet werden, so dass diese
Einflussfaktoren weniger bedeutsam sind als bislang angenommen. Nur wenn eine
Nichtvergleichbarkeit von an unterschiedlichen Hochschulen durchgeführten Prüfungen
nachgewiesen werden kann, ist es langfristig sinnvoll, zentralisierte Prüfungen
in den einzelnen (Sprach)Fächern zu organisieren. Ist die Vergleichbarkeit von
Prüfungen trotz vorhandener geographischer Disparität gegeben, bedarf es
dagegen keiner flächendeckenden Einführung zentralisierter Prüfungen.
Arbeitshypothese
Eine Vergleichbarkeit
zwischen Prüfungen, die an verschiedenen Hochschulen durchgeführt werden, ist schwieriger
zu realisieren als eine Vergleichbarkeit zwischen solchen Prüfungen, die an ein
und derselben Hochschule abgenommen werden.
Vorwissenschaftliche
Annahmen
Natürlich wird es gemeinhin leichter sein, Vergleichbarkeit zwischen
Prüfungen zu erzielen, die an ein und derselben Hochschule erhoben werden.
Diese Aussage gilt jedoch nur unter der Bedingung, dass diese Prüfungen auch zu
ein und derselben Zeit abgenommen werden. Bereits dann, wenn eine gleichwertige
Prüfung - beispielsweise eine Bachelorklausur zur französischen Fachdidaktik
- ein Semester später abgelegt wird, wird diese Vergleichbarkeit reduziert,
selbst wenn der Ort der Prüfung der gleiche ist. Vom logischen Standpunkt her
ist somit die Vergleichbarkeit von Prüfungen dann ebenso in Gefahr, wenn diese
an unterschiedlichen Orten und somit an unterschiedlichen Hochschulen durchgeführt
werden, wie dann, wenn sie an ein und demselben Ort und somit an ein und
derselben Hochschule abgenommen werden, jedoch zu unterschiedlichen Zeiten.
Legt man diese Überlegung zugrunde, dann erkennt man, dass die
Vergleichbarkeit von Prüfungen ein kaum erfüllbares Konstrukt zu sein scheint.
Dennoch ist sie ein wichtiges Qualitätskriterium; dennoch muss sie erzielbar
sein. Vergleichbarkeit hängt somit weniger von der Konstanz von Ort und Zeit ab
als vielmehr von der Konstanz der Parameter einer Prüfung. Diese gilt es
überindividuell festzulegen und in der Weise zu fixieren, dass sie von
verschiedenen Individuen an unterschiedlichen Orten und zu unterschiedlichen
Zeiten weitgehend identisch umgesetzt werden.
Forschungsdesign
Für eine gegebene Prüfung ist ein in sich eindeutiger Anweisungstext für
die Prüfer zu erstellen, nach dem sie die Prüfung durchführen sollen. Dieser
umfasst alle denkbaren Variablen in möglichst detaillierter Form, die nicht nur
die eigentliche Prüfung - beispielsweise eine Klausur unter Aufsicht -
betreffen, sondern alle mit dieser einhergehenden Umstände, auch solche technischer
Art. Diese umfassen die Höchstanzahl der Prüflinge, die Raumgröße, die
Anwesenheit der Prüfer in einer vorgegebenen Zahl (entweder absolut oder in
Relation zu der Zahl anwesender Prüflinge), die Verwendung möglicher Hilfsmittel
etc. Ist die Prüfung eine Klausur, so hat diese identisch zu sein. Handelt es
sich um eine mündliche Prüfung, so sind alle Prüferfragen im Vorhinein
festzulegen und vollständig und in exakt dieser Form abzuarbeiten.
An mindestens drei verschiedenen Hochschulen ist diese identische
Prüfung durchzuführen - und zwar im Anschluss an eine Veranstaltung, die an
allen diesen Hochschulen in identischer Form - unter Verwendung des jeweils gleichen
(Vorlesungs)Skriptes - abgehalten wurde. Die Gruppe der Studierenden sollte
vor Beginn dieser Veranstaltung über ein vergleichbares Vorwissen verfügen. Aus
diesem Grunde ist es ratsam, für eine solche Veranstaltung eine Einführung in
ein für die Studierenden neues Fachgebiet zu wählen.
Lassen sich nun auf der Basis dieses Forschungsdesigns solche Ergebnisse
erzielen, die in den entsprechenden, durch die Forscher festzulegenden Grenzen
als vergleichbar angesehen werden können, so ist zumindest der Beweis dafür
erbracht, dass an unterschiedlichen Orten und somit an unterschiedlichen
Hochschulen abgelegte Prüfungen nicht notwendigerweise unvergleichbar sein
müssen, oder, positiv ausgedrückt, dass die Erzielung von Vergleichbarkeit
möglich ist. Dieser Versuch ist dann in unterschiedlichen Fächern und in
unterschiedlichen Kontexten in analoger Weise zu wiederholen. Ergibt sich in der
breiten Mehrheit der Fälle - wünschenswert wäre hier eine Auslastung von etwa
80 % - ebenso eine Vergleichbarkeit der abgelegten Prüfungen, so kann die
Arbeitshypothese als falsifiziert gelten.
8.3 Forschungsdesiderata
für Prüfungen in den modernen Philologien
8.3.1 Forschungsprojekt Der
Einfluss des Prüferverhaltens auf Prüfung und Prüfling
Fragestellung
Welchen Einfluss hat das
Verhalten des Prüfers – als freundlicher, unfreundlicher, abgelenkter,
hingebungsvoller, desinteressierter (etc.) Prüfer - auf die Prüfung und den
Prüfling? Ist der Einfluss des Prüfers größer oder geringer, als man denken
mag?
Begründung
In menschlicher Interaktion ist es unbestreitbar, dass Freundlichkeit
Türen öffnet. Die Frage, die sich stellt, ist, ob diese generelle Feststellung,
die ein psychologisches Grundmuster darstellt, sich auf mündliche Prüfungssituationen
übertragen lässt. Ist also ein freundlicher Prüfer dazu in der Lage, das
intellektuelle Potential seiner Prüflinge optimal zutage zu fördern, während
ein unfreundlicher und abweisender, vielleicht arroganter Prüfer es dem Prüflingen
mehr oder minder verunmöglicht, sich voll zu entfalten, oder besitzen diese
angenommenen Zusammenhänge keine Gültigkeit?
Arbeitshypothese
Das
Verhalten der Prüfer in mündlichen Prüfungen hat einen entscheidenden Einfluss
auf das Prüfungsergebnis und die Note des Prüflings.
Vorwissenschaftliche
Annahmen
Es steht zu erwarten, dass die beschriebenen Zusammenhänge Gültigkeit
besitzen, dass das Prüferverhalten somit Einfluss auf die Prüfungsergebnisse
hat: Das gegenteilige Ergebnis, nach dem jeglicher Einfluss zu negieren sei,
widerspräche aller psychologischen Erwartung. Diese Annahme gilt tendenziell
allgemein, unabhängig von Art, Umfang und Inhalt der mündlichen Prüfung.
Forschungsdesign
Benötigt werden zwei Probandengruppen von mindestens je 50 Studierenden,
die jeweils zwei Prüfungen unterzogen werden. Die eine Hälfte der Probanden
legt zunächst eine Prüfung bei einem abweisenden und unfreundlichen Prüfer ab
und danach eine Prüfung bei einem freundlichen Prüfer, der auf sie eingeht. Die
andere Probandengruppe macht dies umgekehrt. Zwischen beiden Prüfungen liegen
mindestens vier Wochen; die Prüfungen selbst sind identisch, die Fragen
vorgegeben. Die Prüfer erhalten genaue Verhaltensinstruktionen; gegebenenfalls
können als „Prüfer“ sogar Schauspieler herangezogen werden, die in der Lage
sind, die von ihnen geforderten Charakterzüge zuverlässig darzustellen.
Die Prüfungen werden zu Dokumentationszwecken gefilmt - mit nachträglich
eingeholtem Einverständnis der Probanden. Vor den Prüfungen legen die Prüflinge
einen schriftlichen Wissenstest über das später mündlich zu prüfende
Fachgebiet (z.B. Linguistik) ab. Auf diese Weise werden die Ergebnisse in
zweierlei Hinsicht vergleichbar:
· individuell im
Hinblick auf die beiden Einzelergebnisse der Probanden und
· überindividuell
im Hinblick auf solche Probanden, die im Vortest ein vergleichbares (also nicht
signifikant unterschiedliches) Ergebnis aufwiesen.
Sollten sich bei einer signifikanten Mehrheit der Probanden signifikant
bessere Ergebnisse bei dem freundlichen, zugänglichen Prüfer - und somit
signifikant schlechtere Ergebnisse bei dem unfreundlichen, abweisenden Prüfer -
ergeben, so würde die Arbeitshypothese
dadurch als verifiziert gelten.
8.3.2 Forschungsprojekt Aufwertung
der Sprachpraxisanteile in schriftlichen philologischen
Lehramtsprüfungen[2]
Fragestellung
Ist der Anteil der Abprüfung der
Beherrschung der Fremdsprache in schriftlichen Philologieprüfungen mit dem
Ziel des Lehramtes hinreichend oder sollte dieser Anteil in Qualität und
Quantität ausgeweitet werden.
Begründung
Der qualitative und quantitative Anteil der schriftlichen Prüfung der
fremdsprachlichen Fertigkeiten der Prüflinge ist im Allgemeinen auch nach
Einführung von Bachelor- und Master-Studiengängen weitgehend mit demjenigen
vergleichbar, der zu Zeiten von Staatsexamensprüfungen herrschte. Während der
fremdsprachliche Anteil in mündlichen Prüfungen in der Regel dadurch abgedeckt
wird, dass diese in der jeweiligen Fremdsprache durchgeführt werden, stellt
sich im Rahmen der schriftlichen Prüfungen ein komplexeres Bild dar. So ist zu
bezweifeln, dass anhand der nicht selten geforderten Erstellung der jeweils
geforderten Fachklausuren zur Linguistik, Literaturwissenschaft, Fachdidaktik
und Landeswissenschaft die Beherrschung der Fremdsprache in geeigneter Form
nachgewiesen werden kann. Ebenso fragwürdig ist es, eine - ebenfalls nicht
selten geforderte - (Hin- und / oder Her)Übersetzung als Nachweis fremdsprachlicher
Kenntnisse heranzuziehen. Beide Formen der Ermittlung der fremdsprachlichen
Fertigkeiten der Prüflinge stellen prüfungsdidaktische Problembereiche dar.
Arbeitshypothese
Die
gegenwärtige Situation der Abprüfung fremdsprachlicher Fertigkeiten im
philologischen Lehramtsstudium ist unbefriedigend. Die praktizierten
Prüfungsformen sind nicht hinreichend valide, da sie nicht das messen, was sie
messen sollen. Ebenso ist ihr Umfang nicht hinreichend, da die fachlichen
Inhalte der modernen Philologien allzu stark im Vordergrund stehen.
Vorwissenschaftliche
Annahmen
Studierende, die ein Lehramt anstreben, sollten in gleichem Rang und mit
gleicher Relevanz, mit der sie ihre fachliche - also linguistische,
literaturwissenschaftliche, didaktische und / oder landeswissenschaftliche - Qualifikation
nachweisen, ihre fremdsprachlichen Fähigkeiten und Fertigkeiten nachweisen
müssen. Diese sind als gleichberechtigter Teil ihrer gesamtfachlichen Qualifikation
anzusehen und nicht gegenüber jenen hintanzustellen. Im Schulalltag wird die fremdsprachliche
Qualifikation - ganz im Gegenteil - gemeinhin als wichtiger und vordringlicher
zu betrachten sein als Kenntnisse in Linguistik, Literaturwissenschaft,
Fachdidaktik oder Landeswissenschaft, zumal Mängel in diesen sich im Zweifelsfalle
rascher und mit vergleichsweise geringerem Aufwand beheben lassen als
fremdsprachliche Defizite.
Die erhebliche Bedeutung der sprachpraktischen Fertigkeiten der
Prüflinge wie auch die Sicherstellung von deren inhaltlich valider und
quantitativ hinreichender Abprüfung, die bis heute nicht adäquat eingeschätzt
wird, muss erkannt und entsprechend in die Prüfungspraxis umgesetzt werden. In
diesem Zusammenhang kann die Prüfungsdidaktik einen wichtigen Beitrag leisten.
Im Bereich der Klausuren ist somit generell wegzukommen von der
traditionellen Übersetzung. Diese Prüfungsform, die für die Ausbildung von
Übersetzern - nicht jedoch für diejenige von Fremdsprachenlehrern - von Nutzen
sein kann, ist nicht mehr zeitgemäß und sollte daher in den modernen
Philologien abgeschafft werden.
Ebenso ist zweifelhaft, ob der Fachaufsatz unbedingt in der Fremdsprache
zu verfassen ist. Es wird empfohlen, von dieser Möglichkeit abzusehen, da:
· die diesem
zugrunde liegenden Veranstaltungen zu Linguistik, Literaturwissenschaft,
Fachdidaktik und Landeswissenschaft ohnehin mehrheitlich auf Deutsch
abgehalten werden[3] und
· die Prüflinge in
ihrem Berufsleben in den seltensten Fällen vor der Notwendigkeit stehen,
schriftliche Texte in der Fremdsprache über Linguistik oder Fachdidaktik
erstellen zu müssen - es sei denn, sie arbeiten in der Forschung. In den
Bereichen Literaturwissenschaft und Landeswissenschaft mag diese
Notwendigkeit sich eher ergeben. Dennoch sollte in allen Bereichen auf eine Gleichbehandlung
in den Prüfungen hingearbeitet werden. Dabei liegt der gemeinsame Nenner in der
Darstellung fachlicher Sachverhalte auf Deutsch[4].
Abhilfe in dieser Situation kann eine neue Klausurkonzeption im
sprachpraktischen Teil des Philologiestudiums leisten, die kommunikationsorientiert
ist: Es sollten daher vordringlich solche Klausurthemen zugrunde gelegt werden,
die allgemeine Themen umfassen, deren Behandlung in der Fremdsprache in der
Berufspraxis der künftigen Lehrer wahrscheinlich ist, also beispielhaft im
Einzelnen Themenstellungen:
· zu
Interkulturalität und Landeskunde im Sinne solcher Texte, die ein Lehrer für
seine Schüler und zur Vorbereitung seines eigenen Unterrichts erstellen wird;
· zur Literaturinterpretation,
die jedoch inhaltlich klar unter dem Niveau rein literaturwissenschaftlicher Analysen liegen muss und deren Zielstellung
solche Werkinterpretationen sein sollten, die ein praktizierender Lehrer als
Musterlösungen für seine Schüler zu verfassen hat;
· zu aktuellen
Fragen der Politik des bzw. eines
Zielsprachenlandes;
· zur
Zeitgeschichte des oder eines Zielsprachenlandes;
· zu institutionellen Fragestellungen des oder eines Zielsprachenlandes.
Von unbedingter Bedeutung ist, dass die von den Prüflingen geforderten
Textsorten ausnahmslos mit solchen identisch sein müssen, die der künftige
Lehrer in seinem Berufsalltag zu verfassen bzw. zu lehren haben wird,
einschließlich solcher wie dem englischen Essay
oder der französischen Dissertation.
Schriftliche Fremdsprachenprüfungen ohne eine solche Berufsrelevanz sind
vergleichsweise wertlos, da ihnen die notwendige Validität abgeht.
Forschungsdesign
Für ein solches, weitgehend konzeptionell ausgerichtetes
Forschungsprojekt lässt sich kaum ein allgemeingültiges Forschungsdesign erstellen.
Eine Möglichkeit besteht jedoch darin, in fiktiven Musterprüfungen das alt
hergebrachte System mit dem neuen, hier skizzierten Prüfungssystem zu
vergleichen und die in beiden Prüfungsverfahren erzielten Ergebnisse mit
solchen Parametern in Beziehung zu setzen, die für (künftige) Lehrer von
Bedeutung sind, wie beispielsweise:
· die Anzahl und
Länge von Auslandsaufenthalten;
· die mentale
Aufgeschlossenheit gegenüber der Zielsprachenkultur und gegenüber anderen
Kulturen allgemein;
· dem Interesse an
der Fremdsprache;
· der allgemeinen
Kommunikationsfähigkeit der Prüflinge;
· dem Sprachwissen, über das sie verfügen[5];
· dem Vermögen,
dieses Sprachwissen in Sprachkönnen umzusetzen.
Dabei wird die Feststellung einer Korrelation zwischen diesen Parametern
und der von uns skizzierten, neuen Prüfungsform wahrscheinlicher sein als eine
Korrelation zwischen diesen und den althergebrachten schriftlichen
Fremdsprachenprüfungen.
8.3.3 Forschungsprojekt Mündliche
Philologieprüfungen in der Fremdsprache
Fragestellung
Leidet der Inhalt in mündlichen
Philologieprüfungen, wenn diese in der Fremdsprache abgehalten werden?
Begründung
Die hier formulierte Fragestellung drängt sich aus dem Grunde auf, weil
sowohl von Professoren im Bereich der modernen Philologien als auch von vielen
Lehrern im Bereich der universitären Sprachpraxis - und ebenso auf der Ebene
des schulischen Fremdsprachenunterrichts - nicht selten die Behauptung geäußert
wird, die Behandlung wissenschaftlicher Themenstellungen bzw. solcher eines
gehobenen Niveaus in der Fremdsprache gehe zu Lasten der inhaltlichen Ausbeute.
Diese Einstellung ist allgemein weit verbreitet, und ihr ist auf den ersten
Blick eine gewisse Plausibilität nicht abzusprechen.
Arbeitshypothese
Entgegen
der häufig geäußerten Meinung leiden die Inhalte von in der Fremdsprache durchgeführten
mündlichen Philologieprüfungen nicht gegenüber denjenigen von in der Muttersprache
durchgeführten Prüfungen.
Vorwissenschaftliche
Annahmen
Jeder Dozent, der einmal eine wissenschaftliche Veranstaltung in der
Fremdsprache durchgeführt hat - wie beispielsweise ein Linguistik-Hauptseminar
auf Französisch -, wird zweifelsohne festgestellt haben, dass einige
Studierende aufgrund ihrer nicht hinreichenden Fremdsprachenkenntnisse nicht in
der Lage sind, die sachlich geforderten Inhalte in adäquater Form darzustellen.
Diese Studierenden stellen jedoch die Minderheit dar. Die breite Mehrheit der
Studierenden versucht, die entsprechenden wissenschaftlichen Fakten sachlich
angemessen darzustellen. Diese Darstellung geht dann nicht zu Lasten der
Inhalte, sondern allenfalls zu Lasten der Sprache: Die gewählte Lexik und die
verwendete Grammatik werden bei nicht hinreichenden Sprachkenntnissen der
Studierenden zu einem gewissen Grad inkorrekt sein. Die Inhalte jedoch werden
im Allgemeinen auf angemessenem Niveau dargestellt und erfolgreich vermittelt. Per se davon auszugehen, dass mündliche
Prüfungen, die in der Fremdsprache durchgeführt werden, inhaltlich weniger
anspruchsvoll oder gar inadäquat seien, ginge somit entgegen der allgemeinen
Plausibilitätsannahme zu weit.
Forschungsdesign
Im Rahmen des Forschungsdesigns dieses Projektes werden die folgende
Experimental- und die folgende Kontrollgruppe benötigt:
· Experimentalgruppe:
Eine Anzahl von 50 bis 100 Studierenden, deren Kenntnisse einer gegebenen
Fremdsprache zu gleichen Anteilen von mittlerem und zu gleichen Anteilen von
hohem Niveau sind;
· Kontrollgruppe:
Die gleiche Anzahl an Studierenden mit quantitativ und qualitativ
vergleichbaren Sprachkenntnissen.
Die Erhebung des Sprachkenntnisstandes
der Probanden geschieht durch einen kalibrierten C-Test. Die Kalibrierung des
C-Tests ist dabei die Voraussetzung dafür, diesen als zuverlässiges
Testinstrument einsetzen zu können.
Mit Experimental- und Kontrollgruppe
werden mündliche Prüfungen identischer Länge (z.B. 30 Minuten) durchgeführt.
Diese Prüfungen sind standardisiert, d.h. die den Studierenden gestellten Fragen
sind zuvor festgelegt worden. Das Fachgebiet ist für alle Probanden das
gleiche, z.B. die Linguistik des Englischen. Die Prüfer - d.h. die als Prüfer
fungierenden Personen - werden konstant gehalten.
Die sprachliche Qualität der Äußerungen
der Prüflinge wird anhand eines entsprechend zu erstellenden Rasters
hinsichtlich Ausdrucksvermögen, sprachlicher Korrektheit und der Variation des
Vokabulars (type-token ratio) analysiert[6].
Die Inhalte der von den Prüflingen beantworteten Fragen und der von ihnen gemachten
Äußerungen werden anhand einer von den Prüfern zuvor abgegebenen Vorhersage
über die qualitative Tiefe der zu erwartenden Ausführungen der Prüflinge
erstellt. Diese Punkte zu standardisieren, wird Teil der Aufgaben des Faches Prüfungsdidaktik sein. Dabei stellt die
Standardisierung inhaltlicher Leistungen die im Vergleich schwierigere Aufgabe
dar als diejenige der Standardisierung sprachlicher Leistungen - so schwierig
diese ihrerseits bereits ist. Die überindividuell erstellte Liste zu
erwartender Antworten und deren Tiefe mag in dieser Hinsicht eine akzeptable
Lösung darstellen. Dabei ist deren überindividueller Charakter jedoch
entscheidend.
Um dies alles zu dokumentieren,
sollten Video-Aufnahmen der Prüfungen erstellt werden. Dies dürfen die
Probanden jedoch nicht wissen. Daher darf erst nach der Prüfung die Freigabe der erstellten Aufnahmen von ihnen
erbeten werden.
8.3.4 Forschungsprojekt Die Auswirkung von Transferfragen auf mündliche Prüfungen
Fragestellung
Sind die Noten
der Prüflinge in solchen mündlichen Prüfungen, in denen vom Prüfer mehrheitlich
Transferfragen gestellt werden, besser als in solchen Prüfungen, in denen reine
Wissensfragen gestellt werden?
Begründung
Im Unterschied zu reinen,
gleichsam auswendig lernbaren Wissensfragen werden Transferfragen gemeinhin als
höherwertig angesehen, da deren Beantwortung auf der persönlichen Reflexion der
Prüflinge basiert. In mündlichen Prüfungen ist es daher interessant
festzustellen, ob eine hohe Häufigkeit von Transferfragen wirklich zu
signifikant besseren Ergebnissen führt. Das Faktum, dass Transferfragen
Wissensfragen inkludieren, dürfte dieses Ergebnis im Grunde zeitigen.
Arbeitshypothese
Transferfragen verbessern die Ergebnisse mündlicher Prüfungen und führen
auch zu besseren Noten der Prüflinge. Dieser Unterschied ist als signifikant
anzunehmen.
Vorwissenschaftliche Annahmen
Die vorherrschende Verwendung von
Transferfragen in mündlichen Prüfungen dürfte zu signifikant besseren Noten
für die Prüflinge führen als die ausschließliche Stellung reiner Wissensfragen
oder ein hälftiger Anteil von Wissens- und Transferfragen: Möglichkeiten, einen
Transfer zu erstellen, ergeben sich nur dann, wenn die faktenorientierte Basis,
die diesen Transfer ermöglicht, gegeben ist. Transfer kann somit als
Kombination von Faktenwissen und kreativer Anwendung dessen angesehen werden. Dabei
kommt es beim Faktenwissen nicht in erster Linie auf die Kenntnis einzelner
Informationsbestandteile an, sondern auf das Verständnis der grundlegenden
Zusammenhänge des behandelten Themas. Um ein Beispiel zu nennen, kommt es in
der Linguistik nicht darauf an, die exakten Lebensdaten Ferdinand de Saussures
zu kennen, sondern vielmehr darauf, über die zentralen Aussagen seines Ansatzes
Bescheid zu wissen, diese weiterverarbeiten und anwenden zu können.
Pure Fakten helfen mit Blick auf
das Verständnis von Theorien nicht immer weiter. Andererseits bedeuten hohe
Reproduktionsleistungen nicht unbedingt, dass der Prüfling ein tiefes
Verständnis von seinem Fach erworben hat. Wenn er also die genauen Lebensdaten
Ferdinand des Saussures kennt, bedeutet dies folgerichtig nicht, dass er viel
über Linguistik weiß. Faktenwissen greift somit als Prüfungsinstrumentarium
nicht immer in zufriedenstellender Art und Weise. Zudem kann die reine
Abfragung von Faktenwissen unschwer auf potentielle Schwachstellen eines Prüflings
verweisen und ihn auf der Basis unzureichend memorierter Fakten rasch zu
schlechten Noten zu führen.
Lediglich die Kombination von
Faktenwissen und dessen Anwendung erlaubt Aussagen darüber, über welche
Kenntnisse der Prüfling in dem gegebenen Fach verfügt. Kennt er also die
ungefähren Lebensdaten Ferdinand de Saussures bzw. die Epoche, in der dieser
lebte, kann er diese in Verbindung bringen mit dem damaligen Entwicklungsstand
der Linguistik. Ist er dazu in der Lage, erweist er sich in dieser Frage als
Experte und stellt sein Fachwissen erfolgreich zur Schau. Diese Demonstration
von Expertenwissen wird ihm jedoch nur durch die Kombination von Faktenwissen
und dessen Anwendung - also durch Transfer - möglich.
Transferleistungen stellen somit
intellektuelle Leistungen dar, die nicht auf dem Zufallsprinzip basieren:
Während die Beantwortung reiner Wissensfragen nicht selten von der Willkür der
Auswahl bestimmt wird - ein Prüfling mag die gestellten Wissensfragen
beantworten können, andere dagegen nicht oder umgekehrt - stehen
Transferleistungen für systematische intellektuelle Fähigkeiten des Prüflings.
Sie sind somit auch unter diesem Gesichtspunkt valider als reine Wissensfragen
(vgl. hierzu auch Kap. 4.2.6).
Forschungsdesign
Für das vorliegende Forschungsprojekt
erforderlich ist die Festlegung einer Experimental- und einer Kontrollgruppe
von je 25 bis 50 Studierenden (in Abhängigkeit von dem verfügbaren Budget), die
in etwa das gleiche Leistungsniveau aufweisen. Um die Forschungsergebnisse
zuverlässiger zu gestalten, sollte dieses Leistungsniveau im mittleren Bereich
liegen. Ein hohes Leistungsniveau der Prüflinge könnte zu einer Begünstigung
der Ergebnisse hinsichtlich von Transferfragen führen; ein geringeres Leistungsniveau
der Probanden könnte dagegen zu einer Begünstigung des Ergebnisses zum Vorteil
reiner Wissensfragen führen. Nur die Zugrundelegung eines mittleren
Leistungsniveaus der Probanden gewährleistet somit die prinzipielle Offenheit
hin zu der möglichen Erzielung beider denkbaren Ergebnisse; nur diese
Stoßrichtung gewährleistet die Neutralität hinsichtlich des möglichen
Forschungsergebnisses.
Auch in diesem Projekt sollten
Videoaufnahmen erstellt werden, was die Probanden nicht wissen dürfen und deren
Freigabe von ihnen erst nach der Prüfung
erbeten wird.
Zudem ist es von Bedeutung,
solche Prüfer für das Projekt auszuwählen, die nicht nur über eine erhebliche
Prüfungserfahrung verfügen, sondern auch Erfahrung darin haben - und die
Neigung dazu besitzen -, Transferfragen zu stellen: Die Praxis des Prüfens
lehrt, dass es für Prüfer ungleich leichter ist, Wissensfragen zu stellen als
Transferfragen, weil Transferfragen - im Unterschied zu statischen und
weitgehend kontextunabhängig stellbaren Wissensfragen - von dynamischem
Charakter und kontextgebunden sind, das Mitdenken des Prüfers voraussetzen und
vor allem auch von Seiten des Prüfers Kreativität erfordern.
Ein weiteres
Forschungsprojekt, das hier jedoch wegen der Ähnlichkeit der Fragestellung und
des Forschungsdesigns nicht weiter ausgeführt zu werden braucht, wird sich in
Zukunft auf die Fragestellung beziehen müssen, wie das Verhältnis von reinen
Wissens- und Transferfragen in realen, d.h. nicht unter Versuchsbedingungen
durchgeführten mündlichen Prüfungen aussieht. Die Plausibilitätsannahme
hinsichtlich dieser Fragestellung geht dahin, dass in der Praxis mit erheblicher
Wahrscheinlichkeit ungleich mehr Wissens- als Transferfragen gestellt werden,
wobei der Anteil letzterer im Allgemeinen unter 30 % liegen dürfte. Sollte sich
diese Annahme empirisch bestätigen lassen, dann wird in Zukunft auch auf diesem
Feld eine grundlegende Prüferschulung notwendig sein.
8.4 Forschungsdesiderata für Prüfungen im
Bereich der Fremdsprachenvermittlung
8.4.1 Forschungsprojekt Separate
oder integrierte Prüfung produktiver und rezeptiver sprachlicher Fertigkeiten
Fragestellung
Sollen die Fertigkeiten Leseverstehen bzw. Hörverstehen zusammen mit den Fertigkeiten Schreibfertigkeit bzw. Sprechfertigkeit
geprüft werden oder ist deren prinzipielle Trennung prüfungsdidaktisch
vorteilhafter?
Begründung
Eine empirische Untersuchung zu dieser Fragestellung würde Licht bringen
in einen Bereich, in dem gegenwärtig zwar mit fundierten Argumenten operiert
wird (vgl. Kap. 6.1), in dem jedoch noch keine wirklich gesicherten Aussagen
vorliegen: Die Problematik, ob eher eine im Vergleich exaktere Ermittlung der
Prüfungsergebnisse angestrebt werden sollte - was für den separierenden Ansatz
spräche - oder eher die Nähe zu den Erfordernissen des späteren Berufslebens
der Prüflinge - was für den integrierenden Ansatz spräche - ist bisher
ungeklärt. Eine Untersuchung wie die hier skizzierte wäre daher dringend
erforderlich.
Arbeitshypothese 1
Die
integrierte Abprüfung produktiver und rezeptiver sprachlicher Fertigkeiten ist
deren separater Abprüfung vorzuziehen, da jene eher den im späteren Berufsleben
an die Prüflinge gestellten Anforderungen entspricht. Dieser Vorteil wiegt eine
mögliche, größere Exaktheit der Prüfungsergebnisse der separierenden Methode
auf.
Entsprechend sollte eine zweite Arbeitshypothese formuliert werden, die
die entgegengesetzte Fragestellung abdeckt und die zentraler Teil einer
Kontrolluntersuchung wäre:
Arbeitshypothese 2 (Kontrolluntersuchung):
Eine separate
Abprüfung der sprachlichen Fertigkeiten Leseverstehen
und Schreibfertigkeit ist einer integrierten
Abprüfung dieser Fertigkeiten vorzuziehen, da die auf diese Weise erzielbaren
Prüfungsergebnisse im Vergleich zuverlässiger sein werden.
Werden mindestens zwei unabhängige Forschungsprojekte durchgeführt, die
je eine Richtung abdecken und gehen deren Ergebnisse inhaltlich in die gleiche
Richtung, so kann davon ausgegangen werden, dass die entsprechende
Arbeitshypothese sich bestätigen lässt.
Vorwissenschaftliche
Annahmen
Unter rein logischen Gesichtspunkten ist anzunehmen, dass die separate
Abprüfung der beiden genannten sprachlichen Fertigkeiten exaktere Prüfungsergebnisse
mit sich bringt als deren integrierte Abprüfung. Wenn diese Annahme wohl auch
nicht eigentlich einer empirischen Erhebung bedarf, da sie in dieser Weise
bestätigt werden dürfte, ist das beschriebene Forschungsprojekt dennoch
notwendig, denn es dient im Idealfalle der Klärung der folgenden, wesentlichen
Frage: Ist die im Rahmen des separierenden Ansatzes erfolgende Ermittlung der
Prüfungsergebnisse in einem solch hohen Maße zuverlässiger als deren integrierte
Abprüfung, dass sie die durch den integrierenden Ansatz gewährleistete Realitätsnähe
der Prüfung bei weitem übertrifft oder ist die Exaktheit des Prüfverfahrens
lediglich marginal höher? Der separierende Ansatz, der prüfungsdidaktisch eine
erhebliche Künstlichkeit aufweist, ist nämlich nur unter der Bedingung zu
rechtfertigen, dass die Exaktheit der durch ihn gewährleisteten Prüfungsergebnisse
erheblich über derjenigen des integrierenden Ansatzes liegt. Ist hingegen bei
dem separierenden Ansatz lediglich ein geringeres Maß größerer Exaktheit
festzustellen, so sollte dem integrierenden Ansatz der Vorzug gegeben werden.
Forschungsdesign
Das Forschungsdesign zu diesem Projekt ist recht übersichtlich. Es ist
eine Reihe solcher Prüfungen durchzuführen, in denen die Fertigkeiten Leseverstehen und Schreibfertigkeit strikt voneinander getrennt sind. Dies kann zur
Abprüfung des Leseverstehens der Probanden etwa dadurch geschehen, dass diese
die in einem schriftlich gefassten Text enthaltenen Informationen durch
Ankreuzung vorgegebener Antworten im Sinne von Multiple-Choice- oder
True-False-Aufgaben wiedergeben müssen. Dies kann jedoch auch dadurch geschehen,
dass die Probanden gebeten werden, diese Informationen in ihrer Muttersprache
wiederzugeben, wobei zwar auch eine gewisse Sprachproduktion ins Spiel kommt,
jedoch die zielsprachliche Schreibfertigkeit nicht berührt wird. Zur Abprüfung
der Schreibfertigkeit sollten solche Verfahren verwendet werden, bei denen die
Probanden einen schriftlichen Text in der Fremdsprache verfassen müssen, jedoch
ohne einen sprachlichen Stimulus dazu zu bekommen. Dies kann beispielsweise in
der Weise vonstatten gehen, dass sie ein Schaubild beschreiben oder eine
Statistik interpretieren müssen. Es kann ihnen für einen zu verfassenden
Aufsatz auch lediglich eine Themenstellung vorgegeben werden, die nicht weiter
erläutert wird. In diesen Fällen lässt sich die Prüfungsanforderung eindeutig
auf die Schreibfertigkeit beschränken.
In umgekehrter Richtung - gleichsam als Kontrollverfahren (vgl. Arbeitshypothese
2) - ist eine Reihe von Prüfungen durchzuführen, in denen beide Fertigkeiten
dezidiert miteinander verflochten sind. Für die Abprüfung des Leseverstehens
können die Probanden - alternativ oder kumulativ - beispielsweise darum
gebeten werden, einen schriftlichen Text in der Zielsprache zusammenzufassen,
dann Fragen zu ihm zu beantworten und schließlich ihre eigene Meinung zu dem
behandelten Thema zu Papier zu bringen. Zur Ermittlung der Schreibfertigkeit
kann ihnen beispielsweise ein Aufsatzthema vorgegeben werden, das sie zuerst
zu bearbeiten haben. Im Anschluss daran erhalten sie einen Leseverstehenstext,
der exakt die gleiche Thematik behandelt wie das Aufsatzthema. Durch die im
Rahmen der Schreibaufgabe bereits bewirkte Aktivierung des entsprechenden Teils
des mentalen Lexikons der Probanden werden sie mit hoher Wahrscheinlichkeit
eine höhere Leseleistung erbringen, als wenn sie den gleichen
Leseverstehenstext bekommen hätten, ohne zuvor einen Aufsatz über dieses Thema
verfasst zu haben.
8.4.2 Forschungsprojekt Die
Bedeutung des Fehlerquotienten in Fremdsprachenklausuren
Die Zugrundelegung eines Fehlerquotienten - wie er auch in der vorliegenden
Monographie empfohlen wird - wird im Fremdsprachenbereich recht kontrovers
gesehen, also entweder vehement verteidigt oder vollkommen abgelehnt. Unter
prüfungsdidaktischen Gesichtspunkten wäre es daher interessant zu erfahren,
welche dieser beiden Einschätzungen sich als die realistischere erweist.
Fragestellung
Ist die Bewertung solcher
schriftlicher Fremdsprachenklausuren, in denen ein Fehlerquotient für die
Ermittlung der sprachlichen Leistung zugrunde gelegt wird, eine andere - eine bessere
oder eine schlechtere - als in solchen Prüfungen, denen kein Fehlerquotient
zugrunde liegt?
Begründung
Das Faktum, dass ein Fehlerquotient aus sich heraus keine vollkommene
Objektivität vermitteln kann, ist grundsätzlich evident. Diese Problematik ist
allein schon von der Festsetzung entsprechender Fehlerbereiche und deren Korrelationen
mit entsprechenden Noten abhängig: Verändert man diese, ändern sich die von den
Prüflingen erzielten Noten zum Besseren oder Schlechteren, was notwendigerweise
den Quotienten als solchen in unterschiedlichem Licht erscheinen lässt und
seine potentielle Zuverlässigkeit nachhaltig beeinflussen kann.
Aus der entgegengesetzten Argumentationsrichtung ist es kaum
vorstellbar, dass Klausurkorrektoren aus dem rein intuitiven, also auf
keinerlei Zahlenwerte gestützten Eindruck einer fremdsprachlichen Klausur auf
die Qualität der vom Prüfling erbrachten sprachlichen Leistung zu schließen
imstande sind. Aus dem rein visuell erfassbaren Anteil der Verteilung roter
Korrekturfarbe in einer gegebenen Klausur (vgl. Kap. 7.4.7.1) ist dies ebenso wenig
möglich wie auf der Basis einzelner sprachlicher Fehler, die dem Korrektor nach
getaner Arbeit zum Zwecke des Erhalts eines allgemeinen Eindrucks ins Auge
springen mögen. Diese extrem anmutenden Beispiele lassen bereits deutlich werden,
dass eine rein subjektive Einschätzung der Fehlerhaftigkeit einer
Fremdsprachenklausur kaum je zu einer zuverlässigen Bewertung oder zu einer
gerechten Benotung führen kann.
Arbeitshypothese
Die
Verwendung eines Fehlerquotienten führt zu einer vergleichsweise zuverlässigen
Bewertung fremdsprachlicher Schreibfertigkeitsleistungen. Dieser
Zuverlässigkeitsgrad ist höher als ein solcher, der unter der Nichtberücksichtigung
eines Fehlerquotienten erzielt werden kann.
Vorwissenschaftliche
Annahmen
Es steht auf dem Hintergrund der soeben angestellten Reflexionen zu
erwarten, dass die Zugrundelegung eines Fehlerquotienten die Zuverlässigkeit
der Bewertung schriftlicher fremdsprachlicher Leistungen erhöht. Die Verwendung
eines Fehlerquotienten ist somit - trotz möglicherweise vorhandener Vorbehalte
- der Nichtnutzung dieses Instrumentes vorzuziehen. Diese Annahme ist begründet
auf dem Faktum, dass jegliche Berechnung, jegliche Quantifizierung - so ungenau
sie im Einzelfall auch sein mag - der Bildung eines ad-hoc-Eindrucks naturgemäß überlegen ist. Zudem führt die Verwendung
eines Fehlerquotienten zu der Notwendigkeit, fremdsprachliche Fehler
klassifizieren und in ihrer Schwere definieren zu müssen, was aus sich heraus
bereits in einer Erhöhung der Bewertungsexaktheit resultiert. Die Verwendung
eines Fehlerquotienten erscheint somit vielversprechend.
Forschungsdesign
Das Forschungsdesign, das in Zusammenhang mit der skizzierten
Fragestellung verwendet werden kann, ist ein potentiell multiples. Aus den zur
Verfügung stehenden Möglichkeiten kristallisiert sich jedoch recht rasch die
folgende, auf drei Säulen beruhende Vorgehensweise heraus:
· Festlegung einer
in sich kohärenten Fehlerquotienten-Progression - ähnlich der in der
vorliegenden Monographie vorgeschlagenen Progression (vgl. Kap. 7.4.7.1) -
durch Befragung praktisch tätiger Lehrer und Lehrerinnen;
· Erstellung von bzw.
Verwendung bestehender Musterklausuren, die mindestens 50 praktizierenden
Lehrern und Lehrerinnen vorgelegt werden, die diese auf der Basis der im
ersten Schritt festgelegten Fehlerquotienten-Progression zu bewerten haben. Ziel
dieses Schrittes ist die Klärung der Frage, ob die von den Probanden erzielten
Bewertungsergebnisse aufgrund dieser Basis in sich homogen sind;
· Vorlage der
gleichen Musterklausuren gegenüber denselben Lehrern und Lehrerinnen mit deren
Korrekturen, jedoch unter Tilgung der ermittelten Fehlerquotienten, mit der
Aufgabe, spontan - allein aufgrund des visuellen Eindrucks dieser Klausuren - eine
Sprachnote festzulegen. Dieser Schritt sollte in hinreichendem zeitlichen
Abstand zu dem vorhergehenden Schritt erfolgen, damit die Probanden die Noten
der zuvor korrigierten Klausuren nicht mehr in Erinnerung haben.
Auf diese Weise lassen sich die folgenden Problembereiche einer zumindest ansatzweisen Klärung zuführen:
· die Erstellung
eines überindividuellen Fehlerquotienten mit einer entsprechenden Progression,
die im Sinne eines Mittelwertes aus der Arbeit praktizierender Lehrerinnen und
Lehrer hervorgeht;
· der Nachweis der
Frage, ob real vorgenommene Bewertungen auf der Basis dieses Fehlerquotienten
zu mehr oder minder einheitlichen Bewertungsresultaten führen;
· die Feststellung
einer möglichen Korrelation zwischen dem aufgrund des Fehlerquotienten
ermittelten Bewertungsergebnisses mit demjenigen, das auf der Basis des bloßen
visuellen Eindrucks erzielt worden ist, und der Versuch der Einschätzung der Frage,
welcher Ansatz - derjenige auf der Basis des Fehlerquotienten realisierte oder
der intuitive, rein visuelle - die zuverlässigeren Ergebnisse zeitigt.
Das hier vorgestellte Forschungsdesign lässt bereits deutlich werden,
wie schwer der Nachweis einer Über- oder Unterlegenheit des Fehlerquotienten methodisch
zu führen ist, da in diesem Bereich nicht von einer allein auf Objektivität
beruhenden Vergleichsfolie ausgegangen werden kann. Mit Hilfe dieses - aber
auch anderer denkbarer - Forschungsdesigns lassen sich somit lediglich
Tendenzen ermitteln, die eine zuverlässigere Einschätzung der hier
beschriebenen Problematik ermöglichen. Letztlich gültige, gleichsam unumstößliche
Aussagen lassen sich mit Hilfe dieser Verfahren dagegen nicht machen.
Bei der Beschreibung dieser Forschungsprojekte wollen wir es im vorliegenden
Zusammenhang bewenden lassen. Weitere Projekte zur Prüfungsdidaktik wären
unproblematisch hinzuzufügen - die potentielle Liste dieser ist lang -, jedoch
würde uns die Berücksichtigung weiterer Projekte nicht weiterbringen: Die hier
beschriebenen Forschungsprojekte haben lediglich exemplarischen Charakter und
mögen - so ist zu hoffen - ein gewisses Motivationspotential für interessierte
Forscher bereithalten.
[1] Von der Implementierung vollständiger Regelstudiengänge im Fach Prüfungsdidaktik wollen wir in diesem Zusammenhang realistischerweise
nicht ausgehen.
[2] Wir verwenden in gegebenem Zusammenhang zur Erleichterung der
Kommunikation und zur Vermeidung von Missverständnissen den Begriff Lehramtsstudium – in dem Bewusstsein,
dass ein „Lehramtsstudium“ zu Zeiten von Bachelor- und Master-Studiengängen nicht
mehr an allen Universitäten und Hochschulen existiert.
[3] Wenn in den modernen Philologien die Erstellung der Fachklausuren in der
jeweiligen Fremdsprache verlangt wird, dann müssen die Fachveranstaltungen
dieses Gebietes auch ausnahmslos in der Fremdsprache angeboten werden. Solange
diese Bedingung nicht erfüllt ist, sollte die Erstellung der Fachklausuren aus
Gründen der Fairness auf Deutsch verlangt werden.
[4] Zu betonen ist hier, dass diese Aussage von einem Fachvertreter getroffen
wird, der selbst nachdrücklich für die frequentest mögliche Anwendung der zu
lehrenden Fremdsprachen im Unterricht steht und auf universitärer Ebene auf den
Gebieten Linguistik und Fachdidaktik die Betreuung von Klausuren
in den Fremdsprachen vorgenommen hat - also gerade in der Form, von der im
gegebenen Zusammenhang abgeraten wird. Die hier getroffene Empfehlung basiert
somit auf entsprechenden Erfahrungswerten.
[5] Im vorliegenden Zusammenhang ist es leider nicht möglich, die einzelnen
Schritte der hier erwähnten Einzeluntersuchungen explizit zu operationalisieren.
[6] Hier lehnen wir uns bewusst an die von uns beschriebenen Kriterien der
Bewertung von Prüfungen zur Sprechfertigkeit an (vgl. Kap. 7.2).