Wissenschaftliche Diskussion
Nicht nur die breite Öffentlichkeit hat die NORAH-Studie verfolgt. Auch andere Wissenschaftler waren und sind an NORAH interessiert und stellen den Wissenschaftlern Fragen zu Durchführung, Methodik und Ergebnissen. Das NORAH-Forscherteam hat sich bemüht, alle Fragen ausführlich zu beantworten. Diese wissenschaftlichen Fragen und Antworten können Sie hier im Folgenden nachlesen.
Fragen zu NORAH allgemein
„Es fehlen adäquate Vergleichsgruppen aus unbelasteten Regionen.“
Kurze Antwort:
Bei einer von Fluglärm gänzlich unbelasteten Vergleichsgruppe, wie Kritiker der NORAH-Studie sie fordern, würden zwangsläufig andere alltägliche Lärmquellen in den Vordergrund treten: Baustellen, Nachbarn, Haushalt etc. Deshalb verfolgt NORAH einen anderen Ansatz: Statt nur zwei Gruppen von Teilnehmern zu vergleichen – belastete und unbelastete –, untersuchte die Studie die Auswirkung von Fluglärm bei einer ganzen Skala von Fluglärmpegeln. Daraus leitet sie sogenannte „Expositions-Wirkungsbeziehungen“ ab, also Beziehungen zwischen der Höhe der Lärmbelastung und ihrer gesundheitlichen Auswirkung. Die Beobachtungen von NORAH beginnen bei einem Fluglärm-Dauerschallpegel von 40 Dezibel. Das entspricht der Lautstärke eines leisen Gesprächs in einem Meter Abstand. Bei der Studie zu Krankheitsrisiken und der Lebensqualitätsstudie wurden sogar Pegel ab 35 Dezibel ausgewertet. Unterhalb dieser Pegel wäre die Wirkung von Fluglärm nicht mehr von der Wirkung von Alltagsgeräuschen zu unterscheiden, das Ergebnis wäre ungenau.
Ausführlichere Antwort:
Das Ziel der NORAH-Studie ist es, die Auswirkungen der Verkehrslärmbelastung auf verschiedene Gesundheitseffekte zu ermitteln (Auftreten bestimmter Erkrankungen, Erhöhung des Blutdrucks, Verschlechterung der Schlafqualität, Höhe der Belästigung und Verringerung der Lebensqualität). Methodisch wird dazu die Beziehung zwischen der Höhe der Schallexposition aus dem Flug-, Straßen- und Schienenverkehr und die Häufigkeit dieser Gesundheitsschäden erfasst. Diese Beziehung nennt man „Expositions-Wirkungsbeziehung“ – sie ist unterschiedlich für jede Verkehrslärmart und jeden untersuchten Gesundheitseffekt. Die Expositions-Wirkungsbeziehung kann umso besser geschätzt werden, je größer die Spannbreite der Lärmbelastung ist. Idealerweise würde man deshalb Regionen einbeziehen, in denen überhaupt keine Belastung mit der betreffenden Verkehrslärmart vorliegt (sog. „unbelastete Kontrollgebiete“). Besonders in Regionen mit geringer Lärmbelastung treten aber neben dem Flug-, Straßen- und Schienenlärm zunehmend andere Alltagsquellen in den Vordergrund (Baustellen, Haushalt, Kinder, Windgeräusche etc.). Deshalb wird es immer schwieriger, die dort beobachteten Gesundheitseffekte eindeutig einer bestimmten Lärmart zuzuordnen. Durch die Vielzahl von Einflüssen wird die Vergleichbarkeit mit den stärker belasteten Regionen immer weiter eingeschränkt. Deshalb wurde in allen Teilstudien von NORAH die Abwägung getroffen, nur Regionen einzubeziehen, deren Fluglärmbelastung mindestens 40 Dezibel betrug – bzw. bei der Studie zu Krankheitsrisiken und der Lebensqualitätsstudie sogar nur mindestens 35 Dezibel.
Für Interessierte: Prof. Greiser richtete die Frage nach der Notwendigkeit von unbelasteten Vergleichsgruppen schon im November 2014 an das wissenschaftliche Team der NORAH-Studie, das damals ausführlich geantwortet hatte:
„Stellungnahme: Ist eine unbelastete Referenzregion notwendig“ (PDF, 214 KB)
„Die Beteiligungs- bzw. Responseraten sind in vielen Studienteilen von NORAH viel zu niedrig.“
Niedrige Antwortraten waren tatsächlich eine Herausforderung für die NORAH-Studie. Eine niedrige Beteiligung ist zu einem allgemeinen Problem sozialwissenschaftlicher und epidemiologischer Forschung geworden. Güte und Repräsentativität der Ergebnisse hängen aber nicht allein vom Anteil der Teilnehmenden ab. Wichtig ist ein angemessener methodischer Umgang mit den erhobenen Daten der Untersuchungsgruppe. Bei NORAH wurden anerkannte statistische Verfahren verwendet. Für Fachleute: Zum Beispiel wurden Sensitivitätsanalysen, Modellgewichtungen und nachträgliche Non-Responder-Befragungen durchgeführt. Die Ergebnisse dieser Prüfungen wurden in der Interpretation der Ergebnisse berücksichtigt. Sie haben gezeigt, dass die Beteiligungsraten hoch genug waren, um valide Ergebnisse zu erhalten.
Fragen zur Blutdruckstudie
„Die durchgeführten Blutdruckmessungen sind möglicherweise fehlerbehaftet, weil die Anleitung zur Messung fehlerhaft war.“
Hier geht es einigen Kritikern um die Frage, ob der Blutdruck über der Kleidung oder auf dem nackten Oberarm gemessen wurde. Tatsächlich hat das Studienpersonal die Teilnehmer angewiesen, auf dem nackten Oberarm zu messen. Die in einigen Publikationen abgebildeten Fotos sind fehlerhaft, denn sie zeigen, dass die Manschette teilweise über dünnem Stoff angelegt wurde. Sie sind nachträglich produziert worden, um das Verfahren zu illustrieren, und wurden nicht zur Teilnehmerschulung eingesetzt. Selbst wenn einzelne Teilnehmer irrtümlich über dünnem Stoff (Hemdsärmel, Blusen, dünne Pullover) gemessen haben, ergeben sich mit heutigen Geräten – wenn überhaupt - nur minimale, klinisch nicht relevante Abweichungen in der Größenordnung von 1 mmHg, und zwar nach oben (vgl. z.B. Liebl, Max 2007: Der Einfluss von Bekleidung unter der Messmanschette auf das Ergebnis der sphygmomanometrischen und oszillometrischen Blutdruckmessung. Dissertation, LMU München: Medizinische Fakultät).
Und was wäre, wenn nun doch einzelne Teilnehmer entgegen der Einweisung über dünner Kleidung gemessen hätten? Dann würden sich wenige kleine Messfehler zufällig über die Studiengruppe verteilen. Dies hätte keine Auswirkungen auf die Analysenergebnisse eines Zusammenhangs von Blutdruck und Lärmbelastung. Bei zu dicker Kleidung kann der Sensor des Messgerätes den Puls nicht messen, verweigert die Messung und gibt stattdessen eine Fehlermeldung aus.
„In der Stichprobe der Blutdruckstudie sind Angehörige der Oberschicht mit statistisch höherem Gesundheitsniveau überrepräsentiert.“
Tatsächlich unterscheidet sich die Stichprobe der Blutdruckstudie hinsichtlich einiger soziodemographischer und gesundheitsbezogener Parameter vom bundesweiten Durchschnitt der Bevölkerung, wie er beispielsweise im GEDA-Gesundheitssurvey des Robert-Koch-Instituts erhoben wird. Diese Unterschiede haben die Wissenschaftlerinnen und Wissenschaftler in den ausführlichen Befragungen der Teilnehmer genau erfasst und in den Ergebnisberichten transparent dargestellt. In ihren Analysen prüften die NORAH-Wissenschaftler, ob dadurch das Ergebnis verzerrt wird. Sie testeten zum Beispiel, ob sich innerhalb der Stichprobe bei sozial schwächeren Teilnehmern ein anderer Zusammenhang zwischen Lärm und Blutdruck nachweisen lässt als bei sozial besser gestellten. Diese Analysen sind in den Ergebnisberichten ausführlich dokumentiert. Sie haben keine Hinweise auf Verzerrungen durch soziale oder gesundheitsbezogene Faktoren ergeben.
„Warum wurden Bluthochdruck-Patienten von der Blutdruckstudie ausgeschlossen?“
Das Studienkonzept sah vor, nur in Bezug auf ihren Blutdruck gesunde Personen zu untersuchen. Eventuell seit langem bestehender Bluthochdruck anderer Ursache sollte nicht in die Studie einfließen. Außerdem nehmen Betroffene in der Regel blutdrucksenkende Mittel ein, so dass sich ihre Messwerte nicht ohne Weiteres mit denen anderer Personen vergleichen lassen. Dennoch wurden letztlich auch in der Hauptstichprobe der Blutdruckstudie einige Menschen mit Bluthochdruck untersucht, nämlich jene, die zu Beginn der Studie nichts davon wussten. Das waren etwa 5 Prozent der Teilnehmer. In dieser Teilgruppe bestand kein wesentlich anderer Zusammenhang zwischen Fluglärm und Blutdruck.
„Warum wurden bei der Blutdruckstudie als potenzielle Confounder zwar Alter, Taille-Hüft-Verhältnis, Packyears, Wohndauer und Lärmempfindlichkeit herangezogen, nicht jedoch der wichtigste Confounder: der Body-Mass-Index als Indikator für Übergewicht?“
Antwort der Studienleiterin Dipl.-Ing. Anja zur Nieden, MPH:
Das Taille-Hüft-Verhältnis (THV) ist ein genaueres Maß für den Einfluss von Übergewicht auf kardiovaskuläre Erkrankungen als der Body-Mass-Index. Wir haben dazu den Taillen- und den Hüftumfang gemessen. Das THV ist das bessere Maß für die relevante Fettverteilung im Körper als der Body-Mass-Index. Je nach Körperbereich Zone geht von Fettpolstern mehr oder weniger Risiko für kardiovaskuläre Erkrankungen aus. Der BMI ist zwar ein Indikator für Übergewicht, sagt aber nicht aus, wo die Fettpolster sitzen. Wir haben aber auch Körpergröße und Gewicht abgefragt, damit können wir den BMI berechnen. Er ist auch in den PROCAM-Score eingegangen, der das Zehnjahres-Herzinfarkt-Risiko schätzt.
„Warum ist in der Blutdruckstudie zwar der PROCAM-Score als Zielvariable definiert worden, nicht jedoch der Bluthochdruck?“
Der Bluthochdruck ist definiert worden und als Nebenzielgröße ausgewertet worden.
Fragen zur Schlafstudie
„Warum wurden Menschen von der Schlafstudie ausgeschlossen, die an Schlafstörungen leiden?“
Ziel der Studie war es, den Einfluss von nächtlichem Fluglärm auf den Schlaf zu bestimmen. Einige Menschen leiden unter so genannten intrinsischen, also inneren, nicht durch Umwelteinflüsse verursachten Schlafstörungen wie zum Beispiel einer Schlafapnoe (starkes Schnarchen). Diese Menschen wurden bei NORAH ausgeschlossen, und zwar aus gutem Grund. Denn in solchen Fällen können Wissenschaftler die Ursache für Schlafstörungen oder morgendliche Müdigkeit nicht sicher ermitteln: War es der Fluglärm oder die intrinsische Störung? Weil die Betroffenen auch ohne Fluglärm häufig aufwachen, würden die Forscher den Anteil der durch Lärm ausgelösten Aufwachreaktionen eher unterschätzen. Hätte NORAH diese Personen mit untersucht, so hätte die Studie also den Einfluss von Fluglärm auf den Schlaf sehr häufig systematisch unterschätzt, was nicht im Interesse der Betroffenen gelegen hätte.
„Warum wurden in die Schlafstudie bestimmte Gebiete nicht mit einbezogen?“
(Sämtliche zusätzliche Teilnehmer in 2012 wurden ausschließlich aus den Untersuchungsgebieten des Jahres 2011 rekrutiert. Die seit 2011 (Inbetriebnahme der Landebahn Nordwest) neu von Fluglärm belasteten Anwohner wurden nicht einbezogen.)
Antwort des Teilstudienleiters Dr. Uwe Müller:
Das Hauptziel der Schlafstudie war die Untersuchung der Schlafqualität vor und nach Einführung des Verbots planmäßiger Flüge zwischen 23 und 5 Uhr in einer Längsschnittuntersuchung von 2011 bis 2012, unter Berücksichtigung von zwei verschiedenen Bettzeiten („Frühschläfer“, „Spätschläfer“). Die Untersuchung des Schlafs von Neubelasteten vor und nach Inbetriebnahme der Landebahn Nordwest und möglicher daraus resultierender Überschusseffekte ist ebenfalls eine sehr interessante Forschungsfragestellung. Dies ist auch zu Studienbeginn intensiv diskutiert worden. Aus Budget- und Kapazitätsgründen konnte in den Sommern 2011 und 2012 aber nur eine der oben genannten Fragestellungen adäquat bearbeitet werden. In Abwägung aller Argumente haben sich die Beteiligten einstimmig auf die Untersuchung der ersteren Fragestellung geeinigt.
Im Jahr 2013 haben wir in unsere Schlafuntersuchungen mit der vegetativ-motorischen Methode auch Versuchspersonen aus Flörsheim und den neu belasteten Frankfurter Gebieten einbezogen.
Die Ergebnisse der NORAH-Schlafstudie können zwar nichts über die Schlafqualität von neubelasteten Anwohnern in der Änderungssituation selbst aussagen, aber sie sind natürlich für alle Anwohner des Frankfurter Flughafens gültig, wenn diese Änderungssituation nicht mehr besteht. Es gibt derzeit keine Erkenntnisse in der Schlafforschung, die vermuten lassen, dass jetzt, 4 Jahre nach Inbetriebnahme der Landebahn Nordwest, sich der Schlaf der Neu- von denen der Altbelasteten noch signifikant unterscheidet.
Fragen zur Lebensqualitätsstudie
„Wie wurde bei der Lebensqualitätsstudie die Qualität der telefonischen Befragungen sichergestellt?“
Das Sozialwissenschaftliche Umfragezentrum (SUZ) in Duisburg führte alle Umfragen für die Lebensqualitätsstudie durch. Das SUZ ist eine wissenschaftliche Einrichtung, die mit einer Vielzahl von Hochschulen kooperiert und Umfragen nach modernen wissenschaftlichen Standards anbietet. Dazu gehört auch eine laufende Qualitätssicherung.
Sie umfasst unter anderem:
- eine ausführliche Einarbeitung für alle Interviewer
- die Anwesenheit von zwei Supervisoren während der Befragungen. Die Supervisoren verfolgen auf einem Bildschirm, an welcher Stelle des Fragebogens sich ein Interview befindet. Außerdem überwachen sie bei Rundgängen im Telefonlabor akribisch, dass Fragen korrekt vorgelesen werden. Bei Abweichungen weisen sie die Interviewer auf die korrekte Interviewführung hin.
- Interviewer haben jederzeit die Möglichkeit, Probleme zurückzumelden oder Rückfragen zu stellen.
- In der Umfrage zur Lebensqualität und Belästigung wurden überwiegend erfahrene Interviewer eingesetzt.
- Das SUZ besitzt ein eigenes System zur Bewertung der Interviewer-Leistung. Eine Analyse des Datensatzes zeigte keine Auffälligkeiten durch nachlässiges Interviewer-Verhalten.
Ein Hineinhören in das Interview oder gar eine Aufzeichnung fand nicht statt. Dies hätte datenschutzrechtlich der Einwilligung der Befragten bedurft. Die dadurch zu erwartenden Auswirkungen auf das Antwortverhalten der Befragten sollten vermieden werden. Im Fall einer Aufzeichnung hätte man nur Interviews von Befragten analysieren können, die der Aufzeichnung zugestimmt haben und die sich daher möglicherweise durch ein besonderes Antwortverhalten auszeichnen.
Die Fragenkataloge zur Lebensqualitätsstudie finden Sie hier am unteren Ende der Seite.
„Warum durften »extrem belastete Personen« nicht an der Lebensqualitätsstudie teilnehmen?“
Diese Behauptung ist nicht zutreffend. Es wurden keine extrem belasteten Personen von der Teilnahme ausgeschlossen. Es wurden lediglich zu Beginn beim Aufbau des Panels mögliche bereits bekannte Umzugsabsichten während des Untersuchungszeitraumes von drei Jahren abgefragt. Bestanden derartige Absichten innerhalb der nächsten 12 bis 18 Monate, dann wurde noch der Grund des Umzuges abgefragt und das Interview beendet. Die Begründung liegt auf der Hand: Es sollten Probanden für einen dreijährigen Untersuchungszeitraum gewonnen werden, es ging hier nicht um eine einmalige Querschnittsbefragung. Dieser Ausschluss galt nur für die erste Befragungswelle 2011, da ab 2012 ja die Probanden vor und nach der Eröffnung der Landebahn Nordwest befragt werden konnten.
Aus der telefonischen Befragung wurden Personen ansonsten nur dann herausgenommen, soweit diese nicht mehr befragungsfähig waren (dauerhaft erkrankt, verstorben, etc.) Es gab keinerlei Selektionen, soweit sich diese nicht aus der Befragungsfähigkeit erklärten.
„Sind die Angehörigen der Oberschicht mit statistisch höherem Gesundheitsniveau überrepräsentiert?“
In der Teilstudie zur Lebensqualität wurden die zu befragenden Personen per Zufall anhand von Einwohnermeldedaten ausgewählt. Das Studiendesign hat dabei keinerlei einschränkenden Auswahlkriterien vorgesehen, die die Teilnahme bestimmter Bevölkerungsschichten ausschließt oder andere im besonderen Maße begünstigt. Entsprechend ist eine im Hinblick auf den Sozialstatus inkl. Bildung, berufliche Position, Einkommen breite Verteilung der Stichprobe gegeben. Menschen ohne und mit unterschiedlichstem Migrationshintergrund sind befragt worden. Beides, Sozialschicht und Migrationshintergrund, ist in allen Auswertungen berücksichtigt worden und somit Effekte auf die betrachteten Lebensqualitätsbereiche "kontrolliert" worden. Die für den Flug-, Schienen- und Straßenverkehrslärm ermittelten Wirkungen sind in verschiedensten Sensitivitätsanalysen im Hinblick auf ihre Robustheit und Verallgemeinerbarkeit geprüft worden. Anhaltspunkte für demographisch bedingte, verzerrende Effekte auf die Ergebnisse sind nicht gefunden worden. Die Ergebnisse werden als robust erachtet.
Fragen zur Kinderstudie
Wurde beim Lesetest auch ein Matching-Ansatz verfolgt?
Ein Fragesteller äußerte Zweifel, ob mit den angewandten Mehrebenen-Regressionsmodellen die Vergleichbarkeit der unterschiedlich fluglärmexponierten Kinder hinsichtlich anderer Einflussfaktoren auf den Leseerwerb (potenzielle Confounder) ausreichend sichergestellt werden konnte.
Alternativ zum Mehrebenen—Regressionsmodell hätte – so die Anregung – auch ein Matching-Ansatz verwendet werden können, mit dem Vorteil, dass der Aspekt der Selektivität sauberer kontrolliert werden könnte.
Der Fragesteller wollte wissen, ob man bei NORAH auch einen solchen Ansatz durchgeführt habe und wenn ja, wie in diesem Fall die Ergebnisse waren?
Antwort des NORAH-Teams:
Es wurden Mehrebenenanalysen (MLA) berechnet, da es im Kontext von bildungswissenschaftlichen Studien und bisherigen Lärmwirkungsstudien (insbesondere der multizentrischen RANCH-Studie) mit ähnlicher Fokussierung als Goldstandard angesehen wird und auch aufgrund der signifikanten ICCs angezeigt war. Anstelle von (Extrem-)Gruppenvergleichen sollte die Fluglärmbelastung als kontinuierliche Variable behandelt werden. Ein Matching wurde zu Beginn der Studie bei der Auswahl der einzubeziehenden Schulen gewählt, um eine Konfundierung der Fluglärmbelastung mit sozioökonomischen Faktoren zu umgehen.
Im Nachgang wurden die vorgeschlagenen zusätzlichen Sensitivitätsanalysen durchgeführt (Propensity Score Matching, PSM). Dabei hat sich an den Ergebnissen nichts geändert, vielmehr bestätigt sich, dass die durchgeführten a-priori Matching der Schulen gut funktioniert hat.
Die Ergebnisse dieser Nachberechnungen sind hier als Download verfügbar:
Download Ergebnisse der Nachberechnung (PDF, 344 KB)
Download Stellungnahme (PDF, 43 KB)