Back to Search Start Over

Regression Modelling with Complex Survey Data: An Investigation Using an Extended Close-to-Reality Simulated Household Population

Authors :
Ertz, Florian
Publication Year :
2017
Publisher :
Trier University, 2017.

Abstract

The Eurosystem's Household Finance and Consumption Survey (HFCS) collects micro data on private households' balance sheets, income and consumption. It is a stylised fact that wealth is unequally distributed and that the wealthiest own a large share of total wealth. For sample surveys which aim at measuring wealth and its distribution, this is a considerable problem. To overcome it, some of the country surveys under the HFCS umbrella try to sample a disproportionately large share of households that are likely to be wealthy, a technique referred to as oversampling. Ignoring such types of complex survey designs in the estimation of regression models can lead to severe problems. This thesis first illustrates such problems using data from the first wave of the HFCS and canonical regression models from the field of household finance and gives a first guideline for HFCS data users regarding the use of replicate weight sets for variance estimation using a variant of the bootstrap. A further investigation of the issue necessitates a design-based Monte Carlo simulation study. To this end, the already existing large close-to-reality synthetic simulation population AMELIA is extended with synthetic wealth data. We discuss different approaches to the generation of synthetic micro data in the context of the extension of a synthetic simulation population that was originally based on a different data source. We propose an additional approach that is suitable for the generation of highly skewed synthetic micro data in such a setting using a multiply-imputed survey data set. After a description of the survey designs employed in the first wave of the HFCS, we then construct new survey designs for AMELIA that share core features of the HFCS survey designs. A design-based Monte Carlo simulation study shows that while more conservative approaches to oversampling do not pose problems for the estimation of regression models if sampling weights are properly accounted for, the same does not necessarily hold for more extreme oversampling approaches. This issue should be further analysed in future research.<br />Der Eurosystem Household Finance and Consumption Survey (HFCS) erhebt Mikrodaten zu Aktiva und Passiva, Einkommen und Konsumausgaben privater Haushalte. Es ist bekannt, dass Verm��gen ungleich verteilt ist und dass die verm��gendsten Personen bzw. Haushalte einen gro��en Anteil des Gesamtverm��gens auf sich vereinigen. F��r Stichprobenerhebungen deren Ziel die Messung des Verm��gens und seiner Verteilung ist, stellt dieser Sachverhalt ein Problem dar. Um dieses zu l��sen, versuchen einige der Erhebungen der HFCS-Initiative einen ��berproportional gro��en Anteil vermutlich verm��gender Haushalte in die Stichprobe zu ziehen. Ein solches Vorgehen wird als Oversampling bezeichnet. Werden solche Arten komplexer Erhebungs-Designs bei der Sch��tzung von Regressionsmodellen ignoriert, so kann dies zu ernsthaften Problemen f��hren. Diese Arbeit zeigt zun��chst solche Probleme anhand von Daten aus der ersten Welle des HFCS und von typischen Regressionsmodellen aus dem Bereich Household finance auf. Zudem wird eine erste Handlungsempfehlung an NutzerInnen der HFCS-Daten in Bezug auf die Nutzung von Replikationsgewicht-S��tzen f��r die Varianzsch��tzung mittels einer Variante des Bootstrap gegeben. Eine tiefergehende Untersuchung der Fragestellung verlangt eine design-basierte Monte-Carlo-Simulationsstudie. Zu diesem Zweck wird die bereits bestehende, gro��e und realit��tsnahe Simulationspopulation AMELIA um synthetische Verm��gensdaten erweitert. Es werden verschiedene Methoden zur Generierung synthetischer Mikrodaten im Kontext der Erweiterung einer synthetischen Simulationspopulation, die auf einer anderen Datenbasis erzeugt wurde, diskutiert. Ein weiterer Ansatz, der zur Erzeugung stark schiefer, synthetischer Mikrodaten in einer solchen Ausgangslage mithilfe von mehrfach imputierten Erhebungsdaten geeignet ist, wird vorgeschlagen. Nach einer Beschreibung der in der ersten Welle des HFCS verwendeten Erhebungs-Designs werden neue Erhebungs-Designs f��r AMELIA erstellt. Diese spiegeln Kernaspekte der HFCS-Erhebungs-Designs wider. Eine design-basierte Monte-Carlo-Simulationsstudie zeigt, dass konservativere Varianten des Oversampling bei der Sch��tzung von Regressionsmodellen keine Probleme bereiten sofern Survey-Gewichte ordnungsgem���� eingebunden werden. Hingegen gilt dies nicht notwendigerweise f��r extremere Varianten des Oversampling. Dieses Problem sollte im Rahmen zuk��nftiger Forschung weiter untersucht werden.

Details

Language :
German
Database :
OpenAIRE
Accession number :
edsair.doi...........eeba43aefa32303f14243d5655f7952f
Full Text :
https://doi.org/10.25353/ubtr-xxxx-8383-d7e0