Assumptie bij regressie-analyse: normaliteit van de residuen

Statistiek Statistiek

De statistiek die wordt gebruikt in veel exacte en sociale wetenschappen maakt altijd gebruik van bepaalde assumpties. Zonder assumpties kun je geen zinnige uitspraken doen over data. De uitkomsten van geanalyseerde data zal niet kloppen en niet overeenkomen met de principes van de statistiek. Een belangrijke assumptie bij regressie-analyse is de assumptie van normaliteit van de residuen. Naast de assumptie van normaliteit is er ook sprake van de assumptie van homoscedasticiteit en onafhankelijkheid. 

De assumptie van normaliteit van de residuen

Als we het hebben over de assumptie van normaliteit van de residuen, dan bedoelen we dat de residuen normaal verdeeld moeten zijn. De assumptie is een belangrijke assumptie want de resultaten van een dataset zijn anders niet meer kloppend. Bij regressie-analyse is het zo dat er bij de berekening van de significantietoetsing en betrouwbaarheidsinterval (BHI) standaard gebruik wordt gemaakt van de zogenaamde t-toets. Een t-toets (te vinden in het statistiekprogramma SPSS) werkt niet als de residuen niet normaal verdeeld zijn.

Residuen zijn niet normaal verdeeld

Als de residuen niet normaal verdeeld zijn heb je een probleem. In dat geval wordt de p-waarde te snel onderschat / overschat en kloppen de conclusies die je kunt trekken, niet. Er zullen dus onjuiste conclusies worden getrokken. Het is daarom ook altijd erg belangrijk om te controleren op normaliteit van de residuen. Er zijn een aantal manieren om te controleren op normaliteit.

Normalieit van de residuen controleren

Er bestaan verschillende manieren om op normaliteit te controleren. De meeste mensen maken gebruik van SPSS om dit te doen. De drie meest gebruikte methoden/testen zijn:

  • Shapiro-Wilk test & Kolmogoriv-Smirnov test
  • Controleren op Skewness & Kurtosis
  • Gebruik maken van een PP-plot, QQ-plot of een Histogram

De Shapiro-Wilk test is een normaliteitstest, net als de Kolmogoriv-Smirnov test. Beide testen zijn normaliteitstesten die door veel onderzoekers wordt gebruikt om te controleren voor een afwijking van normaliteit. De uitkomsten van de test laat zien of een verdeling wel of niet significant afwijkt van een exact normale verdeling. Met scheefheid (skewness) en platheid (kurtosis) kan inzicht worden verkregen in hoe de verdeling precies loopt. 

Noramiliteit valt ook te controleren met een PP-plot. Het is belangrijk om te kijken naar het verloop van de lijn. Met een PP-plot valt niet te zien of een verdeling wel of niet significant afwijkt van een normale verdeling. Bij een PP-plot is het dus vooral zelf beoordelen. Als de assumptie van normaliteit niet is geschonden, dan liggen de residuen op een rechte lijn.

Wat moet je doen als de assumptie niet geldt?

Als de assumptie geschonden is dan is er dus een probleem. Het kan zijn dat er een aantal outliers in de data zitten. Deze outliers (ook wel uitbijters genoemd) heben veel invloed op de uitkomsten van bijvoorbeeld de shapiro-wilk test. Het kan dan verleidelijk zijn om de outlier(s) te verwijderen. Dit is normaal gesproken natuurlijk niet de bedoeling (tenzij het om een meetfout gaat). Wanneer de steekproef groter wordt, dan is er ook eerder kans dat de data voldoet aan de assumptie.

Reageer op: "Assumptie bij regressie-analyse: normaliteit van de residuen"

Anderen lazen ook

© 2016 - 2018 www.mensenlichaam.nl

Onderdeel van het Trivomedia-netwerk