Statistische methode - Bootstrap - Excel Nieuws - ExcelStudie

Zoeken
Ga naar de inhoud

Hoofdmenu:

Statistische methode - Bootstrap

Gepubliceerd door in Statistiek ·
Tags: bootstrap

Bootstrap

De bootstrap is een statistische methode om je steekproeven kunstmatig uit te breiden. Als je een steekproef nodig hebt om een bepaalde trend te ontdekken, zou je die bij voorkeur op 100% van de populatie willen doen, maar in de praktijk is dat tijdrovend, zo niet ondoenlijk. Een steekproef is dus altijd op een deel van een populatie en zodanig groot dat die representatief is voor de hele groep.

Het kan voorkomen dat je in het kader van een onderzoek slechts de beschikking hebt over één steekproef, je wilt bijvoorbeeld de  gemiddelde lengte weten van alle mannen op de wereld dus je wil graag meer resultaten hebben maar je kunt nu eenmaal niet de lengte van alle mannen opmeten. In dit geval biedt de bootstrap uitkomst.

Bij de bootstrap is de kansverdeling van die ene steekproef je startpunt en simuleer je de uitkomsten van een nieuwe steekproef waarbij je de dezelfde waarden gebruikt als van de eerste steekproef; dit wordt ook wel de steekproef met teruglegging genoemd. Je simuleert een ‘empirische’ populatie op basis van  één steekproef waarbij het uitganspunt is dat de kansverdeling van die ene steekproef representatief is voor de kansverdeling van de empirische populatie.

De naam ‘bootstrap’ betekent schoenveter en refereert aan het feit dat bootstrapping te vergelijken is met jezelf aan je eigen schoenveters uit het water trekken.

Je kunt het model hier downloaden: Bootstrap

Voorbeeld
Een inkoopmanager van een een bepaalde scholengemeenschap wil graag weten hoeveel fruit er wordt gegeten door meisjes en jongetjes. Op één van de aangesloten scholen bevinden zich ca. 1000 leerlingen. Er wordt een steekproef gehouden op deze school met een steekproefgrootte van 50 jongetjes en 50 meisjes. De uitkomsten zien er als volgt uit:
       


Met de bijbehorende bellcurves:





Deze uitkomsten kun je bekijken of bewerken in het volgende excelmodel: Bootstrap

Met de uitkomsten van één steekproef kun je nog niet heel erg veel. We gaan dus nu een bootstrap van de  steekproef doen om meer resultaten te verkrijgen. De resultaten hiervan vind je in het spreadsheet op het tabblad ‘Bootstrap’.

Uitleg index-formule

De formule die wordt gebruikt: =INDEX($C$4:$C$53;ROWS($C$4:$C$53)*RAND()+1)
De INDEX-functie: Levert een waarde op uit een BEPAALDE KOLOM op basis van een BEPAALD RIJNUMMER.
Het rijnummer wordt hier bepaald door met ROWS het totaal aantal rijen te tellen en dat vervolgens met een RANDOM MULTIPLIER tussen 0 en 1 te vermenigvuldigen. Aangezien rij 0 niet bestaat tellen we er 1 bij op: RAND()+1. Op deze manier doen we dus steeds een nieuwe trekking van de waardes uit de eerste steekproef.

Druk F9 om de data te verversen!

Nu heb je een grotere dataset die je meer informatie kunt geven over de betrouwbaarheidsinterval en de standaardfout.

VBA voor Excel

Met dit spreadsheet kun je dus een eenvoudige bootstrap simuleren. Maar in de werkelijkheid wil je misschien een simulatie doen op basis van een steekproef van 1000 metingen en 100 bootstraps. Dan is het gebruik van een spreadsheet een stuk minder efficient. In een volgend artikel laten we zien hoe je dit met VBA voor excel kunt programmeren zodat je meer data slimmer en sneller kunt verwerken en de ruimte in je spreadsheet beter benut.

Meer informatie
Een en ander mbt bootstrapping wordt zeer goed uitgelegd in deze video van Gerard Verschuuren:

Gerard Verschuuren heeft ook een uitstekend boek geschreven over wetenschappelijke methodes met excel:

En deze syllabus van de Rijksuniversiteit Groningen:
Weet je niets over statistiek en wil je meer te weten komen? Dan biedt Wikipedia een uitstekend startpunt:

(c) 2016 eXcelstudie



Studiemateriaal
Korting op studieboeken bij bol.com
Korting op je studieboeken
TH83 Copyright 2016 (c)
Terug naar de inhoud | Terug naar het hoofdmenu