woensdag 31 december 2014
woensdag 24 december 2014
maandag 22 december 2014
donderdag 18 december 2014
woensdag 17 december 2014
woensdag 10 december 2014
vrijdag 5 december 2014
woensdag 3 december 2014
dinsdag 2 december 2014
Big data via social media onbetrouwbaar
Facebook en Twitter worden gebruikt door wetenschappers om data te verzamelen voor hun onderzoek. Er is een artikel gepubliceerd waarin wordt gesteld dat deze data als bron niet geschikt is. De data is onbetrouwbaar en eenzijdig.
Wetenschappers van de Carnegie Mellon University en McGill University in Montreal waarschuwen dat de sociale netwerksites vooral worden gebruikt door een klein deel van de samenleving. Het is niet de echte wereld. Er zijn tal van onderzoeken (124000 hits via Google Scholar voor alleen 2014) die gebruik maken van deze sociale netwerksites om informatie te verzamelen over het menselijk gedrag. In de onderzoeken wordt te weinig gecorrigeerd voor demografische factoren.
Jonge twitteraars, oude LinkedIn-gebruikers
Onder tieners zijn relatief meer twitteraars dan LinkedIn-gebruikers. En oudere internetters hebben vaker een LinkedIn-profiel. In onderstaand figuur is dit geïllustreerd op basis van data uit de VS voor de maand oktober 2013.
Dewey defeats Truman
Het onderzoek refereert naar een onderzoek uit 1948 waarin de Chicago Tribune een dag na de door Truman gewonnen presidentverkiezing de krant opende met “Dewey Defeats Truman”. Op basis van telefonische interviews kwam de krant tot de conclusie dat Dewey zou gaan winnen. Een staking bij de drukker zorgde voor tijdsdruk en dus werd besloten dat de favoriet van de krant werd uitgeroepen tot winnaar.
- De eerste fout was dat de selectie van ondervraagden was gebaseerd op abonnees van de Chicago Tribune die grotendeels op de Republikeinen stemden.
- Een tweede fout was dat er telefonisch informatie werd verzameld. De Dewey-stemmers hadden vaker een telefoon dan de Truman-stemmers.
- De derde fout was dat er een quotum werd gebruikt in plaats van een aselecte steekproef, hierdoor was er een te eenzijdig beeld ontstaan.
De makkelijke dataset
Het gebruiken van de data van social mediasites door wetenschappers blijft plaatsvinden, want de data is snel beschikbaar. Een dataset wordt makkelijk samengesteld, ondanks dat wetenschappers weten dat het eenzijdige informatie is. Een ander aspect is dat het gedrag op sociale netwerksites verschilt van hoe iemand zich offline gedraagt. In het onderzoek wordt ook gesteld dat veel documenten, papers, rapporten en publicaties worden gebruikt om het publiek te informeren en beslissingen te rechtvaardigen. Onderzoek is vaak te subjectief en te veel gesimplificeerd volgens de onderzoekers.
Met de vijftien vragen om statistiek in het nieuws beter te snappen is er hier duidelijk dat veel onderzoeken niet generaliseerbaar zijn.
tl;dr
Big data via social media onbetrouwbaar
Big data via social media onbetrouwbaar
Read article, source: Big data via social media onbetrouwbaar»
Via MarijnKrijger.nl