woensdag 31 december 2014

De reclame van post-it voor boekendag.

Er is een nieuw bericht gepubliceerd op


woensdag 24 december 2014

Boeken en een kerstboom

Er is een nieuw bericht gepubliceerd op


maandag 22 december 2014

donderdag 18 december 2014

woensdag 17 december 2014

Foyles. Beste boekgever. Het beste cadeau is een boek.

Er is een nieuw bericht gepubliceerd op


woensdag 10 december 2014

Een boek eindigt, een ander boek begint

Er is een nieuw bericht gepubliceerd op


vrijdag 5 december 2014

woensdag 3 december 2014

dinsdag 2 december 2014

Big data via social media onbetrouwbaar

How to lie with statistics?


Facebook en Twitter worden gebruikt door wetenschappers om data te verzamelen voor hun onderzoek. Er is een artikel gepubliceerd waarin wordt gesteld dat deze data als bron niet geschikt is. De data is onbetrouwbaar en eenzijdig.


Wetenschappers van de Carnegie Mellon University en McGill University in Montreal waarschuwen dat de sociale netwerksites vooral worden gebruikt door een klein deel van de samenleving. Het is niet de echte wereld. Er zijn tal van onderzoeken (124000 hits via Google Scholar voor alleen 2014) die gebruik maken van deze sociale netwerksites om informatie te verzamelen over het menselijk gedrag. In de onderzoeken wordt te weinig gecorrigeerd voor demografische factoren.


Jonge twitteraars, oude LinkedIn-gebruikers


Onder tieners zijn relatief meer twitteraars dan LinkedIn-gebruikers. En oudere internetters hebben vaker een LinkedIn-profiel. In onderstaand figuur is dit geïllustreerd op basis van data uit de VS voor de maand oktober 2013.



Dewey defeats Truman


Het onderzoek refereert naar een onderzoek uit 1948 waarin de Chicago Tribune een dag na de door Truman gewonnen presidentverkiezing de krant opende met “Dewey Defeats Truman”. Op basis van telefonische interviews kwam de krant tot de conclusie dat Dewey zou gaan winnen. Een staking bij de drukker zorgde voor tijdsdruk en dus werd besloten dat de favoriet van de krant werd uitgeroepen tot winnaar.



  • De eerste fout was dat de selectie van ondervraagden was gebaseerd op abonnees van de Chicago Tribune die grotendeels op de Republikeinen stemden.

  • Een tweede fout was dat er telefonisch informatie werd verzameld. De Dewey-stemmers hadden vaker een telefoon dan de Truman-stemmers.

  • De derde fout was dat er een quotum werd gebruikt in plaats van een aselecte steekproef, hierdoor was er een te eenzijdig beeld ontstaan.


De makkelijke dataset


Het gebruiken van de data van social mediasites door wetenschappers blijft plaatsvinden, want de data is snel beschikbaar. Een dataset wordt makkelijk samengesteld, ondanks dat wetenschappers weten dat het eenzijdige informatie is. Een ander aspect is dat het gedrag op sociale netwerksites verschilt van hoe iemand zich offline gedraagt. In het onderzoek wordt ook gesteld dat veel documenten, papers, rapporten en publicaties worden gebruikt om het publiek te informeren en beslissingen te rechtvaardigen. Onderzoek is vaak te subjectief en te veel gesimplificeerd volgens de onderzoekers.


Met de vijftien vragen om statistiek in het nieuws beter te snappen is er hier duidelijk dat veel onderzoeken niet generaliseerbaar zijn.


tl;dr


Big data via social media onbetrouwbaar


Big data via social media onbetrouwbaar




Read article, source: Big data via social media onbetrouwbaar»

Via MarijnKrijger.nl