Comment faire des statistiques comme Google ?

Recommander cet Article   Imprimer ce billet
Laetitia Levasseur, le mardi 22 août 2017

Au bout de quatre ans de recherche, Seth Stephens-Davidowitz, ancien employé Data Scientist de Google et aujourd’hui contributeur au New York Times, vient de publier son livre Everybody Lies : Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are.

A travers les exemples caustiques, et parfois bien plus tristes, des tendances et préoccupations des américains, l’analyse des recherches Google des internautes révèle ce formidable outil de statistiques sur la psyché humaine qu’est le géant du web.  

1/ Contexte

Tout le monde ment : voilà ce que révèle l’œuvre de Stephens-Davidowitz. Et ce que personne n’ose dire ou demander à sa famille, à ses proches ou collègues, et même à son psy, tout le monde en parle à son moteur de recherche favori, des craintes les plus profondes aux questions les plus embarrassantes.  

Voici quelques exemples parmi les millions de recherches tapées par les américains dans leur barre de recherche Google : symptôme étrange que l’on craint être celui d’une maladie mortelle, crainte de surpoids de sa fille plus que de son fils, interrogation sur le génie de son fils plus que de sa fille…

Les recherches Google révèlent aussi les passe-temps favoris des américains au chômage et permettent ainsi d’établir le taux prédictif de chômage sur une période donnée.

Les recherches de Stephens-Davidowitz révèlent également le racisme stagnant aux Etats-Unis, avec des recherches associant « nègre » à « stupide », plus fréquentes que celles de « migraine », des amalgames associant « musulman » à « terroriste » ou « réfugié », mais jamais « noir » à « terroriste », alors que « noir » est souvent associé à « malpoli ».

Si les recherches dépendent parfois de l’actualité (tueries, attentats…), ce que Google met en lumière : c’est que les gens mentent même dans les sondages, par honte ou besoin de valorisation sociale, mais pas sur leur moteur de recherche, pensant que personne ne les voit.

 

2/ La Méthode Google

Comment la firme Google fait-elle pour traiter cette masse phénoménale de données qu’est le Big Data ?

Elle utilise par exemple l’outil Google Trends, qui mesure la fréquence des mots ou expressions tapés par les internautes dans leur barre de recherche ; Google Analytics, service gratuit permettant de mesurer l’audience d’un site web, ou encore Google Correlate qui établit des corrélations entre les données.

Ces statistiques permettent de croiser informations et expériences anonymisées et d’adapter son comportement en fonction des résultats, dans une approche prédictive.

Ainsi, la méthode Google rectifie les résultats biaisés des sondages dans lesquels les citoyens mentent encore. En outre, elle permet de mesurer l’impact d’une politique sur la population et de l’ajuster en fonction. A titre d’exemple, après la tuerie de San Bernardino, en décembre 2015, le discours de Barak Obama avait changé les perceptions sur l’Islam : les requêtes faisaient état des associations « musulman » à « athlète » ou « soldat », les « recherches haineuses [ayant] faibli dans les heures qui ont suivi », selon Seth Stephens-Davidowitz.

Autre exemple de Barak Obama, à l’occasion de sa deuxième campagne présidentielle en 2012, son équipe avait testé plusieurs options pour retenir le slogan « Change / We can believe in » et une photo de famille.

En résumé, l’auteur Seth Stephens-Davidowitz remarque que « les recherches Google constituent la plus importante base de données jamais collectées sur la psyché humaine ». Ce que l’internaute croit relever de sa sphère intime et personnelle, Google le voit.

 

3/ Le Big Data : statistiques ou données personnelles ?

Le Monde le précise : ces exemples « restituent, bien mieux qu’un sondage classique, la vérité sur qui nous sommes, et en particulier sur les sujets tabous, dont l’orientation ».  

Le plus connu des moteurs de recherche est devenu le véritable psychologue des internautes, le confident à qui personne ne ment. Toutes ces requêtes de recherches sont des données sincères, plus vraies que celles que l’on fournirait volontairement.

La question qui se pose est alors la suivante : ces données sont-elles personnelles ou anonymes ? Jusqu’à quel point la firme de Mountain View entre-t-elle dans notre vie privée ?

Par données à caractère personnel, il faut entendre toutes données permettant d’identifier directement ou indirectement une personne physique, telle qu’une adresse IP ou un identifiant en ligne. Dans ce cas, la collecte, la conservation et la corrélation de ces données entre elles seraient considérés comme un traitement de données personnelles. Le Règlement (UE) 2016/679 du Parlement Européen et du Conseil relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données (RGPD), qui entrera en vigueur le 25 mai 2018 prochain, pourra donc s’appliquer à de tels traitements de données provenant des internautes situés sur le territoire européen même à destination d’un responsable de traitement situé aux Etats-Unis (article 3 du RGPD).

Toutefois, par exception, le RGPD prévoit que les données anonymisées, voire pseudonymisées, dans le but de réaliser des études statistiques, échappent à son application, dans la mesure où ces données ont perdu tout pouvoir identifiant.

 

Fort d’une expérience de plus de 20 ans dans le domaine des TIC, triple labellisé CNIL, le Cabinet HAAS Avocats vous conseille dans ces domaines.

Pour plus de renseignements, cliquez ici.

Comment faire des statistiques comme(...)




home contact quisommesnous puce rouge suite