mercredi, 09 août 2006

Statistiques sur les données de recherche AOL - Google

Le scandale qui éclate sur la mise en ligne en grande quantité par AOL de données privées (voir articles de Techcrunch ici, ici, ou ) a au moins un avantage: pouvoir tirer des conclusions et des statistiques sur les recherches dans les moteurs (en l'occurence Google).

Ce sont ainsi 2Go de données qui représentent les recherches du mois de Mai pour 650000 utilisateurs!! (Bien évidemment que cela fait très peur pour le respect de notre vie privée, mais là n'est pas le sujet de mon billet...)

  • Un site est déjà lancé: AOLSearchDatabase. Il permet de chercher dans la base de données. Mais je ne le trouve pas encore au point car il n'effectue la recherche que dans une petite partie des données (des bugs sont aussi encore présents). Mais il permet au moins de se faire une idée sur le type de données divulgué. (Trouvé en premier chez Jeremie.)
  • Si vous voulez le classement des mots clés de cette base de données ainsi qu'une brève mais pertinente analyse, rendez-vous sur le blog de David de Biologeek. David explique aussi de facon intéressante via une analyse des données que ce sont bien les premiers liens affichés lors d'une recherche qui sont visités en majorité. Voici le top 15 des mots cherchés:
  1. 837298 the 1.03
  2. 698426 for 0.86
  3. 692358 and 0.85
  4. 449102 free 0.55
  5. 363020 google 0.45
  6. 270158 new 0.33
  7. 251125 http 0.31
  8. 236473 pictures 0.29
  9. 231574 county 0.28
  10. 217750 yahoo 0.27
  11. 208600 how 0.26
  12. 188800 lyrics 0.23
  13. 182564 school 0.22
  14. 176714 myspace 0.22
  15. 166225 sex 0.2
  • Mais le problème de cette base de données est que vous pouvez faire des recherches par ID ce qui vous donne des grandes (et parfois graves) précisions sur la personne. Pour en voir des exemples, regardez l'article de CNET. Par exemple, un utilisateur a effectué les recherches suivantes:

how to kill your wife
pictures of dead people
photo of dead people
car crash photo

  •  Si vous voulez encore des analyses sur cette base de données, je vous conseille l'excellent blog de Markus Frind. On y retrouve des exemples de conclusions possibles grace à ces données: article sur les mots clés ammenant à un site de vente de sonneries, un autre sur le phénomène myspace (a propos, la version francaise est lancée...), un autre sur un utilisateur bien mal intentionné et enfin un dernier sur les sites eux-mêmes les plus recherchés, et en voici le top 10:

google.com 59288
en.wikipedia.org 36058
amazon.com 35953
mapquest.com 33165
imdb.com 26492
myspace.com 24483
yahoo.com 23361
geocities.com 16925
bizrate.com 13751
answers.com 12903

 

Je sens que beaucoup vont encore s'amuser pendant un moment avec ces données, car même si AOL a supprimé l'accés, les fichiers circulent sur le net et sur les réseaux de P2P. 

(En passant, pour augmenter mes visites: new lyrics for free, new lyrics for free, new lyrics for free...) 

Commentaires

Voici d'autres articles interessants, celui de Chryde (http://www.chryde.net/blog/2006/08/le_web_regorge_.html) ou de Google blogoscoped (http://blog.outer-court.com/archive/2006-08-08-n53.html).
Et aussi une autre page pour effectuer des recherches dans la base de données, qui semble meilleure que celle que tu présentes : http://czern.homeip.net/aolsearch/index2.php

Ecrit par : Sylvain | vendredi, 11 août 2006

Merci pour ces liens, surtout pour le dernier qui permet de "jouer" facilement avec la base de données.

Ecrit par : Cedric | vendredi, 11 août 2006

Allo,
je crois que c'est tout à fait vrai pour les mots de types "article"... avec les statistiques de mon site perso, je constate que beaucoup de gens utilisent des phrases dans les moteurs de recherche... http://rambit.qc.ca/ecv

Ecrit par : Robert | samedi, 21 avril 2007

Ecrire un commentaire