<HTML> <HEAD> <TITLE>Qu'est ce que Google&nbsp;?</TITLE>  <link rel="stylesheet" href="style_model1.css" type="text/css"> </HEAD> <body bgcolor="#FFFFFF" text="#000000" link="0000FF" vlink="990099" alink="0000FF" leftmargin="0" topmargin="0" marginwidth="0" marginheight="0"> <FONT FACE='georgia,garamond,times' SIZE=3>  <BLOCKQUOTE><BLOCKQUOTE>   <BR><FONT SIZE=2><A HREF="article.php3?id_article=13">Retour au format normal</A></FONT>  <BR><BR><BR> <div ALIGN="center" VALIGN="top"></div> <P align='center'>  <b><font face='Trebuchet MS' size='5'>Qu'est ce que Google&nbsp;?</font> </b>    <P align='center'>  <b><font face='Trebuchet MS' size='3'>18 novembre 2002</font></b>   <P align=center><FONT FACE='Trebuchet MS,arial,helvetica' SIZE=2><B>par <A HREF="mailto:kbelkacem@wanadoo.fr">Karim Belkacem</A></B></FONT>     <BR><BR><B><p class='spip' align='justify'>Google est un cluster Beowulf, plus de 5 000 PC tournant sous Linux en parallle. Admirable, et surtout gratuit&nbsp;: les logiciels sont des logiciels GNU&nbsp;: open source et dont l'utilisation est gratuite. Une belle russite pour les logiciels libres.  Google connait plus de 2 miliards de pages web.</B> <BR><BR><p class='spip' align='justify'><b class="spip">Pages similaires</b> </p> <p class="spip" align='justify'>Je suis assez bluff par cette <a href="http://www.google.com/search?client=googlet&q=related:http://www.liberation.fr/" class="spip_out">recherche sur Google</a> </p> <p class="spip" align='justify'>Google trouve tout seul les pages similaires  www.liberation.fr et la rponse est remarquablement exacte&nbsp;: on tombe sur le Monde, le Monde Diplo, les Echos, le Figaro, TF1, Nouvel Obs,... </p> <p class="spip" align='justify'>Bien sur, Google ne "comprend" pas (encore&nbsp;:-) les sites qu'il lit, donc il se base sur l'information incluse dans le web (ou plus certainement les liens du web). Comme tous ces sites sont plutot en concurrence, j'imagine qu'ils ne pointent pas trop les uns vers les autres. Pour Google, un site similaire  un site A n'est donc pas un site qui a des liens avec le site A. </p> <p class="spip" align='justify'>J'imagine que la fonction "similarit" de Google, c'est&nbsp;: </p> <p class="spip" align='justify'>Ensemble B&nbsp;: Je prends l'ensemble des pages qui pointent vers A. Ensemble C&nbsp;: Maintenant je prends l'ensemble des pages cibles des pages de l'ensemble B.  Il suffit de classer les pages de C par nombre de liens depuis l'ensemble B et hop, l'affaire est faite (enfin, c'est mon hypothse  2 euros).  Moralit&nbsp;: la structure mme du web permet de SAVOIR que les sites similaires  Libration sont Le Monde, etc ... l'information qui permet de trouver la similarit de deux sites n'est pas une information crite dans les pages, mais inscrite dans la structure hypertexte (les liens) mme du rseau.  Ainsi, le web est un systme d'informations. Ces informations sont d'une part constitues des mots / images / vidos constituant les pages web, mais aussi des liens entre pages eux mme. Lorsque vous crez un lien hyper-texte, vous structurez le web, vous y ajoutez une information non ngligeable. </p> <p class="spip" align='justify'><b class="spip">Date de changement de l'index de Google</b> </p> <p class="spip" align='justify'>Google scanne le web en permanence, il consulte vos sites, se promne de liens en liens, pour emmagasiner la croissance et les volutions du web. Pendant des semaines, il accumule de nouvelles informations et recre un nouvel index. Cependant, son changement d'index n'est pas immdiat. Google ne le mets  jour qu'une fois par mois environ, ce qui signifie que pendant plusieurs semaines, votre site peut avoir t scann par Google, sans qu'il apparaisse encore dans le moteur de recherche. Et puis tout d'un coup, Google change son index, et se met  utiliser les nouvelles donnes qu'il a compiles depuis son dernier changement d'index.</p>  <P align=right><FONT FACE='Trebuchet MS,arial,helvetica' SIZE=2><B><A HREF="mailto:kbelkacem@wanadoo.fr">Karim Belkacem</A></B></FONT>   <FONT SIZE=2><P><B>P.S.</B> <p class="spip"><b class="spip">Autres liens sur Google</b> </p> <p class="spip"><a href="http://www.google-watch.org/pagerank.html" class="spip_out">PageRank&nbsp;: the original sin</a>&nbsp;: un article mi-figue mi-raisin qui condamne le pageranking de Google, comme tant anti-dmocratique. Assez faut.</p>   </FONT>           </BLOCKQUOTE></BLOCKQUOTE> </FONT>   <br> <div align="center"> <!--WEBBOT bot="HTMLMarkup" startspan ALT="Site Meter" --> <a href="http://s13.sitemeter.com/stats.asp?site=s13glums" target="_top">    <img src="http://s13.sitemeter.com/meter.asp?site=s13glums" alt="Site Meter" border=0></a>  <!--WEBBOT bot="HTMLMarkup" Endspan --> </div> </BODY> </HTML>  
