¿Quién inventó la obra de arte entre las obras de arte denominada Google? El algoritmo PageRank que utiliza Google está patentado por Larry Page y Sergey Brin. Crearon el algoritmo cuando eran estudiantes de doctorado en la Universidad de Standford. PageRank es un algoritmo de ranking de páginas web y tiene una gran importancia computacional, histórica, tecnológica y social, ya que el diseño de este algoritmo dio origen a la creación del buscador Google. Aunque permitió hacer despegar una pequeña empresa hasta alcanzar el tamaño descomunal que presenta hoy en día, ha sufrido sucesivas mejoras para impedir que el valor de una página sea manipulable con el fin de posicionarla con una valoración superior. Hoy en día se sabe que el algoritmo que usa Google para el ranking de páginas es una combinación de algoritmos, donde PageRank juega un papel cada vez menor.
Lo primero que hace google es indexar todas las páginas de internet y con ello construye un grafo dirigido. Cada una de las páginas web del mundo serían los vértices o nodos del grafo. Estos vértices estarían unidos por aristas o arcos, que representarían los enlaces entre dichas páginas webs.
De este modo, Google le asigna un número que va del 0 al 10 a cada página de internet, el llamado PageRank. El PageRank de una página trata de medir la probabilidad de qué alguien que esté navegando o trasteando por ese mar de datos que es internet acabe visitando esa página en concreto, la probabilidad al fin y al cabo de que el denominado surfista aleatorio llegue navegando a dicha página, es decir, se compara PageRank con un “web surfer”.
El PageRank de Google está inspirado en el “Science Citation Index” (SCI), el índice de citación más conocido en todo el mundo. El SCI mide la importancia de diferentes publicaciones científicas, determinando su relevancia e influencia en base al número de referencias que han recibido de otras publicaciones.
Si una página concreta es enlazada por muchas otras páginas, su PageRank debe de ser alto. Se supone que si mucha gente la enlaza debe contener información relevante y es fácil que acabemos visitándola. Pero esto no quiere decir que una página con muchos enlaces tenga un PageRank de 10, ya que si los enlaces son de baja calidad, recibirá una puntuación baja. El PageRank de una página es alto si aunque te enlacen pocas páginas las que te enlazan son muy potentes en la Red. En este último caso la página aparecería entre las primeras opciones mostradas por Google.
El algoritmo del PageRank basándose en estas ideas y en procesos probabilísticos, construye una matriz para representar la escena de páginas y enlaces. Realizando operaciones algebraicas sobre esa matriz se asigna un número a cada página. Gracias a este número cada página optará a un puesto en la ordenación de páginas mostradas por Google. Pincha aquí y entenderás mejor el funcionamiento de este algoritmo.
Hoy en día, el PageRank ya no tiene el valor que tuvo durante la década pasada. En su momento, supuso una revolución para el SEO (Search Engine Optimization), obligando a los profesionales a cambiar la forma en la que posicionaban las páginas y lanzándose a buscar el mayor número posible de enlaces para manipular el PageRank. Esto supuso el inicio de una serie de malas prácticas que buscan engañar a Google para posicionar una página.
El PageRank dejó de actualizarse para el público en 2013 y fue eliminado definitivamente de la Google Toolbar en marzo de 2016. Sin embargo, Google sigue usándola de forma interna y existen algunas herramientas como Google PageRank Checker de WMTips que permiten conocer el PageRank de cualquier página.
¡Vaya maravilla que idearon estos dos doctorandos para hallar el valor que tiene una página web determinada! Sin duda, una obra de arte sin igual.
Referencias:
Comments