Toda la operativa de Google se ejecuta en una red distribuida de miles de ordenadores que procesan toda la información en paralelo (al mismo tiempo), lo que le permite realizar millones de cálculos de forma simultánea.
El sistema creado por Google tiene tres procesos bien diferenciados:
Veamos cada cada uno de estos procesos en detalle.
Se conoce como Googlebot al robot buscador de Google, un sistema automatizado que se encarga encontrar todas las páginas accesibles en Internet y enviarlas al Índice.
La forma más común de visualizar la tarea de Googlebot es imaginarlo como una pequeña araña que recorre la enorme telaraña que es Internet. En realidad Googlebot no recorre la web de un lado para otro, sino que (al igual que haces con tu navegador) envía peticiones a los servidores web, descarga las páginas solicitadas y las envía al proceso de indexado.
Técnicamente Googlebot es un proceso que se ejecuta de forma conjunta por una gran cantidad de ordenadores (se desconoce el número exacto) que acceden a miles de páginas de forma simultánea. Para evitar saturar a los servidores, o ralentizar las búsquedas de usuario "humanos", Googlebot se adapta a los servidores y limita la cantidad de peticiones que realiza.
La forma más común por la que Googlebot encuentra una nueva página (una página que todavía no había rastreado antes) es siguiendo un enlace desde otra página, por eso es muy importante conseguir enlaces entrantes (backlinks) y contar con una buena estrategia de enlazado interno.
Cuando Googlebot encuentra una página, toma nota de todos los enlaces que contiene y los añade a su lista de tareas para rastrearlos en cuanto sea posible. Esta técnica de seguir todos los enlaces hace posible que pueda seguir buscando y encontrando nuevas páginas, tanto externas como dentro del mismo sitio web.
Googlebot "aprende" los hábitos de publicación de cada web, y para evitar sobrecargarlas rastrea más frecuentemente (diariamente o incluso varias veces al día) aquellas páginas que se actualizan más a menudo, y con menos frecuencia (por ejemplo una vez al mes) aquellas otras que publican contenidos de forma más esporádica.
Googlebot entrega al proceso de indexado el texto completo de todas las páginas que encuentra, sin ningún tipo de discriminación, su labor es recolectar, no analizar.
El Índice se encarga de catalogar y analizar los contenidos entregados y ordenarlos alfabéticamente por términos de búsqueda. Cada uno de estos términos contiene una lista de documentos en los que aparece dicho término y el lugar donde se encuentra en el documento. Este tipo de estructura de datos permite un rápido acceso a los documentos que coinciden con las consultas de los usuarios.
Para mejorar el rendimiento de la búsqueda, Google ignora (no indexa) términos comunes, también conocidos como "vacíos" tales como "el", "es", "en", "o", "de", "cómo", "por qué"... así como ciertos dígitos y letras individuales. Este tipo de palabras "vacáis" son tan comunes que no son útiles para mejorar las búsquedas, por lo que pueden ser descartadas con seguridad. El proceso de indexado también ignora algunos signos de puntuación, múltiples espacios consecutivos, y convierte todos los términos en minúsculas para para mejorar el rendimiento.
El proceso de consulta consta de varias partes, incluyendo el interface de búsqueda (la "pagina" y cuadro de búsqueda entre otras cosas), el "motor" que interpreta las consultas y elige los documentos más relevantes, y el proceso que formatea y muestras los resultados.
Google tiene un sistema propietario de clasificación de webs llamado PageRank, que le ayuda decidir qué páginas son más importantes que otras. Teóricamente una página con un PageRank mayor saldría antes en los resultados de búsqueda que una con un PageRank inferior.
Aunque en los últimos meses el PageRank público, es decir el que los usuario pueden ver mediante la PageRank Toolbar u otras aplicaciones no se ha actualizado, y parece ser que Google no tiene intención de volverlo a actualizar, el PageRank "real" sigue existiendo dentro del índice de Google y sigue utilizándolo, aunque considera más factores a la hora de clasificar la importancia de una página.
Aunque no se sabe con certeza el número y la importancia de todos los factores que Google considera para evaluar las páginas, se sabe que hay más de un centenar de factores (entre ellos el PageRank) que determinan la relevancia de cada documento respecto a cada consulta. Entre ellos están la "popularidad" (se "habla" de ella, se comparte...) la posición dentro de la página y el número de veces que aparecen los términos buscados, etc.
Si tienes mucho tiempo disponible (y dominas el Inglés) puedes leerte la patente que trata los factores que Google considera cuando evalúa una página.
Google también aplica técnicas de "aprendizaje automático" para mejorar su rendimiento, aprendiendo cómo sus usuarios buscan la información y creando relaciones y asociaciones de términos.
Por ejemplo, su sistema de corrección ortográfico utiliza técnicas para averiguar términos alternativos a los que se buscan, detecta errores y muestra la información que es más probable que el usuario esté buscando.
Google guarda celosamente las fórmulas que utiliza para calcular la relevancia, ya que si cayesen en manos de los Spammers podrían burlar todo el sistema de Google y llenar las primeras páginas de resultados de contenidos de baja calidad o directamente SPAM.
Al indexar el texto completo de todas las páginas Google puede hacer algo más que simplemente devolver los términos de búsqueda. Por ejemplo Google da más prioridad a las páginas que tienen los términos de búsqueda cercanos entre sí, y que aparecen en el mismo orden de la consulta. Google también puede encontrar frases de varias palabras y oraciones completas.
Además, como Google indexa el código HTML además del texto, los usuarios pueden restringir las búsquedas dependiendo del lugar en que se encuentran las palabras buscadas. Por ejemplo, si aparecen en el título, en la dirección URL, en el texto principal, en los enlaces a la página... Todas estas opciones puede encontrarlas en el Formulario de Búsqueda Avanzada de Google y Uso de Operadores de búsqueda (Operadores avanzados)
La página de resultados está llena de información y enlaces, la mayoría de los cuales están relacionados con tu consulta.
Al final de cada página verás un bloque llamado "Búsquedas relacionadas" y un menú de navegación para ir a las siguientes páginas que ha devuelto la consulta.
¿No tiene muy claro cómo se escribe algo?
No se preocupe, simplemente introduzca su búsqueda como crea que podría ser y deje que Google le ayude.
Google cuenta con un avanzado sistema de corrección ortográfica que le sugiere términos más apropiados o gramaticalmente correctos basándose en lo que otros usuarios han buscado.
El sistema que utiliza Google no comprueba si los términos que introduce existen en un diccionario real, sino que compara que dichos términos sean los de uso más común.
Si por ejemplo busca información sobre el Presidente de los Estados Unidos y no recuerda bien cómo se llama, simplemente escriba su nombre de la forma en que le parezca que debería ser.
Si escribes [ Barac Obama] Google te mostrará los resultados de [ Barack Obama ] que es la forma correcta de escribir su nombre. Basándose en consultas previas Google deduce de forma automática que ha escrito el nombre incorrecto. Si realmente quisiera los resultados tal como los ha pedido, sin contar con la corrección de Google, puede pinchar en "Ver resultados de..."
El corrector automático de Google es particularmente bueno reconociendo los errores tipográficos más comunes, faltas de ortografía, y conceptos erróneos. Analiza todos los términos de la consulta y si es necesario sugiere alternativas más probables para su búsqueda.
Por ejemplo, si busca [ espanay ] el corrector ortográfico entiende que en realidad está buscando [ España ] así que le muestra los resultados de esta búsqueda.
Cuando el corrector automático no esté seguro de lo que está buscando le mostrará una sugerencia que considera más apropiada: "Quizás quisiste decir..."
Google analiza posibles faltas de ortografía y su variante ortográfica más correcta mediante el estudio de las palabras más comunes que encuentra analizando las búsquedas de los usuarios y procesando los resultados. De esta forma, a diferencia de muchos correctores ortográficos, Google puede sugerir correcciones para nombres propios (de personas y lugares) y otras palabras que pueden no aparecer en un diccionario común.
Algo que tienes que tener muy en cuenta es que el corrector ortográfico no es capaz de distinguir entre variantes ortográficas o palabras y nombres que se escriben de manera similar. Así que, antes de hacer clic en lo que Google sugiere, comprueba que realmente es lo que está buscando.
Por ejemplo, si busca información sobre una ciudad de Alemania llamada [ Melborn ] Google le mostrará resultados de [ Melbourne ], una ciudad Australiana que es más popular en las búsquedas, y que por lo tanto Google considera que probablemente es lo que estaba buscando y que se había equivocado al escribirla. Si en realidad buscaba información sobre la ciudad alemana, puede pinchar en "Ver resultados de Melborn" para los resultados de esa consulta.
Google almacena una "instantánea" de cada página que examina y la guarda en su "cache" (término inglés que podría traducirse por "almacén") como si fuera una copia de seguridad.
Esta versión "cacheada" es la que Google utiliza para determinar si una página es una buena coincidencia para tu búsqueda.
Todas las páginas que aparecen en los resultados tienen una versión almacenada en el caché de Google. Puedes consultarla añadiendo el operador "cache:" antes de la dirección.
Cuando Google muestra la página en caché, un encabezado en la parte superior le recuerda que lo que está viendo no es necesariamente la versión más reciente de la página.
Cuando Google encuentra noticias de actualidad relacionadas con la consulta, incluye hasta tres titulares que enlazan con las noticias relevantes para sus resultados de búsqueda.
Si por ejemplo busca información sobre Microsoft y escribe simplemente [ microsoft ] seguramente verás noticias entre los primeros resultados. (Ten en cuenta que lo que veas no será lo que muestra la captura a continuación porque las noticias se actualizan en tiempo real)
Google encuentra y cataloga páginas web sin tener en cuenta el idioma en que están escritas y cada vez más páginas web están disponibles en otros idiomas además del Inglés.
En determinadas búsquedas Google proporciona un enlace para traducir las páginas mostradas en los resultados si no ha encontrado páginas en el idioma del usuario. De esta forma intenta ofrecer alternativas que no estarían disponibles en algunas búsquedas.
Si por ejemplo busca [ google xcode ] google le mostrará resultados en inglés con la posibilidad de traducir las páginas encontradas.
Si no está satisfecho con los resultados obtenidos y desea restringirlo únicamente a su idioma, puede hacerlo utilizando la barra de herramientas.
O puede utilizar las funciones de la Búsqueda Avanzada de Google para restringir los resultados al idioma de su elección.
Puede personalizar la forma en que se muestran los resultados de búsqueda configurando las preferencias globales de Google, que se aplican en la mayoría de los servicios de búsqueda de Google.
La forma más rápida de configurar estas opciones (debe estar logeado en cualquier servicio de Google) es ir al siguiente enlace www.google.com/preferences.
Esta son las opciones que puede configurar, comenzando de arriba hacia abajo:
También puede definir el idioma por defecto que utilizarán por defectos todos los productos de Google, incluida la búsqueda.
Puede acceder a esta configuración pinchando en "Idiomas" en el menú de la derecha, desde la misma página de configuración.
Aunque la barra de estadísticas en la página de resultados muestre en muchas ocasiones que hay más de 1.000 resultados para una consulta, Google no muestra nunca más de 1.000 resultados.
Puede comprobarlo pinchando en el menú de navegación hasta llegar a la última página, y verá que nunca muestra más allá de 1.000 resultados. Si en sus preferencias de búsqueda ha dejado la cantidad de resultados por página por defecto (10) tendrá que navegar hasta la página número 100, pero si desea comprobarlo rápidamente puede ajustar el número de páginas mostradas a 100 y verá que en la página 10 (resultado número 1.000) es la última de ellas.
Google establece esta limitación para ahorrar recursos, pues muy raramente se necesitan búsquedas con tal profundidad y la mayoría de las consultas se suelen resolver en las primeras páginas de resultados.
Ahora que ya sabe cómo realizar mejoras búsquedas con Google puede seguir aprendiendo a evaluar los resultados de su búsqueda.
Google inserta anuncios pagados en algunas de las páginas de resultados. Si pincha en cualquiera de estos anuncios irá directamente a la página que el anunciante haya designado.
Google gestiona la venta de estos anuncios a través de un sistema automatizado de subastas llamado "Adwords"
El equipo de calidad de Google hace todo lo posible para que los anuncios que se muestran sean útiles para el usuario, de lo contrario no son aceptados o se eliminan.
El anunciante paga una cantidad variable (el coste se determina por medio de una "subasta") por cada vez que alguien pincha en uno de sus anuncios. Debido a esto los anuncios de Adwords suelen aparecer en consultas en las cuales el usuario buscar comprar un determinado bien o servicio, ya que el anunciante espera rentabilizar la visita.
Los anuncios pueden aparecer en dos zonas específicas de la página de resultados, encima de los primeros resultados orgánico o a la derecha, en ambas partes y suelen estar marcados on la palabra "Anuncio" o "Anuncios"
Además en algunas búsquedas aparecen directamente los productos buscados en el lateral derecho. También son anuncios, pero de Google Shopping, es decir no están a la venta sino que los gestiona el propio Google, y se beneficia directamente de las ventas que se puedan realizar a través de ellos.
A grandes rasgos el proceso que se sigue para contratar los anuncios de Adwords es: los anunciantes deciden que en qué consulta quieren que se muestren sus anuncios, y Google decide dónde colocarlos. Es decir, qué anuncios mostrar y en qué orden. Google determina la colocación a través de una subasta, que no sólo tiene en cuenta lo que el anunciante está dispuesto a pagar, sino también su tasa de "click-through", es decir, con qué frecuencia los usuarios hacen clic en el anuncio. Si los usuarios pinchan a menudo en un anuncio es más probable que Google lo coloque más arriba en la página de resultados. Si el porcentaje de clics de un anuncio cae por debajo de cierto nivel, lo que indica que un anuncio no es relevante para la consulta, Google lo elimina.
La mayoría de las veces los anuncios serán relevantes a su consulta. Sin embargo, debido a que el proceso de coincidencia está automatizado, en ocasiones puede aparecer un anuncio inapropiado. Un caso que tuvo gran repercusión sucedió en septiembre de 2003, cuando junto a un artículo del New York Post sobre un macabro asesinato en el que las partes del cuerpo de la víctima se colocaron en una maleta, Google mostró un anuncio de maletas. Sin embargo eso sucedió hace mucho tiempo y desde entonces Google ha mejorado mucho sus filtros y elimina automáticamente los anuncios en páginas cuyo contenido pueda ser discutible o perturbador.
Finalmente algunas páginas web (no la página de resultados, sino las mismas webs) muestran entre sus contenidos anuncios proporcionados por el servicio AdSense de Google. En estos casos el propietario del sitio web y Google comparten la cantidad que paga el anunciante cuando un usuario pincha en un anuncio. Estos anuncios suelen colocarse en la parte superior, a la derecha, o a la izquierda del contenido para llamar la atención.
El sistema principal para calcular la importancia de las páginas, el PageRank, tiende a dar prioridad a la información que proviene de fuentes con más autoridad y más respetadas.
La teoría es que los sitios web más respetados y con mayor autoridad tenderán a enlazar a otros sitios respetados, y poco o nada a páginas que contengan SPAM o información poco valiosa.
Gracias a ello, en la mayoría de las ocasiones, las páginas que aparecen más arriba en los resultados son las que contienen información más valiosa y relativa a lo que se ha buscado.
Debido a la naturaleza abierta de Internet muchas personas publican páginas con la única intención de hacerle comprar algo, convencerlo de que acepte un punto de vista determinado, etc.
Google no hace ningún esfuerzo para descubrir o eliminar información que pudiera considerar poco fiable o incluso errónea. De usted depende cultivar el sano hábito del escepticismo, investigar y contrastar diversas fuentes antes de tomar una decisión o formarse un punto de vista.
Estos son algunos consejos que puede seguir a la hora de evaluar los resultados: