Así, en este interesante post, Dan Thies nos cuenta los detalles de un bug en el buscador web de Google que permite conseguir que un determinado sitio web (por ejemplo, el de tu competencia) pueda ser eliminado de los primeros resultados de cualquier búsqueda, tras lograr que Google lo penalice por contenido duplicado. La vulnerabilidad era conocida por algunas personas desde hace más de un año, y fue comunicada a los responsables de Google. Sin embargo, tras ver que nadie ha hecho nada para solucionar el asunto, se ha decidido por hacerla pública para ver si así alguien toma cartas en el asunto.

Thies nos cuenta que uno de sus clientes estaba comprobando cómo su sitio web desaparecía de los primeros puestos de las páginas de resultados de Google, mientras al mismo tiempo aparecían dentro de estos mismos resultados, y de manera destacada, algunas páginas con la URL 'unproxy.com/pagina/midominio.com', con los mismos contenidos que 'midominio.com' (la página del cliente de Thies) pero dentro del dominio 'unproxy.com'. Este 'unproxy.com' se trata de un servidor Proxy (de los cuales hay centenares en Internet) que permiten acceder a un sitio web de manera anónima sin deja rastro de tu dirección IP.
Estas URLs se forman generalmente al acceder a cualquier página web a través de estos proxies, pero Thies descubrió que eran enlazadas por la competencia de su cliente, para conseguir que Google indexase sus contenidos. Al coincidir estos con los 'originales', Google penaliza a estos últimos en lugar de hacerlo con los primeros, haciendo que los enlaces a sus páginas web no aparezcan en los resultados. Hace unas semanas os contábamos que Google no gestiona bien el tema de los contenidos duplicados, y este ejemplo de contenidos dentro de un proxy es un ejemplo de ello.
Thies relata cómo su cliente consiguió volver a aparecer en la primera posición de los resultados tras bloquear el acceso al servidor web a la IP del proxy, pero en una semana el 'atacante' volvió a conseguir que Google indexase una docena de proxies con los contenidos de la página web, y con ello eliminarla de los resultados. Se asegura que incluso informaron a Matt Cutts del asunto, pero no se hizo nada y este webmaster tuvo que aguantar mucho tiempo, además de la propia penalización, los rumores de que había llevado a cabo prácticas penalizadas.
Tras mucho investigar, y tras recibir 'ataques' de redes de proxies cada vez más sofisticadas, se encontró una solución (que, por ahora, parece conseguir buenos reultados) para evitar este 'proxy hacking': mostrar siempre el metatag "nonindex, nofollow" dentro del 'head' de cada una de nuestras páginas web, y dejarlo de mostrar cuando estemos seguros de que la visita se realiza desde un robot perfectamente identificado, y no desde un proxy. En septiembre del año pasado, seguramente habiendo sido avisado de esta vulnerabilidad, Google publicó un post para ayudarnos a detectar falsos robots. Además, en este post tenéis una implementación de esta detección utilizando código PHP.
Para saber si nuestro sitio web ha sido víctima de este 'proxy hacking' es simplemente realizar una búsqueda de una frase concreta que aparezca en alguna de nuestras páginas, y comprobando que no parece ningún resultado con la URL 'unproxy.com/pagina/midominio.com'. En caso de que aparezca, se recuerda, no significa que estemos siendo penalizados, pero convendría tratar de evitar que aparezcan estos contenidos duplicados. También se pide a los responsables de los proxies que no dejen que el robot de Google indexe los contenidos de terceros sitios web a través de sus URLs.
0 comentarios:
Publicar un comentario en la entrada