Evite o Sequestro de Links em seu Site

fecharEste post foi publicado há mais de noventa dias, e as informações aqui contidas podem estar desatualizadas ou mesmo não terem mais nenhuma validade. Não nos responsabilizamos por eventuais mal entendidos.
B movies (The exploitation boom)Roubo de Páginas
pode ser uma catástrofe
Imagem via Wikipedia

Hoje um dos VIPs (cliente da PortoFácil, para os paraquedistas) me trouxe um artigo importante e até meio assustador acerca de sequestros de páginas junto ao Google, pela exploração de um problema já conhecido com a indexação de páginas redirecionadas.

Quem quiser dar uma olhada no artigo em questão por favor visite Page Hijack Exploit: 302, redirects and Google (página em Inglês). Quem quiser ter uma noção apenas do resumo essencial, e por isso mesmo incompleto, continue por aqui.

A falha em questão envolve a maneira como o Google lida com redirecionamentos do tipo 302 (talvez outros mecanismos também, mas o texto refere-se apenas ao mais importante buscador, responsável por grande parte do tráfego de um grande número de sites).

O protocolo HTTP prevê dois tipos de redirecionamentos: o 301, que é permanente; e o 302, que é temporário. “Permanente” e “temporário” aqui significam que quando a URL “A” faz um redirecionamento para a URL “B” os buscadores devem, respectivamente, esquecer que existe a URL A e indexar somente a “B”, ou então que devem voltar mais tarde para checar, pois a URL “A” pode ter voltado a ser ela mesma e o redirecionamento ter deixado de existir.

O sequestro de URLs se dá justamente explorando esse comportamento, aliado ao fato de que o Googlebot manda muitas instâncias de si mesmo, que a princípio não se conversam e só trocam informações no final do seu “dia de trabalho”, para indexar os sites Internet afora.

O que um sequestrador de páginas faz é simplesmente ele mesmo indexar os sites que quer roubar e em seguida criar páginas (falsas, óbvio) que fazem redirecionamento 302 para a página legítima. No “fim do dia de trabalho” as diversas instâncias do Googlebot vão consolidar as informações e haverá dois sites com o mesmo conteúdo; usando algum dos seus algoritmos misteriosos o Google escolherá então qual das duas versões ele vai incluir nas páginas de resultado: a legítima ou a que foi construída artificialmente por meio do redirecionamento 302. Se o autor legítimo tiver azar, ou houver algum outro critério obscuro (como praticamente todos os critérios do Google), a página falsa fica indexada, e a verdadeira some. Dias depois, ao constatar que suas páginas estão indexadas, o sequestrador pura e simplesmente reconfigura seu script de redirecionamento para as páginas que ele bem entender.

O assunto é espinhoso, e por isso não vou me alongar mais. Vamos direto à maneira de evitar esse tipo de problema, que é uma das melhores para evitar conteúdo duplicado em nossos próprios sites, utilizando uma das técnicas descritas no site no-www.org (que prega — e eu concordo — que o www. está obsoleto).

Embora este artigo sirva para qualquer um que tenha um site, a solução será focada — claro — nos clientes da PortoFácil, a quem eu ajudo sem dúvida alguma no que eu puder; demais leitores terão de se virar, pois minha prioridade é quem me paga.

Tudo que temos a fazer, por incrível que pareça, é pôr as seguintes linhas no início do arquivo .htaccess da raiz do site.

RewriteCond %{HTTP_HOST} !^exemplo\.com
RewriteRule (.*) http://exemplo.com/$1 [R=301,L]

Claro que “exemplo.com” você deve substituir pelo seu próprio domínio!

Caso você use WordPress, certifique-se de que as configurações dele incluam o endereço do site também sem o www (caso tenha sido essa a sua escolha). Veja a imagem ao lado para um exemplo.

Esta é a prevenção mais simples que conheço para este problema. Não quer dizer que seja a mais efetiva. Na verdade, o problema só será realmente resolvido quando o Google fizer a Lição de Casa.

Publicado por Janio Sarmento – 29 de maio de 2008, em Blog, Segurança

Nada relacionado.

Socialize-se
Assine nossa newsletter
PortoFácil © 2011 - Hospedagem Profissional Movido a WordPress | Sitemap | WebDesign