Este post foi publicado há mais de noventa dias, e as informações aqui contidas podem estar desatualizadas ou mesmo não terem mais nenhuma validade. Não nos responsabilizamos por eventuais mal entendidos.Hoje um dos VIPs (cliente da PortoFácil, para os paraquedistas) me trouxe um artigo importante e até meio assustador acerca de sequestros de páginas junto ao Google, pela exploração de um problema já conhecido com a indexação de páginas redirecionadas.
Quem quiser dar uma olhada no artigo em questão por favor visite Page Hijack Exploit: 302, redirects and Google (página em Inglês). Quem quiser ter uma noção apenas do resumo essencial, e por isso mesmo incompleto, continue por aqui.
A falha em questão envolve a maneira como o Google lida com redirecionamentos do tipo 302 (talvez outros mecanismos também, mas o texto refere-se apenas ao mais importante buscador, responsável por grande parte do tráfego de um grande número de sites).
O protocolo HTTP prevê dois tipos de redirecionamentos: o 301, que é permanente; e o 302, que é temporário. “Permanente” e “temporário” aqui significam que quando a URL “A” faz um redirecionamento para a URL “B” os buscadores devem, respectivamente, esquecer que existe a URL A e indexar somente a “B”, ou então que devem voltar mais tarde para checar, pois a URL “A” pode ter voltado a ser ela mesma e o redirecionamento ter deixado de existir.
O sequestro de URLs se dá justamente explorando esse comportamento, aliado ao fato de que o Googlebot manda muitas instâncias de si mesmo, que a princípio não se conversam e só trocam informações no final do seu “dia de trabalho”, para indexar os sites Internet afora.
O que um sequestrador de páginas faz é simplesmente ele mesmo indexar os sites que quer roubar e em seguida criar páginas (falsas, óbvio) que fazem redirecionamento 302 para a página legítima. No “fim do dia de trabalho” as diversas instâncias do Googlebot vão consolidar as informações e haverá dois sites com o mesmo conteúdo; usando algum dos seus algoritmos misteriosos o Google escolherá então qual das duas versões ele vai incluir nas páginas de resultado: a legítima ou a que foi construída artificialmente por meio do redirecionamento 302. Se o autor legítimo tiver azar, ou houver algum outro critério obscuro (como praticamente todos os critérios do Google), a página falsa fica indexada, e a verdadeira some. Dias depois, ao constatar que suas páginas estão indexadas, o sequestrador pura e simplesmente reconfigura seu script de redirecionamento para as páginas que ele bem entender.
O assunto é espinhoso, e por isso não vou me alongar mais. Vamos direto à maneira de evitar esse tipo de problema, que é uma das melhores para evitar conteúdo duplicado em nossos próprios sites, utilizando uma das técnicas descritas no site no-www.org (que prega — e eu concordo — que o www. está obsoleto).
Embora este artigo sirva para qualquer um que tenha um site, a solução será focada — claro — nos clientes da PortoFácil, a quem eu ajudo sem dúvida alguma no que eu puder; demais leitores terão de se virar, pois minha prioridade é quem me paga.
Tudo que temos a fazer, por incrível que pareça, é pôr as seguintes linhas no início do arquivo .htaccess da raiz do site.
RewriteCond %{HTTP_HOST} !^exemplo\.com
RewriteRule (.*) http://exemplo.com/$1 [R=301,L]
Claro que “exemplo.com” você deve substituir pelo seu próprio domínio!

Caso você use WordPress, certifique-se de que as configurações dele incluam o endereço do site também sem o www (caso tenha sido essa a sua escolha). Veja a imagem ao lado para um exemplo.
Esta é a prevenção mais simples que conheço para este problema. Não quer dizer que seja a mais efetiva. Na verdade, o problema só será realmente resolvido quando o Google fizer a Lição de Casa.