May 29 2008

Evite o Seqüestro de Links em seu Site

Arquivado em: Segurança

B movies (The exploitation boom)Roubo de Páginas
pode ser uma catástrofe
Imagem via Wikipedia

Hoje um dos VIPs (cliente da PortoFácil, para os paraquedistas) me trouxe um artigo importante e até meio assustador acerca de seqüestros de páginas junto ao Google, pela exploração de um problema já conhecido com a indexação de páginas redirecionadas.

Quem quiser dar uma olhada no artigo em questão por favor visite Page Hijack Exploit: 302, redirects and Google (página em Inglês). Quem quiser ter uma noção apenas do resumo essencial, e por isso mesmo incompleto, continue por aqui.

A falha em questão envolve a maneira como o Google lida com redirecionamentos do tipo 302 (talvez outros mecanismos também, mas o texto refere-se apenas ao mais importante buscador, responsável por grande parte do tráfego de um grande número de sites).

O protocolo HTTP prevê dois tipos de redirecionamentos: o 301, que é permanente; e o 302, que é temporário. “Permanente” e “temporário” aqui significam que quando a URL “A” faz um redirecionamento para a URL “B” os buscadores devem, respectivamente, esquecer que existe a URL A e indexar somente a “B”, ou então que devem voltar mais tarde para checar, pois a URL “A” pode ter voltado a ser ela mesma e o redirecionamento ter deixado de existir.

O seqüestro de URLs se dá justamente explorando esse comportamento, aliado ao fato de que o Googlebot manda muitas instâncias de si mesmo, que a princípio não se conversam e só trocam informações no final do seu “dia de trabalho”, para indexar os sites Internet afora.

O que um seqüestrador de páginas faz é simplesmente ele mesmo indexar os sites que quer roubar e em seguida criar páginas (falsas, óbvio) que fazem redirecionamento 302 para a página legítima. No “fim do dia de trabalho” as diversas instâncias do Googlebot vão consolidar as informações e haverá dois sites com o mesmo conteúdo; usando algum dos seus algoritmos misteriosos o Google escolherá então qual das duas versões ele vai incluir nas páginas de resultado: a legítima ou a que foi construída artificialmente por meio do redirecionamento 302. Se o autor legítimo tiver azar, ou houver algum outro critério obscuro (como praticamente todos os critérios do Google), a página falsa fica indexada, e a verdadeira some. Dias depois, ao constatar que suas páginas estão indexadas, o seqüestrador pura e simplesmente reconfigura seu script de redirecionamento para as páginas que ele bem entender.

O assunto é espinhoso, e por isso não vou me alongar mais. Vamos direto à maneira de evitar esse tipo de problema, que é uma das melhores maneiras de evitar conteúdo duplicado em nossos próprios sites, utilizando uma das técnicas descritas no site no-www.org (que prega — e eu concordo — que o www. está obsoleto).

Embora este artigo sirva para qualquer um que tenha um site, a solução será focada — claro — nos clientes da PortoFácil, a quem eu ajudo sem dúvida alguma no que eu puder; demais leitores terão de se virar, pois minha prioridade é quem me paga.

Tudo que temos a fazer, por incrível que pareça, é pôr as seguintes linhas no início do arquivo .htaccess da raiz do site.

RewriteCond %{HTTP_HOST} !^exemplo\.com
RewriteRule (.*) http://exemplo.com/$1 [R=301,L]

Claro que “exemplo.com” você deve substituir pelo seu próprio domínio!

Caso você use WordPress, certifique-se de que as configurações dele incluam o endereço do site também sem o www (caso tenha sido essa a sua escolha). Veja a imagem ao lado para um exemplo.

Esta é a prevenção mais simples que conheço para este problema. Não quer dizer que seja a mais efetiva. Na verdade, o problema só será realmente resolvido quando o Google fizer a Lição de Casa.


Textos relacionados a este:

3 Responses to “Evite o Seqüestro de Links em seu Site”

  1. Vinícius K-Maxon 30 May 2008 at 00:37

    Pelo consta no link da clsc.net, o google aparentemente corrigiu o problema entre o final de 2005 e o começo de 2006.

    A pergunta que cabe é: existe algum PROVA (boatos não contam) de que a exploit está novamente funcionando e o google (que tem fama de corrigir rapidamente suas vulnerabilidade) esteja novamente vulnerável?

    []’s

    [Reply]

    Janio Sarmento reply on May 30th, 2008 00:39:

    @Vinícius K-Max: o artigo nasceu devido a um site conhecido que sofreu recentemente esse tipo de seqüestro. Não cabe a mim provar ou não a falha, mas sim ajudar meus clientes a se precaverem, na medida do possível.

    [Reply]

  2. brazzon 07 Jun 2008 at 15:28

    Olá,
    Para os blackhats, hijacking com 302 é coisa do passado : http://www.sites-de-busca.com/blog/o-que-sao-tecnicas-black-hat/

    Claro, há sempre os amadores que ainda procuram ganhar umas migalhas, mas os black hats da ponta já estão jogando outros jogos.

    Permita-me duas observações:
    1) a alteração do .htaccess que você sugere apenas redireciona de http://www.dominio.com para dominio.com. Isso é uma excelente ação (pois evita duplicação de páginas), mas não tem nada a ver com o 302.
    2) o 302 funciona em conjunto com cloaking. Primeiro, eles (os BlackHats) enganam o bot e seqüestram (tomam o lugar no índice) da página original; a partir daí, eles detectam quando a visita vem de um browser comum (e não de um bot) e servem uma página diferente, do interesse deles. Isso é chamado de cloaking, e é por isso que a Google é radicalmente contra cloaking.

    Abraço,

    [Reply]

Trackback URI | Comments RSS

Leave a Reply

É proibida a reprodução do conteúdo deste site sem prévia autorização por escrito do autor. Citações de no máximo um parágrafo acompanhadas do link para o texto original são permitidas sem necessidade de autorização escrita.