Caríssimos, os serviços da PortoFácil hoje ficaram com intermitência durante alguns longos minutos, perfazendo nossa maior “downtime” não programada da história.
Os efeitos todo mundo conhece, todo mundo viu. E as causas do problema vou contar agora.
Digo “as causas”, no plural, porque foi uma sucessão de problemas que acabou culminando nessa intermitência.
Primeiro, tínhamos um problema gravíssimo com o antispam. Talvez fosse algum efeito relacionado aos filtros rigorosos contra spam que implementamos há uma semana, mas não era. Desativamos totalmente o antispam, e o problema amenizou, mas não se resolveu.
Observando o comportamento do servidor descobrimos que o antivírus (que escaneia as mensagens de e-mail, já que usamos um sistema operacional seguro) estava usando uma fatia muito alta da CPU, que se não levava ao travamento da máquina, tornava os outros serviços não respondentes. Desativamos o serviço, reiniciamos o servidor, mas de alguma maneira ele continuava sendo ativado automaticamente em um determinado ponto. Em alguns casos a ignorância é a última coisa a ser tentada, e acabei apagando o executável do antivírus para evitar que ele subisse novamente.
Isso por si já deveria fazer uma diferença danada no servidor, mas de fato ele continuava parando, embora as paradas já fossem mais espaçadas. Só que, agora, o MySQL também estava recusando conexões!
Então recebi um e-mail de um cliente dizendo que seu site (aqui na PortoFácil fazemos hospedagem de sites adultos) estava recebendo um volume muito grande de visitas, e eu resolvi penalizá-lo por alguns minutos para ver ser fazia alguma diferença: suspendi a conta do homem.
Dito e feito.
Meia hora de site suspenso, meia hora de servidor com fôlego. Fui verificar a diferença no volume de visitas, e mais uma surpresa: não era nada tão assustador, a ponto de comprometer como estava comprometendo a estabilidade dos serviços!
Respondi ao cliente, pedindo que habilitasse o wp-cache no seu WordPress, e fui prontamente atendido. O cliente ainda removeu plugins que eram desnecessários, e o servidor voltou ao normal.
Finalmente, servidor estabilizado, causas identificadas, uma delas resolvida, era hora de repor os serviços que eu tirara antes. Aproveitei para dar uma afinada em alguns parâmetros de serviços instalados, aumentei o número de conexões simultâneas no banco de dados, reativei o antispam e o antivírus, e o resultado é que o servidor está novamente funcionando perfeitamente, tão seguro quanto antes, e agora mais robusto.
Finalizando, gostaria de dizer que o site em questão, em comum acordo com o cliente, está sendo movido para um outro servidor, e que sem as ajudas de meus amigos Fábio e Felipe teria sido muito mais difícil atravessar essa dificuldade. Obrigado, senhores! É bom estar rodeado de gente honesta, honrada e sensível.
