Archive for the 'Status' Category

Jul 14 2008

Parada Inesperada na Manhã de Segunda

Published by Janio Sarmento under Status

Os usuários do servidor qumran, que por sinal hospeda o site da própria PortoFácil, notaram uma parada nos serviços esta manhã, há cerca de trinta minutos. O efeito mais aparente era a mensagem de impossível conectar no banco de dados, mas outros efeitos podem ter sido experimentados: nos e-mails, mensagens de caixa lotada, ou mensagens anteriores que estavam na fila de e-mail sendo devolvidas ao remetente por impossibilidade de processamento.

A causa de todo esse problema é realmente muito simples: nossa partição /tmp ficou sem espaço em disco, e os serviços da máquina não tinham espaço para executar suas funções.

Para resolver o problema definitivamente criamos uma tarefa automatizada que todos os dias às quatro da manhã vai apagar tudo que estiver no /tmp para resgatar o espaço utilizado.

Pedimos desculpas pelos possíveis (ou conseqüentes) incômodos involuntariamente ocasionados.

2 responses so far

Jul 09 2008

Relatório de rede: interrupção de serviços

Published by Janio Sarmento under Status

Caros VIPs.

A Portofácil tem hoje seis servidores distribuídos entre quatro datacenters, até porque um dos ensinamentos de minha avó que eu tento não esquecer nunca é “não coloque os ovos todos na mesma cesta”.

Hoje à tarde enfrentamos uma parada nos serviços que afetaram quatro de nossos seis servidores, em dois datacenters diferentes. A razão: um “core router” que por concidência estava no caminho entre o mundo e os dois datacenters entrou em pane, e os técnicos precisaram de tempo para repor e reconfigurar o equipamento.

Não foi uma parada prevista, nem previsível (embora compreensível), apesar do quê eu gostaria de pedir as mais sinceras desculpas a todos os que foram afetados por este problema.

No responses yet

Jun 19 2008

Interrupção de Serviços Prevista

Published by Janio Sarmento under Status

Caros VIPs.

Acabamos de ser surpreendidos com o aviso de que o data center vai desligar a energia do prédio em que se encontra nosso servidor qumran às 18h, podendo a parada extender-se até as 19h 15min.

Infelizmente não há nada que possamos fazer, a não ser lamentar e pedir a Deus que eles sejam bem sucedidos no conserto que precisam fazer, para que as coisas voltem ao normal o mais rapidamente possível.

Como este é nosso servidor principal, todos os clientes podem ser afetados pela parada, embora eu creia que os usuários de outros servidores não sofrerão nenhuma parada.

Lamentamos, mais uma vez, por não termos informado antes da parada. Mas tampouco sabíamos dela.

One response so far

Jun 13 2008

Migração de Servidor Adiada

Published by Janio Sarmento under Status

Por motivos técnicos adiaremos a Migração de Servidor planejada para hoje. O novo servidor não pode ser entregue no prazo inicial com a configuração contratada, e aceitar o servidor pela metade implicaria ter de desligá-lo posteriormente para instalação do hardware adicional, o que resultaria em parada total dos serviços, durante o tempo necessário para o procedimento. E como todos conhecemos Murphy, achei melhor não arriscar.

Assim que eu tenha uma nova data informo por aqui novamente. Fiquem ligados!

E em caso de dúvida ou necessidade, não deixe de utilizar nosso novo sistema de suporte.

No responses yet

Apr 28 2008

Downtime não programada - a volta

Published by Janio Sarmento under Status

A typical server

Um servidor típico
Imagem via Wikipedia


É um saco ter de escrever sobre isso ao invés de dar alguma dica maravilhosa de alguma descoberta sensacional, ou de falar sobre alguma coisa bacana que tenhamos visto ou vivido.

Mas o que se nos apresenta é uma downtime não programada no final da tarde de hoje, de cerca de uma hora de duração.

A causa do problema foi uma queda de energia no data center que nos abriga, além da capacidade de energia reserva deles. Quando a energia de reserva acabou demorou mais cerca de 15 minutos até que o fornecimento de energia se restabelecesse, e mais cerca de 25 minutos para fazer o servidor voltar a funcionar a contento.

Nesses 25 minutos tivemos indisponibilidade dos serviços devido à necessidade de executar a checagem dos discos (afinal, o servidor foi desligado na marra) e outras rotinas de segurança.

Quando pudemos restabelecer o funcionamento do Apache (servidor de páginas) os serviços ainda não estavam em velocidade plena devido à checagem da integridade do MySQL. Usuários do 1BlogCacher provavelmente não perceberam a diferença, mas sites sem recursos de cache devem ter parecido bem mais lentos.

Neste exato momento em que finalizo este texto, os serviços estão normalizados, embora o servidor esteja com constantes 16% de uso de CPU (nossa meta é manter esse valor abaixo de 10%), o que deve significar serviço de páginas normalizado.

Qualquer problema, por favor me contatem, senhores e senhoras VIPs. No MSN consta o novo número de meu telefone celular, que inclusive aceita SMS.

No responses yet

Next »

É proibida a reprodução do conteúdo deste site sem prévia autorização por escrito do autor. Citações de no máximo um parágrafo acompanhadas do link para o texto original são permitidas sem necessidade de autorização escrita.