Ontem (2), o provedor de serviços de rede Cloudfare sofreu uma interrupção no funcionamento, que derrubou todos seus serviços e, com isso, muitos sites. “Nós construímos a Cloudflare com a missão de ajudar a construir uma Internet melhor e, nesta manhã, não fizemos jus a isso”, disse o CEO da Cloudflare, Matthew Prince, à DCD . “Assumo responsabilidade pessoal por isso. Acho que é algo decepcionante e doloroso”.

Depois que muitos usuários receberam a mensagem “502 Bad Gateway” ao tentarem acessar sites variados, concluiu-se que o problema não era a conexão à internet e sim, na Cloudfare, que funciona como uma distribuidora de conteúdo. Havia especulação de que o erro teria ocorrido por causa de invasões externas, porém Prince as negou categoricamente. “Não vemos nenhuma evidência de que isso esteja relacionado a um ataque externo, embora essa também tenha sido a especulação inicial de nossa equipe”.

Alguns blogs disseminaram até mesmo que a queda seria resultado de um ataque DDos chinês com a intenção de tirar informações sobre as manifestações em Hong Kong do ar. “Queríamos ter certeza de que ninguém acreditava que este era o caso, porque não era. E, embora pudesse ser incrivelmente conveniente se fosse- porque seria uma questão compreensível – não foi isso (que causou a queda)”.

O problema, que afetou os usuários globalmente por até 30 minutos foi gerado pelo próprio Cloudflare. Na verdade, a própria proteção DDoS da rede foi a culpada. Por causa de um bug no software de firewall da empresa, houve um aumento no uso das CPUs, que ficaram sobrecarregadas. 

“Em um ataque, nossos sistemas são projetados para serem capazes de ampliar os serviços para poder dispersá-lo”, explicou Prince. “Infelizmente, esta manhã parece que houve um bug em nosso serviço de firewall que fez com que ele crescesse e se expandisse com o tempo, mesmo que não houvesse nenhum ataque que visasse o serviço”.

Basicamente, o sistema reagiu a uma ameaça que não existia, o que gerou uma sobrecarga. Contudo, o que parece incomodar mais o Cloudfare é que não foi a primeira vez que uma queda aconteceu. “A questão de hoje foi inteiramente nosso problema, foi um erro que cometemos”, disse ele. “A semana passada, no entanto, foi uma falha externa”.

No caso anterior, 22 mil redes tiveram sua rota sequestrada, algumas das quais impactaram uma fração da rede Cloudfare. O CEO ressaltou que os dois problemas não estão relacionados, embora tenha sido o primeiro pensamento por parte da equipe também.

A principal diferença entre eles, segundo Prince, é que enquanto o primeiro estava fora do controle da empresa, este pode ser resolvido internamente. “A boa notícia sobre a questão de hoje é que ela está inteiramente sob nosso controle e, portanto, algo que eu sei que podemos consertar, e que não voltará a acontecer”, disse Prince. “Nós cometemos erros o tempo todo – mas cometemos erros diferentes o tempo todo, o que eu acho que é um sinal de uma organização saudável”.

Prince promete ser o mais transparente possível sobre o problema, da mesma forma que foi depois de um ataque ao Cloudfare em 2012. “Eu estava envergonhado – francamente, eu não queria compartilhar os detalhes de tudo que aconteceu. Nossa equipe disse: ‘Não, essa não é a nossa cultura, e não é isso que defendemos. Realmente acreditamos nessa idéia de ser radicalmente transparente com o que aconteceu. Eu temia que perdêssemos os clientes. Em vez disso… a transparência ajudou as pessoas a construir confiança”, disse.

Via: Data Center Dynamics