DC Health: detecção de anomalias online em datacenters
Detecção de anomalias; Datacenter; Half–Space–Trees.
Datacenters são ambientes críticos para a disponibilidade de serviços baseados em tecnologia. Visando a alta disponibilidade desses serviços, métricas de performance dos nós, como Máquinas Virtuais (VM) ou clusters de VMs são amplamente monitoradas. Essas métricas, como nível de utilização de CPU e memória, podem apresentar padrões anômalos associados a falhas e a degradação de desempenho, culminando na exaustão de recursos e na falha total do nó. O campo de detecção precoce de anomalias, isto é, de padrões em dados com comportamento diferente do esperado, pode possibilitar medidas de remediação, como migração de VMs e realocação de recursos, antes que perdas ocorram. Contudo, ferramentas de monitoramento tradicionais geralmente usam limites fixos para a detecção de problemas nos nós e carecem de maneiras automáticas para detectar anomalias em tempo de execução. Neste sentido, técnicas de aprendizado de máquina têm sido reportadas para detectar anomalias em sistemas computacionais com abordagens online e offline. Este trabalho propõe a aplicação denominada DC Health, como uma abordagem para antecipar a detecção online de anomalias em nós de datacenters. O objetivo do DC Health é detectar anomalias no comportamento de hosts e alertar aos operadores do datacenter, de forma que medidas de investigação e remediação possam ser tomadas. Para isso, esta pesquisa foi conduzida a partir de um i) Mapeamento Sistemático de Literatura, da ii) modelagem do problema a partir de dados reais de VMs e da iii) avaliação do DC Health usando o método prequential em 6 datasets do mundo real. Os resultados demonstraram que o DC Health se destacou no uso de memória constante e na acurácia de detecção acima de 75%. Como trabalhos futuros espera-se principalmente avaliar a ferramenta de detecção em cenários de computação em nuvem e desenvolver mecanismos automatizados de diagnóstico e remediação.