DC Health: Detecção de anomalias online no nível do nó no monitoramento de dados de desempenho do datacenter
Detecção de anomalias; Datacenter; Half–Space–Trees.
Datacenters são ambientes críticos para a disponibilidade de serviços baseados em tecnologia. Visando a alta disponibilidade desses serviços, métricas de performance dos nós, como Máquinas Virtuais (VM) ou clusters de VMs são amplamente monitoradas. Essas métricas, como nível de utilização de CPU e memória, podem apresentar padrões anômalos associados a falhas e a degradação de desempenho, culminando na exaustão de recursos e na falha total do nó. Assim, a detecção precoce de anomalias pode possibilitar medidas de remediação, como migração de VMs e realocação de recursos, antes que perdas ocorram. Contudo, ferramentas de monitoramento tradicionais geralmente usam limites fixos para a detecção de problemas nos nós e carecem de maneiras automáticas para detectar anomalias em tempo de execução. Neste sentido, técnicas de aprendizado de máquina têm sido reportadas para detectar anomalias em sistemas computacionais com abordagens online e offline. Assim, este trabalho visa propor e avaliar a aplicação DC Health, que busca antecipar a detecção de anomalias em nós de datacenters. Para isso, esta pesquisa foi conduzida a partir de um i) Mapeamento Sistemático de Literatura, da ii) modelagem do problema a partir de dados reais de VMs e da iii) avaliação do DCH usando o método prequential em 6 datasets do mundo real. Resultados preliminares demonstraram que o DCH se destacou no uso de memória constante e na acurácia de detecção acima de 75%. Como continuidade desta pesquisa, espera-se desenvolver um estudo de caso com os operadores de datacenter e a avaliação da ferramenta em grande volume de nós.