Detecção de anomalias

Introdução

Embora as anomalias costumam ser consideradas erros ou ruídos, elas podem conter informação importante^[1]^[2], sendo assim, de forma a se obter uma análise coerente de uma observação, é crucial identificá-las antes da modelação de um algoritmo e da análise dos resultados.^[3]^[4].

A definição exata de uma anomalia depende geralmente de pressupostos inerentes à estrutura de dados e ao método aplicado para sua detecção:

Hawkins (1980)^[5] “Uma observação que se desvia demasiadamente das outras observações ao ponto de levantar suspeitas de ter sido gerada por um mecanismo diferentes.”
Johnson (1992)^[6] “Uma observação em uma série de dados em aparenta ser inconsistente com o restante daquela série de dados.”
Barnett (1994)^[7] “A observação anómala, ou anomalia, é aquela que aparenta desviar-se marcadamente dos outros membros da amostra em que ela ocorre.”

Os métodos de detecção de anomalias tem sido utilizados em diversas aplicações, como detecção de fraude em cartões de crédito, irregularidade em eleições, limpeza de dados, invasão de redes, previsão de tempestades, sistemas de informação geográficos, e outras tarefas.

Taxonomia dos métodos de detecção de anomalias

Métodos paramétricos

Método estatístico

Métodos não-paramétricos

Método baseado na distância

Método baseado em densidade

Referências

↑ Pang-Ning T, Steinbach M, Kumar V: Introduction to Data Mining. 2006.
↑ Maletic JI, Marcus A: Data Mining and Knowledge Discovery Handbook. 2nd edition. Boston, MA: Springer US; 2010.
↑ Liu H, Shah S, Jiang W: On-line outlier detection and data cleaning. Comput Chem Eng 2004, 28:1635–1647.
↑ Williams G, Baxter R, Hawkins S: A comparative study of RNN for outlier detection in data mining. In 2002 IEEE International Conference on Data Mining, 2002. Proceedings.; 2002:709–712.
↑ Hawkins D., Identification of Outliers, Chapman and Hall, 1980.
↑ Johnson R., Applied Multivariate Statistical Analysis. Prentice Hall, 1992.
↑ Barnett V., Lewis T., Outliers in Statistical Data. JohnWiley, 1994.

[Pang-1] Pang-Ning T, Steinbach M, Kumar V: Introduction to Data Mining. 2006.

[Maletic-2] Maletic JI, Marcus A: Data Mining and Knowledge Discovery Handbook. 2nd edition. Boston, MA: Springer US; 2010.

[Liu-3] Liu H, Shah S, Jiang W: On-line outlier detection and data cleaning. Comput Chem Eng 2004, 28:1635–1647.

[Williams-4] Williams G, Baxter R, Hawkins S: A comparative study of RNN for outlier detection in data mining. In 2002 IEEE International Conference on Data Mining, 2002. Proceedings.; 2002:709–712.

[Hawkins-5] Hawkins D., Identification of Outliers, Chapman and Hall, 1980.

[Johnson-6] Johnson R., Applied Multivariate Statistical Analysis. Prentice Hall, 1992.

[Lewis-7] Barnett V., Lewis T., Outliers in Statistical Data. JohnWiley, 1994.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Detecção de anomalias

Índice

Introdução

Taxonomia dos métodos de detecção de anomalias

Métodos paramétricos

Método estatístico

Métodos não-paramétricos

Método baseado na distância

Método baseado em densidade

Referências

Menu de navegação

Ações da página

Operações da página

Ferramentas pessoais

Navegação

Pesquisa

Ferramentas