Detecção de anomalias: diferenças entre revisões

Fonte: aprendis
Saltar para a navegaçãoSaltar para a pesquisa
Sem resumo de edição
Sem resumo de edição
Linha 1: Linha 1:
{{Conceitos
|Sigla=DA
|Aplicações=Processamento de dados, Análise de Dados
|Conceitos relacionados=Dados, Anomalias, Mineração de Dados
}}
== Introdução ==
== Introdução ==


Linha 17: Linha 23:
Os métodos paramétricos ou assumem que existe alguma distribuição conhecida dos dados<ref name="Hawkins"/><ref name="Lewis"/><ref name="Rousseeuw">Rousseeuw PJ, Leroy AM: Robust Regression and Outlier Detection. Time 1987, 3:329.</ref>, ou tem como fundamentação a estimativa estatística de uma distribuição desconhecida<ref name="Hadi">Hadi AS: Identifying Multiple Outliers in Multivariate Data. Journal of the Royal Statistical Society. Series B (Methodological) 1992:761–771.</ref>. Tais métodos são na maioria das vezes impróprios para uma série de dados de grandes dimensões ou para série de dados sem qualquer conhecimento prévio de sua distribuição<ref name="Papadimitriou">Papadimitriou S, Kitagawa H, Gibbons PB, Faloutsos C: LOCI: Fast outlier detection using the local correlation integral. In Proceedings - International Conference on Data Engineering; 2003:315–326.</ref>.
Os métodos paramétricos ou assumem que existe alguma distribuição conhecida dos dados<ref name="Hawkins"/><ref name="Lewis"/><ref name="Rousseeuw">Rousseeuw PJ, Leroy AM: Robust Regression and Outlier Detection. Time 1987, 3:329.</ref>, ou tem como fundamentação a estimativa estatística de uma distribuição desconhecida<ref name="Hadi">Hadi AS: Identifying Multiple Outliers in Multivariate Data. Journal of the Royal Statistical Society. Series B (Methodological) 1992:761–771.</ref>. Tais métodos são na maioria das vezes impróprios para uma série de dados de grandes dimensões ou para série de dados sem qualquer conhecimento prévio de sua distribuição<ref name="Papadimitriou">Papadimitriou S, Kitagawa H, Gibbons PB, Faloutsos C: LOCI: Fast outlier detection using the local correlation integral. In Proceedings - International Conference on Data Engineering; 2003:315–326.</ref>.


Nos métodos não-paramétricos podemos evidenciar os métodos de data-mining, também chamados de métodos baseado em distância. Estes métodos geralmente baseiam-se em medidas de distâncias locais e são capazes de processar base de dados de grande volume.
Nos métodos não-paramétricos podemos evidenciar os métodos de data-mining, também chamados de métodos baseado em distância. Estes métodos geralmente baseiam-se em medidas de distâncias locais e são capazes de processar base de dados de grande volume<ref name="Knorr">Knorr EM, Ng RT, Tucakov V: Distance-based outliers: algorithms and applications. VLDB J Int J Very Large Data Bases 2000, 8:237–253.</ref>. Outro método de detecção de anomalias está fundamentado nas técnicas de agrupamento (''clustering'') onde grupos de pequenas dimensões podem ser considerados como anomalias.<ref name="Ramaswamy">Ramaswamy S, Rastogi R, Shim K: Efficient algorithms for mining outliers from large data sets. ACM SIGMOD Rec 2000, 29:427–438.</ref><ref name="Kaufman">Kaufman L, Kaufman L, Rousseeuw PJ, Rousseeuw PJ: Finding Groups in Data: An Introduction to Cluster Analysis (Wiley Series in Probability and Statistics). 2005.</ref>.


== Métodos paramétricos ==
== Métodos paramétricos ==

Revisão das 15h32min de 23 de fevereiro de 2016

Detecção de anomalias
Sigla DA
Aplicações Processamento de dados, Análise de Dados
Conceitos relacionados Dados, Anomalias, Mineração de Dados


Introdução

Embora as anomalias costumam ser consideradas erros ou ruídos, elas podem conter informação importante[1][2], sendo assim, de forma a se obter uma análise coerente de uma observação, é crucial identificá-las antes da modelação de um algoritmo e da análise dos resultados.[3][4].

A definição exata de uma anomalia depende geralmente de pressupostos inerentes à estrutura de dados e ao método aplicado para sua detecção:

  • Hawkins (1980)[5] “Uma observação que se desvia demasiadamente das outras observações ao ponto de levantar suspeitas de ter sido gerada por um mecanismo diferentes.”
  • Johnson (1992)[6] “Uma observação em uma série de dados em aparenta ser inconsistente com o restante daquela série de dados.”
  • Barnett (1994)[7] “A observação anómala, ou anomalia, é aquela que aparenta desviar-se marcadamente dos outros membros da amostra em que ela ocorre.”

Os métodos de detecção de anomalias tem sido utilizados em diversas aplicações, como detecção de fraude em cartões de crédito, irregularidade em eleições, limpeza de dados, invasão de redes, previsão de tempestades, sistemas de informação geográficos, e outras tarefas.

Taxonomia dos métodos de detecção de anomalias

Os métodos de detecção de anomalias foram inicialmente divididos em métodos univariados e multivariados, sendo atualmente divididos em métodos paramétricos (estatísticos) e não-paramétricos (model-free).

Os métodos paramétricos ou assumem que existe alguma distribuição conhecida dos dados[5][7][8], ou tem como fundamentação a estimativa estatística de uma distribuição desconhecida[9]. Tais métodos são na maioria das vezes impróprios para uma série de dados de grandes dimensões ou para série de dados sem qualquer conhecimento prévio de sua distribuição[10].

Nos métodos não-paramétricos podemos evidenciar os métodos de data-mining, também chamados de métodos baseado em distância. Estes métodos geralmente baseiam-se em medidas de distâncias locais e são capazes de processar base de dados de grande volume[11]. Outro método de detecção de anomalias está fundamentado nas técnicas de agrupamento (clustering) onde grupos de pequenas dimensões podem ser considerados como anomalias.[12][13].

Métodos paramétricos

Método estatístico

Métodos não-paramétricos

Método baseado na distância

Método baseado em densidade

Referências

  1. Pang-Ning T, Steinbach M, Kumar V: Introduction to Data Mining. 2006.
  2. Maletic JI, Marcus A: Data Mining and Knowledge Discovery Handbook. 2nd edition. Boston, MA: Springer US; 2010.
  3. Liu H, Shah S, Jiang W: On-line outlier detection and data cleaning. Comput Chem Eng 2004, 28:1635–1647.
  4. Williams G, Baxter R, Hawkins S: A comparative study of RNN for outlier detection in data mining. In 2002 IEEE International Conference on Data Mining, 2002. Proceedings.; 2002:709–712.
  5. 5,0 5,1 Hawkins D., Identification of Outliers, Chapman and Hall, 1980.
  6. Johnson R., Applied Multivariate Statistical Analysis. Prentice Hall, 1992.
  7. 7,0 7,1 Barnett V., Lewis T., Outliers in Statistical Data. JohnWiley, 1994.
  8. Rousseeuw PJ, Leroy AM: Robust Regression and Outlier Detection. Time 1987, 3:329.
  9. Hadi AS: Identifying Multiple Outliers in Multivariate Data. Journal of the Royal Statistical Society. Series B (Methodological) 1992:761–771.
  10. Papadimitriou S, Kitagawa H, Gibbons PB, Faloutsos C: LOCI: Fast outlier detection using the local correlation integral. In Proceedings - International Conference on Data Engineering; 2003:315–326.
  11. Knorr EM, Ng RT, Tucakov V: Distance-based outliers: algorithms and applications. VLDB J Int J Very Large Data Bases 2000, 8:237–253.
  12. Ramaswamy S, Rastogi R, Shim K: Efficient algorithms for mining outliers from large data sets. ACM SIGMOD Rec 2000, 29:427–438.
  13. Kaufman L, Kaufman L, Rousseeuw PJ, Rousseeuw PJ: Finding Groups in Data: An Introduction to Cluster Analysis (Wiley Series in Probability and Statistics). 2005.