Modelos de decisão para deteção de fraudes: diferenças entre revisões
Sem resumo de edição |
Sem resumo de edição |
||
Linha 1: | Linha 1: | ||
== Mineração de dados e fraude | |||
== Mineração de dados e fraude em relatórios financeiros== | |||
Redes neuronais artificias, árvores de decisão, redes Bayesianas e máquinas de vetores de suporte são métodos que têm sido aplicados, a fim de detectar demonstrações financeiras fraudulentas.<ref name="fin fraud">S. Chen, “Detection of fraudulent financial statements using the hybrid data mining approach,” Springerplus, vol. 5, no. 1, p. 89, 2016.</ref> | |||
Mineração de dados é uma ferramenta essencial para analisar e classificar bancos de dados complexos. A mineração de dados auxilia na identificação de eventos importantes que possam estar escondidos em análises de grandes quantidades de dados, sendo possível resumir os dados em um modelo estruturado para fornecer uma referência para a tomada de decisão. Mineração de dados possui muitas funções diferentes, tais como classificação, associação, ''clustering'' e previsão. Demonstrações financeiras fraudulentas pode ser visto como um problema de classificação.<ref name="fin fraud" /> | Mineração de dados é uma ferramenta essencial para analisar e classificar bancos de dados complexos. A mineração de dados auxilia na identificação de eventos importantes que possam estar escondidos em análises de grandes quantidades de dados, sendo possível resumir os dados em um modelo estruturado para fornecer uma referência para a tomada de decisão. Mineração de dados possui muitas funções diferentes, tais como classificação, associação, ''clustering'' e previsão. Demonstrações financeiras fraudulentas pode ser visto como um problema de classificação.<ref name="fin fraud" /> | ||
Linha 8: | Linha 10: | ||
O problema de classificação envolve cálculo com uso das características das variáveis de alguns dados de classificação conhecidos, a fim de obter classificação - regras de classificação relacionadas. Os dados desconhecidos de classificação são introduzidos nas regras a fim de obter os resultados da classificação final. Quanto à questão das demonstrações financeiras fraudulentas, grande parte das investigações anteriores propuseram o uso do método de mineração de dados devido à sua superioridade em termos de previsão após a introdução de grandes quantidades de dados para a aprendizagem automática, bem como a sua precisão em termos da classificação e previsão, que é muito maior do que a análise de regressão convencional.<ref name="fin fraud" /> | O problema de classificação envolve cálculo com uso das características das variáveis de alguns dados de classificação conhecidos, a fim de obter classificação - regras de classificação relacionadas. Os dados desconhecidos de classificação são introduzidos nas regras a fim de obter os resultados da classificação final. Quanto à questão das demonstrações financeiras fraudulentas, grande parte das investigações anteriores propuseram o uso do método de mineração de dados devido à sua superioridade em termos de previsão após a introdução de grandes quantidades de dados para a aprendizagem automática, bem como a sua precisão em termos da classificação e previsão, que é muito maior do que a análise de regressão convencional.<ref name="fin fraud" /> | ||
Estudo de Taiwan de 2016 realizado por Chen, S. sobre fraudes em relatórios financeiros argumenta que estudos de investigação anteriores não são suficientes nem completos por usarem somente 1 a 2 métodos estatísticos, não possuírem modelos de comparação, sendo que a maioria usa tratamento estatístico ''one-stage'', a fim de estabelecer o modelo de detecção, o que não seria prudente. O mesmo estudo propõe então um modelo melhor para detectar potenciais demonstrações financeiras fraudulentas, de modo que as perdas sofridas pelos investidores e causadas por auditores poderia ser reduzida | Estudo de Taiwan de 2016 realizado por Chen, S. sobre fraudes em relatórios financeiros argumenta que estudos de investigação anteriores não são suficientes nem completos por usarem somente 1 a 2 métodos estatísticos, não possuírem modelos de comparação, sendo que a maioria usa tratamento estatístico ''one-stage'', a fim de estabelecer o modelo de detecção, o que não seria prudente. O mesmo estudo propõe então um modelo melhor para detectar potenciais demonstrações financeiras fraudulentas, de modo que as perdas sofridas pelos investidores e causadas por auditores poderia ser reduzida: | ||
a) tratamento estatístico de dois estágios; | a) tratamento estatístico de dois estágios; | ||
b) cinco técnicas de mineração de dados para criar o modelo de detecção para comparação de precisão do modelo; | b) cinco técnicas de mineração de dados para criar o modelo de detecção para comparação de precisão do modelo; | ||
c) validação cruzada ''ten-fold'' (divisão do conjunto total de dados em 10 subconjuntos mutuamente exclusivos de mesmo tamanho) com o objetivo de ser prudente e é comumente usado no campo acadêmico. | c) validação cruzada ''ten-fold'' (divisão do conjunto total de dados em 10 subconjuntos mutuamente exclusivos de mesmo tamanho) com o objetivo de ser prudente e é comumente usado no campo acadêmico. | ||
Tal estudo estabelece modelos de classificação para fins de comparação através da combinação de árvores de classificação e regressão, ''Chi squared automatic interaction detector'' - CHAID, redes Bayesianas, máquinas de vetores de suporte | Tal estudo estabelece modelos de classificação para fins de comparação através da combinação de árvores de classificação e regressão, ''Chi squared automatic interaction detector'' (CHAID), redes Bayesianas, máquinas de vetores de suporte, e redes neuronais artificiais. Propõe-se a utilização de um modelo de dois estágios de detecção de demonstrações financeiras fraudulentas usando algoritmos CART DT (árvores de regressão e classificação) e CHAID na seleção de variáveis, a fim de identificar variáveis influentes. Em seguida, este estudo aplica CART, CHAID, BBN (redes Bayesianas), SVM (máquinas de vetores de suporte) e ANN (redes neuronais artificiais) para a construção do modelo de detecção de fraudes e realiza uma comparação par a par dos grupos de teste de cada modelo em termos de precisão de classificação, erros de Tipo I e Tipo II para identificar o modelo com a precisão ideal. <ref name="fin fraud" /> | ||
== Mineração de dados e fraudes em cartões de crédito == | |||
Artigo da Índia de 2014 propõe um modelo inteligente de detecção de fraude de cartão de crédito com o objetivo de detectar fraude à partir de conjunto de dados anônimos e não uniformes de transações de cartões de crédito. A fim de lidar com a natureza anônima dos dados, não é dada preferência a qualquer um dos atributos e cada atributo é igualmente considerado para encontrar os padrões. A avaliação de desempenho do modelo proposto é feito com o auxílio de ''UCSD DataMining Contest 2009 Dataset'' (anônimo e desequilibrado ou não uniforme) e verificou-se que o modelo proposto tem alta taxa de detecção de fraude, taxa de classificação equilibrada, coeficiente de correlação de Matthews, e taxa de alarme falso muito menor do que outros classificadores ''state-of-the-art''. <ref name="cc fraud">K. R. Seeja and M. Zareapoor, “FraudMiner: A Novel Credit Card Fraud Detection Model Based on Frequent Itemset Mining.,” ScientificWorldJournal., vol. 2014, p. 252797, 2014.</ref> | |||
Referências Bibliográficas | Referências Bibliográficas | ||
<references /> | <references /> |
Revisão das 17h19min de 15 de abril de 2016
Mineração de dados e fraude em relatórios financeiros
Redes neuronais artificias, árvores de decisão, redes Bayesianas e máquinas de vetores de suporte são métodos que têm sido aplicados, a fim de detectar demonstrações financeiras fraudulentas.[1]
Mineração de dados é uma ferramenta essencial para analisar e classificar bancos de dados complexos. A mineração de dados auxilia na identificação de eventos importantes que possam estar escondidos em análises de grandes quantidades de dados, sendo possível resumir os dados em um modelo estruturado para fornecer uma referência para a tomada de decisão. Mineração de dados possui muitas funções diferentes, tais como classificação, associação, clustering e previsão. Demonstrações financeiras fraudulentas pode ser visto como um problema de classificação.[1]
O problema de classificação envolve cálculo com uso das características das variáveis de alguns dados de classificação conhecidos, a fim de obter classificação - regras de classificação relacionadas. Os dados desconhecidos de classificação são introduzidos nas regras a fim de obter os resultados da classificação final. Quanto à questão das demonstrações financeiras fraudulentas, grande parte das investigações anteriores propuseram o uso do método de mineração de dados devido à sua superioridade em termos de previsão após a introdução de grandes quantidades de dados para a aprendizagem automática, bem como a sua precisão em termos da classificação e previsão, que é muito maior do que a análise de regressão convencional.[1]
Estudo de Taiwan de 2016 realizado por Chen, S. sobre fraudes em relatórios financeiros argumenta que estudos de investigação anteriores não são suficientes nem completos por usarem somente 1 a 2 métodos estatísticos, não possuírem modelos de comparação, sendo que a maioria usa tratamento estatístico one-stage, a fim de estabelecer o modelo de detecção, o que não seria prudente. O mesmo estudo propõe então um modelo melhor para detectar potenciais demonstrações financeiras fraudulentas, de modo que as perdas sofridas pelos investidores e causadas por auditores poderia ser reduzida: a) tratamento estatístico de dois estágios; b) cinco técnicas de mineração de dados para criar o modelo de detecção para comparação de precisão do modelo; c) validação cruzada ten-fold (divisão do conjunto total de dados em 10 subconjuntos mutuamente exclusivos de mesmo tamanho) com o objetivo de ser prudente e é comumente usado no campo acadêmico. Tal estudo estabelece modelos de classificação para fins de comparação através da combinação de árvores de classificação e regressão, Chi squared automatic interaction detector (CHAID), redes Bayesianas, máquinas de vetores de suporte, e redes neuronais artificiais. Propõe-se a utilização de um modelo de dois estágios de detecção de demonstrações financeiras fraudulentas usando algoritmos CART DT (árvores de regressão e classificação) e CHAID na seleção de variáveis, a fim de identificar variáveis influentes. Em seguida, este estudo aplica CART, CHAID, BBN (redes Bayesianas), SVM (máquinas de vetores de suporte) e ANN (redes neuronais artificiais) para a construção do modelo de detecção de fraudes e realiza uma comparação par a par dos grupos de teste de cada modelo em termos de precisão de classificação, erros de Tipo I e Tipo II para identificar o modelo com a precisão ideal. [1]
Mineração de dados e fraudes em cartões de crédito
Artigo da Índia de 2014 propõe um modelo inteligente de detecção de fraude de cartão de crédito com o objetivo de detectar fraude à partir de conjunto de dados anônimos e não uniformes de transações de cartões de crédito. A fim de lidar com a natureza anônima dos dados, não é dada preferência a qualquer um dos atributos e cada atributo é igualmente considerado para encontrar os padrões. A avaliação de desempenho do modelo proposto é feito com o auxílio de UCSD DataMining Contest 2009 Dataset (anônimo e desequilibrado ou não uniforme) e verificou-se que o modelo proposto tem alta taxa de detecção de fraude, taxa de classificação equilibrada, coeficiente de correlação de Matthews, e taxa de alarme falso muito menor do que outros classificadores state-of-the-art. [2]
Referências Bibliográficas
- ↑ 1,0 1,1 1,2 1,3 S. Chen, “Detection of fraudulent financial statements using the hybrid data mining approach,” Springerplus, vol. 5, no. 1, p. 89, 2016.
- ↑ K. R. Seeja and M. Zareapoor, “FraudMiner: A Novel Credit Card Fraud Detection Model Based on Frequent Itemset Mining.,” ScientificWorldJournal., vol. 2014, p. 252797, 2014.