Modelos de decisão para deteção de fraudes
Além das auditorias interna e externa para o controle de fraudes, tem sido utilizada a mineração de dados como uma ferramenta analítica. [1]
O fraudador motivado pelo lucro tem interações com a empresa afetada, sendo que tradicionalmente, todos os tipos de negócios são suscetíveis à fraude interna ou corrupção de sua gestão (de alto escalão) e empregados não-administradores (baixo escalão).
Existe ainda a possibilidade de o fraudador ser externo à empresa, cometendo fraudes na forma de um cliente potencial ou existente (consumidor) ou um fornecedor potencial ou existente. O fraudador externo tem três perfis básicos: o oportunista (exibi comportamento desonesto aleatório ou ocasional quando há oportunidade, impulso, ou quando sofrem de dificuldade financeira), o criminoso, e o crime organizado. [1]
A detecção de fraude interna preocupa-se em determinar relatórios financeiros fraudulentos por gestores e operações de varejo anormais por funcionários.
Há quatro subgrupos de detecção de fraude de seguros: seguro de casa, seguro de colheitas, seguro automóvel e seguro médico.
Detecção de fraude de crédito refere-se a triagem de pedidos de crédito, e / ou registros de transações de cartão de crédito.
Semelhante à detecção de fraudes de crédito, existe a fraude através do uso de dados de assinatura de telecomunicações, e / ou ligações telefônicas com ou sem fio. [1]
Existem outros domínios de detecção de fraude como E-businesses e comércio electrónico que apresentam uma tarefa de mineração de dados desafiadora porque confunde as fronteiras entre os sistemas de detecção de fraude e sistemas de detecção de intrusão de rede. A literatura relacionada tem foco em sites de video-on-demand e serviços de telecomunicações baseados em IP. Vendedores e compradores on-line podem ser monitorados por sistemas automatizados. Detecção de fraude em organizações governamentais, tais como impostos e taxas alfandegárias também tem sido relatadas. [1]
Para muitas empresas que possuem interações com milhões de partes externas, torna-se proibitivo verificar manualmente a maioria das identidades e das actividades das partes externas. Portanto investiga-se aqueles que possuem maior risco de acordo com a saída de mineração de dados, tais como score suspeito, regras e anomalias visuais. [1]
Artigo da Austrália de 2010 revisa as publicações sobre detecção automatizada de fraude dos 10 anos anteriores, de maneira a definir o profissional fraudador, formalizar os principais tipos e subtipos de fraude conhecidas, e apresentar a natureza da evidência dados recolhidos no âmbito das indústrias afetadas, sendo que apresenta métodos e técnicas em conjunto com seus problemas no âmbito da mineração de dados para a obtenção de maior economia. [1]
Neste é citada a definição de mineração de dados como uma maneira de encontrar conhecimento estatisticamente confiável, desconhecido anteriormente, e detetável a partir de dados. Cita também fraude como o abuso do sistema de lucros de uma organização sem, necessariamente, ocasionar consequências legais. [1]
Na maioria dos cenários de detecção de fraudes do mundo real, a escolha de técnicas de mineração de dados é mais dependente de questões práticas dos requisitos operacionais, limitações de recursos e compromisso de gestão para a redução da fraude do que as questões técnicas sustentadas pelos dados. [1]
Na detecção de fraudes, a medida mais importante é a sensibilidade ou a taxa de detecção de fraudes, uma vez que as perdas devido a fraude dependem desta métrica. A segunda medida importante é a taxa de falso alarme (falso positivo), uma vez que poderia trazer constrangimentos através de uma falsa acusação de fraude. [2]
Mineração de dados e detecção de fraudes e más práticas em prescrições médicas
Artigo escrito no Irã e publicado em 2015 propõe o uso de 13 indicadores com a finalidade de agrupar médicos de acordo com os padrões em termos de prescrições de medicações. [3]
Mineração de dados e detecção de fraudes e más práticas em Saúde
Estudo norte americano publicado em 2008 sugere que existem sistemas e processos que podem ser implementados para melhor detectar e impedir fraudes e más práticas de origem externas e internas, destacando entre eles:
1. Formação e educação;
2. Implementação de codificação assistida por computador (CAC);
3. Aumento da fiscalização federal de fraude e monitoramento de más práticas;
4. Utilização de modelagem de dados e mineração de dados. [4]
Mineração de dados e detecção de fraude em relatórios financeiros
Redes neuronais artificias, árvores de decisão, redes Bayesianas e máquinas de vetores de suporte são métodos que têm sido aplicados, a fim de detectar demonstrações financeiras fraudulentas.[5]
Mineração de dados é uma ferramenta essencial para analisar e classificar bancos de dados complexos. A mineração de dados auxilia na identificação de eventos importantes que possam estar escondidos em análises de grandes quantidades de dados, sendo possível resumir os dados em um modelo estruturado para fornecer uma referência para a tomada de decisão. Mineração de dados possui muitas funções diferentes, tais como classificação, associação, clustering e previsão. Demonstrações financeiras fraudulentas pode ser visto como um problema de classificação.[5]
O problema de classificação envolve cálculo com uso das características das variáveis de alguns dados de classificação conhecidos, a fim de obter classificação - regras de classificação relacionadas. Os dados desconhecidos de classificação são introduzidos nas regras a fim de obter os resultados da classificação final. Quanto à questão das demonstrações financeiras fraudulentas, grande parte das investigações anteriores propuseram o uso do método de mineração de dados devido à sua superioridade em termos de previsão após a introdução de grandes quantidades de dados para a aprendizagem automática, bem como a sua precisão em termos da classificação e previsão, que é muito maior do que a análise de regressão convencional.[5]
Estudo de Taiwan de 2016 realizado por Chen, S. sobre fraudes em relatórios financeiros argumenta que estudos de investigação anteriores não são suficientes nem completos por usarem somente 1 a 2 métodos estatísticos, não possuírem modelos de comparação, sendo que a maioria usa tratamento estatístico one-stage, a fim de estabelecer o modelo de detecção, o que não seria prudente. O mesmo estudo propõe então um modelo melhor para detectar potenciais demonstrações financeiras fraudulentas, de modo que as perdas sofridas pelos investidores e causadas por auditores poderia ser reduzida:
a) tratamento estatístico de dois estágios;
b) cinco técnicas de mineração de dados para criar o modelo de detecção para comparação de precisão do modelo;
c) validação cruzada ten-fold (divisão do conjunto total de dados em 10 subconjuntos mutuamente exclusivos de mesmo tamanho) com o objetivo de ser prudente e é comumente usado no campo acadêmico.
Tal estudo estabelece modelos de classificação para fins de comparação através da combinação de árvores de classificação e regressão, Chi squared automatic interaction detector (CHAID), redes Bayesianas, máquinas de vetores de suporte, e redes neuronais artificiais. Propõe-se a utilização de um modelo de dois estágios de detecção de demonstrações financeiras fraudulentas usando algoritmos CART DT (árvores de regressão e classificação) e CHAID na seleção de variáveis, a fim de identificar variáveis influentes. Em seguida, este estudo aplica CART, CHAID, BBN (redes Bayesianas), SVM (máquinas de vetores de suporte) e ANN (redes neuronais artificiais) para a construção do modelo de detecção de fraudes e realiza uma comparação par a par dos grupos de teste de cada modelo em termos de precisão de classificação, erros de Tipo I e Tipo II para identificar o modelo com a precisão ideal. [5]
Mineração de dados e detecção fraudes em cartões de crédito
Artigo da Índia de 2014 propõe um modelo inteligente de detecção de fraudes com cartões de crédito com o objetivo de detectar fraude à partir de conjunto de dados anônimos e não uniformes de transações de cartões de crédito. A fim de lidar com a natureza anônima dos dados, não é dada preferência a qualquer um dos atributos e cada atributo é igualmente considerado para encontrar os padrões. A avaliação de desempenho do modelo proposto é feito com o auxílio de UCSD DataMining Contest 2009 Dataset (anônimo e não uniforme) e verificou-se que o modelo proposto tem alta taxa de detecção de fraude, taxa de classificação equilibrada, coeficiente de correlação de Matthews, e taxa de alarme falso muito menor do que outros classificadores state-of-the-art.[2]
O modelo proposto tem seu desempenho avaliado com o auxílio de um conjunto de dados anónimos, verificando-se que funciona bem com este tipo de dados uma vez que independe dos valores dos atributos. A segunda característica do modelo proposto é a sua capacidade de lidar com o desequilíbrio classe, incorporada no modelo pela criação de dois bancos de dados padrão separados em transação fraudulenta e transação válida.
Os padrões de comportamento dos clientes e das fraudes mudam gradualmente ao longo de períodos maiores. Tal fato poderia degradar o desempenho do modelo de detecção de fraudes. Tais mudanças de padrões comportamentais podem ser incorporadas no modelo através da atualização da matriz dos bancos de dados para fraudes e transações válidas. Isto pode ser feito através da execução do algoritmo de reconhecimento de padrões propostos em pontos de tempo fixos ou uma vez a cada quantidade determinada de transações. O método de detecção proposto demora muito menos tempo, o que também é um parâmetro importante desta aplicação em tempo real, porque a detecção de fraude é feita através as bases de dados de padrão mais pequenos em vez de grandes bases de dados de transação.[2]
As ferramentas utilizadas pelos autores foram:
a) Máquinas de vetores de suporte: técnicas de aprendizagem estatísticas baseadas na concepção de planos de decisão que definem limites de decisão. Um plano de decisão separa conjuntos de diferentes classes. Algoritmos de máquinas de vetores de suporte tendem a construir um hiperplano como plano decisão que separa as amostras para as duas classes - positivos e negativos;
b) K-Nearest Neighbor (KNN): algoritmo que armazena todos os casos disponíveis e então classifica quaisquer novos casos com base em uma medida de similaridade. O algoritmo KNN é exemplo de aprendizagem baseada em exemplos. No método KNN, cada novo caso é comparado com os existentes usando uma métrica de distância, e o exemplo mais próximo existente é usado para atribuir a classe para o novo;
c) Naive Bayes (NB) é um método supervisionado de aprendizagem de máquina que utiliza um conjunto de dados de treinamento com alvos conhecidos das classes para prever o futuro ou qualquer nova entrada de valor de classe, é um poderoso método probabilístico que explora informações de classe de treinamento conjunto de dados para prever a classe de ocorrências futuras;
d) Random forest: é um conjunto de árvores de decisão, onde cada árvore decisão individual é um weak learner, enquanto todas as árvores de decisão em conjunto são um strong learner. Quando daclassificação de um novo objeto é analisado por cada uma das árvores da floresta. Cada árvore dá uma saída de classificação ou voto para uma classe. A Random forest classifica o novo objeto para a classe que obtiver mais votos;
e) FraudMiner: modelo para detecção de fraudes proposto pelos autores do artigo. Dividido em duas fases, treinamento (construção de padrão de bancos de dados através da mineração da frequência do conjunto de dados), e teste (detecção de fraude através do uso do algoritmo de correspondência).[2]
Referências Bibliográficas
- ↑ 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 S. Wang, “A comprehensive survey of data mining-based accounting-fraud detection research,” 2010 Int. Conf. Intell. Comput. Technol. Autom. ICICTA 2010, vol. 1, pp. 50–53, 2010.
- ↑ 2,0 2,1 2,2 2,3 K. R. Seeja and M. Zareapoor, “FraudMiner: A Novel Credit Card Fraud Detection Model Based on Frequent Itemset Mining.,” ScientificWorldJournal., vol. 2014, p. 252797, 2014.
- ↑ H. Joudaki, A. Rashidian, B. Minaei-Bidgoli, M. Mahmoodi, B. Geraili, M. Nasiri, and M. Arab, “Improving Fraud and Abuse Detection in General Physician Claims: A Data Mining Study,” Int. J. Heal. Policy Manag., vol. 5, no. 3, pp. 165–172, 2015.
- ↑ W. J. Rudman, J. S. E. Iii, W. Pierce, and S. Hart-hester, “Healthcare Fraud and Abuse,” Perspect. Heal. Inf. Manag., pp. 1–24, 2008.
- ↑ 5,0 5,1 5,2 5,3 S. Chen, “Detection of fraudulent financial statements using the hybrid data mining approach,” Springerplus, vol. 5, no. 1, p. 89, 2016.