Utilizador:MiguelDuarte: diferenças entre revisões
Sem resumo de edição |
|||
Linha 51: | Linha 51: | ||
Trata-se da forma de Data Mining que mais se assemelha ao processo que a maioria das pessoas lhe associa, explorar uma grande base de dados à procura da regra que diga algo sobre a base de dados que não se saiba e que provavelmente não sejamos capazes de articular explicitamente. | Trata-se da forma de Data Mining que mais se assemelha ao processo que a maioria das pessoas lhe associa, explorar uma grande base de dados à procura da regra que diga algo sobre a base de dados que não se saiba e que provavelmente não sejamos capazes de articular explicitamente. | ||
As regras de associação têm a forma [[Image:image03.png]] onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e [[Image:image04.png]]significando que se encontrarmos o conjunto de itens X em uma transação, então existe grande probabilidade de encontrar também o conjunto de itens Y na mesma transação. | As regras de associação têm a forma [[Image:image03.png]] onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e [[Image:image04.png]] significando que se encontrarmos o conjunto de itens X em uma transação, então existe grande probabilidade de encontrar também o conjunto de itens Y na mesma transação. | ||
Número máximo de regras de associação é definido por: | Número máximo de regras de associação é definido por: | ||
Linha 77: | Linha 77: | ||
Esta medida varia entre 0 e ∞ e quanto maior o valor do Lift, mais interessante é a regra. | Esta medida varia entre 0 e ∞ e quanto maior o valor do Lift, mais interessante é a regra. | ||
---- | ---- | ||
== Referências == | == Referências == | ||
Revisão das 22h25min de 15 de fevereiro de 2016
MiguelDuarte | |
---|---|
Área(s) de Atuação | Informática Médica |
Entidade(s) Criadora(s) | Mestrado em Informática Médica |
Entidade(s) Gestora(s) | Faculdade de Medicina da Universidade do Porto |
Data de Lançamento | 2016 |
About me
Licenciado em Engenharia de Informática pelo ISEP.
A frequentar Mestrado em Informática Médica na FMUP e FCUP.
Developer no Centro Hospitalar São João, co-responsável pelo desenvolvimento de várias aplicações, móveis e desktop, para uso dos vários grupos profissionais.
Formador de iOS no ISEP com formações desde o iOS 4 até ao iOS 9.
Freelancer como Developer de iOS e Windows Phone.
Amador entusiasta no desenvolvimento de aplicações para domótica e iOT
MiguelDuarte (discussão) 01h30min de 4 de fevereiro de 2016 (CET)
Extração de Conhecimento de Dados
“We study the past to understand the present; we understand the present to guide the future.” - William Lund
Introdução
A Extração de Conhecimento de Dados, muitas das vezes denominada de Data Mining, pode ter diferentes definições dependendo da perspectiva.
Numa perspectiva de negócio o Data Mining é definido como o processo de identificação de relacionamentos e padrões existentes numa base de dados.[[[1]]] Pode ainda ser definido como a extração de informação útil para o negocio a partir de grandes bases de dados.[[[2]]]
Numa perspectiva mais funcional é a procura de informação importante em grandes volumes de dados, resultado da cooperação de esforços humanos e de computadores. Os humanos desenham as bases de dados, descrevem problemas e estabelecem objetivos. Os computadores esmiúçam os dados, procurando padrões que correspondam aos objetivos.[[[3]]]
Numa perspectiva mais acadêmica será a extração implícita, não trivial de conhecimentos úteis e padrões válidos, previamente desconhecidos, dos dados.[[[4]]]
Modelo Preditivo
A análise preditiva é o uso de dados e algoritmos para identificar a probabilidade de resultados futuros com base em dados históricos. Os modelos preditivos utilizam os resultados conhecidos para desenvolver e treinar um modelo que possa ser usado para prever valores para dados diferentes ou novos, usando para isso um algoritmo preditivo de Data Mining.
Um algoritmo preditivo é uma função que, dado um conjunto de exemplos rotulados, constrói um estimador. Se o domínio dos rótulos for um conjunto de valores nominais, estamos perante um problema de classificação, e o estimador criado é uma classificador. Se o domínio for um conjunto infinito e ordenado de valores, estamos perante um problema de regressão e é criado um regressor. [[[5]]]
Um estimador (classificador ou regressor) é uma função que atribui a uma das classes, ou um valor real, a um exemplo não rotulado.
Classificação: em que assume valores num conjunto discreto não ordenado.
Regressão: em que assume valores num conjunto infinito e ordenado.
O objetivo é encontrar uma fronteira de decisão que separe os exemplos de uma classe dos exemplos da outra classe.
Diferentes algoritmos de Data Mining podem encontrar diferentes fronteiras de decisão.
Regras de Associação
Trata-se da forma de Data Mining que mais se assemelha ao processo que a maioria das pessoas lhe associa, explorar uma grande base de dados à procura da regra que diga algo sobre a base de dados que não se saiba e que provavelmente não sejamos capazes de articular explicitamente.
As regras de associação têm a forma onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e significando que se encontrarmos o conjunto de itens X em uma transação, então existe grande probabilidade de encontrar também o conjunto de itens Y na mesma transação.
Número máximo de regras de associação é definido por:
Podem ser utilizadas várias métricas para avaliar as regras e identificar quais são interessantes diminuindo assim o número de regras geradas. As restrições mais utilizadas são limiares mínimos de suporte e confiança. [[[6]]]
O suporte de um conjunto X é definido como a razão das transações que contém esse conjunto ou seja:
A confiança de uma regra é definida por:
Mas o suporte e confiança não são suficientes para garantir que uma regra seja interessante sem considerar a sua semântica. Se por exemplo considerarmos a regra Se A então B com confiança de 90%, mas se B aparece em 90% das transações a regra não é interessante pois não acrescentou nada em termos de conhecimento, já a regra Se C então D com confiança de 70% é muito mais importante se D aparece em 10% das transações.
Uma das métricas mais utilizada para avaliar dependências de uma regra de associação é denominado Lift, também conhecida como interest (interesse).[[[7]]]
O Lift de uma regra indica o quanto mais frequente torna-se Y quando X ocorre:
Esta medida varia entre 0 e ∞ e quanto maior o valor do Lift, mais interessante é a regra.
Referências
[1] R. Groth,Data Mining: Building Competitive Advantage. Prentice Hall, 2000.
[2] S. Nagabhushana,Data Warehousing Olap And Data Mining. New Age International, 2006.
[3] S. M. Weiss and N. Indurkhya,Predictive Data Mining: A Practical Guide. Morgan Kaufmann, 1998.
[4] P. Adriaans,Data Mining. Addison-Wesley Professional, 1996.
[5] J. G. A. P. de Leon Carvalho Katti Faceli Ana Carolina Lorena Márcia Oliveira,Extração de Conhecimento de Dados. 2012.
[6] J. Hipp, H. Jochen, G. Ulrich, and N. Gholamreza, “Algorithms for association rule mining --- a general survey and comparison,”ACM SIGKDD Explorations Newsletter, vol. 2, no. 1, pp. 58–64, 2000.
[7] S. Brin, B. Sergey, M. Rajeev, J. D. Ullman, and T. Shalom, “Dynamic itemset counting and implication rules for market basket data,” inProceedings of the 1997 ACM SIGMOD international conference on Management of data - SIGMOD ’97[[, 1997 [Online]. Available:]][[1]]