Revisão das 23h25min de 15 de fevereiro de 2016

MiguelDuarte
Área(s) de Atuação	Informática Médica
Entidade(s) Criadora(s)	Mestrado em Informática Médica
Entidade(s) Gestora(s)	Faculdade de Medicina da Universidade do Porto
Data de Lançamento	2016

About me

Licenciado em Engenharia de Informática pelo ISEP.

A frequentar Mestrado em Informática Médica na FMUP e FCUP.

Developer no Centro Hospitalar São João, co-responsável pelo desenvolvimento de várias aplicações, móveis e desktop, para uso dos vários grupos profissionais.

Formador de iOS no ISEP com formações desde o iOS 4 até ao iOS 9.

Freelancer como Developer de iOS e Windows Phone.

Amador entusiasta no desenvolvimento de aplicações para domótica e iOT

MiguelDuarte (discussão) 01h30min de 4 de fevereiro de 2016 (CET)

Extração de Conhecimento de Dados

“We study the past to understand the present; we understand the present to guide the future.” - William Lund

Introdução

A Extração de Conhecimento de Dados, muitas das vezes denominada de Data Mining, pode ter diferentes definições dependendo da perspectiva.

Numa perspectiva de negócio o Data Mining é definido como o processo de identificação de relacionamentos e padrões existentes numa base de dados.[[[1]]] Pode ainda ser definido como a extração de informação útil para o negocio a partir de grandes bases de dados.[[[2]]]

Numa perspectiva mais funcional é a procura de informação importante em grandes volumes de dados, resultado da cooperação de esforços humanos e de computadores. Os humanos desenham as bases de dados, descrevem problemas e estabelecem objetivos. Os computadores esmiúçam os dados, procurando padrões que correspondam aos objetivos.[[[3]]]

Numa perspectiva mais acadêmica será a extração implícita, não trivial de conhecimentos úteis e padrões válidos, previamente desconhecidos, dos dados.[[[4]]]

Modelo Preditivo

A análise preditiva é o uso de dados e algoritmos para identificar a probabilidade de resultados futuros com base em dados históricos. Os modelos preditivos utilizam os resultados conhecidos para desenvolver e treinar um modelo que possa ser usado para prever valores para dados diferentes ou novos, usando para isso um algoritmo preditivo de Data Mining.

Um algoritmo preditivo é uma função que, dado um conjunto de exemplos rotulados, constrói um estimador. Se o domínio dos rótulos for um conjunto de valores nominais, estamos perante um problema de classificação, e o estimador criado é uma classificador. Se o domínio for um conjunto infinito e ordenado de valores, estamos perante um problema de regressão e é criado um regressor. [[[5]]]

Um estimador (classificador ou regressor) é uma função que atribui a uma das classes, ou um valor real, a um exemplo não rotulado.

Classificação:

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

em que

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

assume valores num conjunto discreto não ordenado. Regressão:

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

em que

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

assume valores num conjunto infinito e ordenado.

O objetivo é encontrar uma fronteira de decisão que separe os exemplos de uma classe dos exemplos da outra classe.

Diferentes algoritmos de Data Mining podem encontrar diferentes fronteiras de decisão.

Regras de Associação

Trata-se da forma de Data Mining que mais se assemelha ao processo que a maioria das pessoas lhe associa, explorar uma grande base de dados à procura da regra que diga algo sobre a base de dados que não se saiba e que provavelmente não sejamos capazes de articular explicitamente.

As regras de associação têm a forma

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

significando que se encontrarmos o conjunto de itens X em uma transação, então existe grande probabilidade de encontrar também o conjunto de itens Y na mesma transação.

Número máximo de regras de associação é definido por:

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

onde n = número de itens.

Podem ser utilizadas várias métricas para avaliar as regras e identificar quais são interessantes diminuindo assim o número de regras geradas. As restrições mais utilizadas são limiares mínimos de suporte e confiança. [[[6]]]

O suporte de um conjunto X é definido como a razão das transações que contém esse conjunto ou seja:

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

A confiança de uma regra é definida por:

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

Mas o suporte e confiança não são suficientes para garantir que uma regra seja interessante sem considerar a sua semântica. Se por exemplo considerarmos a regra Se A então B com confiança de 90%, mas se B aparece em 90% das transações a regra não é interessante pois não acrescentou nada em termos de conhecimento, já a regra Se C então D com confiança de 70% é muito mais importante se D aparece em 10% das transações.

Uma das métricas mais utilizada para avaliar dependências de uma regra de associação é denominado Lift, também conhecida como interest (interesse).[[[7]]]

O Lift de uma regra

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

indica o quanto mais frequente torna-se Y quando X ocorre:

Erro ao criar miniatura: Não é possível gravar a miniatura no destino

Esta medida varia entre 0 e ∞ e quanto maior o valor do Lift, mais interessante é a regra.

Referências

[1] R. Groth,Data Mining: Building Competitive Advantage . Prentice Hall, 2000.

[2] S. Nagabhushana,Data Warehousing Olap And Data Mining . New Age International, 2006.

[3] S. M. Weiss and N. Indurkhya,Predictive Data Mining: A Practical Guide . Morgan Kaufmann, 1998.

[4] P. Adriaans,Data Mining . Addison-Wesley Professional, 1996.

[5] J. G. A. P. de Leon Carvalho Katti Faceli Ana Carolina Lorena Márcia Oliveira,Extração de Conhecimento de Dados . 2012.

[6] J. Hipp, H. Jochen, G. Ulrich, and N. Gholamreza, “Algorithms for association rule mining --- a general survey and comparison,”ACM SIGKDD Explorations Newsletter , vol. 2, no. 1, pp. 58–64, 2000.

[7] S. Brin, B. Sergey, M. Rajeev, J. D. Ullman, and T. Shalom, “Dynamic itemset counting and implication rules for market basket data,” in Proceedings of the 1997 ACM SIGMOD international conference on Management of data - SIGMOD ’97[[, 1997 [Online]. Available:]][[1]]

@@ Linha 51: / Linha 51: @@
 Trata-se da forma de Data Mining que mais se assemelha ao processo que a maioria das pessoas lhe associa, explorar uma grande base de dados à procura da regra que diga algo sobre a base de dados que não se saiba e que provavelmente não sejamos capazes de articular explicitamente.
-As regras de associação têm a forma [[Image:image03.png]] onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e [[Image:image04.png]]significando que se encontrarmos o conjunto de itens X em uma transação, então existe grande probabilidade de encontrar também o conjunto de itens Y na mesma transação.
+As regras de associação têm a forma [[Image:image03.png]] onde X e Y são conjuntos de itens que ocorrem juntos em uma transação e [[Image:image04.png]] significando que se encontrarmos o conjunto de itens X em uma transação, então existe grande probabilidade de encontrar também o conjunto de itens Y na mesma transação.
 Número máximo de regras de associação é definido por:
@@ Linha 77: / Linha 77: @@
 Esta medida varia entre 0 e ∞ e quanto maior o valor do Lift, mais interessante é a regra.
 ----
 == Referências ==

Utilizador:MiguelDuarte: diferenças entre revisões

Revisão das 23h25min de 15 de fevereiro de 2016

Índice

About me

Extração de Conhecimento de Dados

Introdução

Modelo Preditivo

Regras de Associação

Referências

Referências

Menu de navegação

Ações da página

Operações da página

Ferramentas pessoais

Navegação

Pesquisa

Ferramentas