Data Warehouse em Saúde: diferenças entre revisões
Sem resumo de edição |
Sem resumo de edição |
||
(Há 13 edições intermédias do mesmo utilizador que não estão a ser apresentadas) | |||
Linha 3: | Linha 3: | ||
|Aplicações=Armazenamento de dados, Sistemas de Apoio à Decisão | |Aplicações=Armazenamento de dados, Sistemas de Apoio à Decisão | ||
}} | }} | ||
== | === Introdução === | ||
O conceito de Data Warehouse (DW) surge no final dos anos 80, sendo um sistema que funciona como um repositório de dados construído para o suporte à tomada de decisão <ref>Inmon, W. H. (2005). Building the Data Warehouse. New York: Wiley.</ref>. Devido à crescente quantidade de informação disponível, surge a necessidade de estruturar os dados num formato válido e consistente para permitir atividades como consultas, processamento analítico, e elaboração de relatórios. Outra maneira de explorar os dados armazenados no DW é recorrendo a técnicas de [[Data Mining|Data Mining]] (DM). | O conceito de Data Warehouse (DW) surge no final dos anos 80, sendo um sistema que funciona como um repositório de dados construído para o suporte à tomada de decisão <ref name="Inmon2005">Inmon, W. H. (2005). Building the Data Warehouse. New York: Wiley.</ref>. Devido à crescente quantidade de informação disponível, surge a necessidade de estruturar os dados num formato válido e consistente para permitir atividades como consultas (pré-definidas ou ''ad-hoc''), processamento analítico, e elaboração de relatórios. Outra maneira de explorar os dados armazenados no DW é recorrendo a técnicas de [[Data Mining|Data Mining]] (DM)<ref name="Inmon2005"/>. Assim, o DW surgiu de forma a permitir aceder a dados rigorosos que espalhem a realidade não só das instituições de saúde, como a de muitas outras. | ||
Os profissionais de saúde necessitam de uma ferramenta fiável, centrada no paciente, que preste todo o apoio e permita melhorar o seu fluxo de trabalho. Atualmente o formato em papel já não é um suporte fiável para o registo e gestão da grande quantidade de informação que as instituições de saúde produzem. Os problemas de legibilidade são constantes, o acesso a informação é difícil e por causa disso, localizar ou acompanhar um evento recente pode ser muito complicado. | |||
= | O sistema de DW pode ser aplicado em diversas áreas, sendo as duas principais funções<ref name="Inmon2005"/>: | ||
# Manter registos históricos e atuais; | |||
# Ajudar organizações a tomar decisões através de análises de dados precisos. | |||
=== Desenvolvimento na Saúde === | |||
A grande quantidade de informação recolhida pelos [[Registos clínicos electrónicos|registos clínicos eletrónicos]] encontrou um valor adicional quando integrada e armazenada nos sistemas de DW. Este tornou-se útil não só na organização e em estratégias de tomadas de decisão, como também no apoio à decisão clínica de um paciente em específico<ref name="Evans2012"> Evans, R. S., Lloyd, J. F., & Pierce, L. A. (2012). Clinical Use of an Enterprise Data Warehouse. AMIA Annual Symposium Proceedings, 2012, 189–198.</ref>. | |||
Como um esforço para facilitar o acesso à informação médica, os armazéns de dados que continham os dados clínicos e administrativos da organização de saúde, começaram a ser desenvolvidos. Usando tecnologias de rede, foram desenvolvidas interfaces para recolher os dados a partir de diferentes bases de dados sendo depois armazenados num único e grande banco de dados. No entanto, no início, foi reconhecido que os dados provenientes de diversas fontes, não só precisavam de ser integrados, como também limpos, e formatados<ref name="Evans2012"/>. | |||
Como foram identificados novos usos para os armazéns de dados, o padrão [[Digital Imaging and Communications in Medicine|DICOM]] (Digital Imaging and Communications in Medicine) começou a ser usado para integrar informações de imagem usando o sistema [[Picture Archiving and Communication Systems|PACS]] (Picture Archiving and Communication System). A vantagem do compartilhamento de dados pertencentes a diferentes organizações foi identificada surgindo a necessidade de se desenvolver modelos de informação federados. Enquanto o [[HL7]] é muitas vezes usado como o padrão de interface para a integração de dados divergentes, outros padrões de dados, incluindo [[RxNORM|RxNorm]], [[SNOMED-CT]], [[International Classification of Diseases|ICD]], [[CPT]](''Current Procedural Terminology''), [[Logical Observations, Identifiers, Names and Codes|LOINC]], [[Unified Medical Language System|UMLS]] e códigos [[Grupos de Diagnósticos Homogéneos|GDH]] são também frequentemente incluídos nos DW. Os dados armazenados dentro desses armazéns de dados podem ser gerenciados e acedidos através de ''Structured Query Language (SQL)'' integrado em ''Application Programming Interfaces (APIs)'' que são programados em C ++, Java, Perl, etc<ref name="Evans2012"/>. | |||
===Extração de Dados=== | |||
Todos os dados passam por um processo de "limpeza" dividido em três passos: extrair, transformar e limpar, e carregar (''ETL - Extract, Transform and Load'')<ref name="Inmon2005"/>. Estas ferramentas são especializadas em lidar com a homogeneidade dos dados, a sua limpeza e o carregamento para o DW <ref name="Vassiliadis2002">Vassiliadis, P., Simitsis, A., & Skiadopoulos, S. (2002). Conceptual modeling for ETL processes. Paper presented at the 5th ACM international workshop on Data Warehousing and OLAP, Virginia, USA.</ref> | |||
* Extrair: As informações recolhidas provêm de hospitalizações (tipo de admissão, tempo de internamento), diagnósticos, exames, vacinas, sinais vitais, entre outras. Os dados são extraídos para um DW vazio onde é feita a distinção lógica entre a primeira extração e subsequentes extrações incrementais que atualizam o DW utilizando novos dados. | |||
* Transformar: Nesta fase o objetivo é limpar os dados e melhorar a qualidade destes fazendo correções de inconsistências, erros e valores em falta. São também aplicadas regras automáticas pré-definidas para corrigir os erros mais recorrentes. Posteriormente ocorrem conversões adicionais para garantir a homogeneidade e integração dos dados. | |||
* Carregar: Por fim os dados são carregados para as tabelas do DW, tornando-se disponíveis para os analistas e as aplicações de apoio à decisão. | |||
===Características=== | |||
O Data Warehouse contém quatro atributos fundamentais, definindo DW como um conjunto de dados integrado, orientado por assunto, não volátil e estruturado temporalmente de maneira a suportar os gestores no seu processo de tomada de decisão<ref name="Inmon2005"/>. | |||
* '''Orientado por assunto:''' Os dados são organizados por assuntos, como por exemplo o serviço, o profissional ou os pacientes. Esta orientação providencia uma visão simples de um determinado assunto, permitindo uma melhor análise dos dados para o suporte à tomada de decisão. | |||
* '''Integrado:''' Estreitamente relacionado ao conceito “orientado por assunto”. A informação proveniente das diversas fontes devem ser consistentes. Para isso são usadas as técnicas de limpeza e integração que resolvem os conflitos e discrepâncias dos diversos formatos dos dados. | |||
* '''Estruturado temporalmente:''' O tempo é uma dimensão essencial que o DW deve suportar. Uma vez que o DW mantém dados históricos, este conceito permite detetar padrões e relações a longo prazo para auxiliar a tomada de decisão. | |||
* '''Não volátil:''' Os registos não podem ser modificados ou atualizados depois de inseridos. Alguns dados podem ser considerados absoletos pela instituição podendo ser eliminados (embora na realidade nunca se removam dados de um DW), e as mudanças são registadas como sendo dados novos. | |||
===Tipos de Sistemas=== | |||
====Data Mart==== | |||
Sempre que existe a necessidade de separar a informação, o armazenamento é feito num repositório de dados mais pequeno do que os DW, sendo designado de ''Data Mart''. Estes repositórios reúnem todos os dados de um subconjunto específico da organização, como por exemplo um tipo de serviço (p.e. ortopedia)<ref name="Garner1998">Gardner, S. R. (1998). Building the Data Warehouse. Communications of the ACM, 41(9), 52-60.</ref>. | |||
<u>Data Mart vs Data Warehouse</u> | |||
{| class="wikitable" | |||
! Data Mart | |||
! Data Warehouse | |||
|+Tabela 1 - Data Mart vs Data Warehouse | |||
|- | |||
| Dados de um departamento | |||
| Dados de toda a instituição | |||
|- | |||
| Uma única área | |||
| Várias áreas | |||
|- | |||
| Fácil de construir | |||
| Difícil de construir | |||
|- | |||
| Mais rápido de construir | |||
| Mais demorado | |||
|- | |||
| Memória grande | |||
| Memória limitada | |||
|} | |||
====Sistema Operacional==== | |||
Os sistemas operacionais, ou ''On-line Transactional Processing (OLTP)'', devem centrar-se no registo das transações que ocorrem no seu funcionamento diário. Estas operações são estruturadas e repetitivas consistindo em transações pequenas, atómicas e isoladas <ref name="Chaudhuri1997">Chaudhuri, S., & Dayal, U. (1997). An overview of Data Warehousing and OLAP technology. SIGMOD Rec, 26(1), 65-74.</ref>. | |||
====Sistema Analítico==== | |||
O DW é normalmente apresentado como analítico, ou ''On-line Analytical Processing (OLAP)'', para efetuar análises e tomar decisões. O principal objetivo do DW é o armazenamento histórico e a integração dos dados provenientes de diversas fontes da instituição<ref name="Chaudhuri1997"/>. | |||
<u>Base de Dados Organizacional vs Data Warehouse</u> | |||
Geralmente, o DW é mantido separadamente da Base de Dados Organizacional (BDO) da organização devido à finalidade dos dois sistemas. A tabela 2 resume as principais diferenças entre estes conceitos<ref name="WuBuchman1997">Wu, M. C., & Buchman, A. P. (1997). Research Issues in Data Warehousing. Paper presented at the BTW'97, Ulm, Germany.</ref>. | |||
{| class="wikitable" | {| class="wikitable" | ||
Linha 42: | Linha 101: | ||
! Base de Dados Operacional | ! Base de Dados Operacional | ||
! Data Warehouse | ! Data Warehouse | ||
|+Tabela 2 - Base de Dados Operacional vs Data Warehouse (adaptado de Wu e Buchman, 1997)<ref name="WuBuchman1997"/> | |||
|- | |- | ||
| Função | | Função | ||
Linha 85: | Linha 145: | ||
|} | |} | ||
De forma a explorar os dados e a informação de um DW são usadas técnicas como o processamento analítico de dados OLAP, juntamente com algoritmos de DM. A tecnologia OLAP permite realizar análises multidimensionais aos dados e oferece a capacidade de realizar cálculos complexos, analisar tendências e de modelar os dados refinadamente. A partir da modelação multidimensional esta tecnologia cria cubos para analisar a informação necessária à tomada de decisão sobre várias perspetivas. | De forma a explorar os dados e a informação de um DW são usadas técnicas como o processamento analítico de dados OLAP, juntamente com algoritmos de DM. A tecnologia ''OLAP'' permite realizar análises multidimensionais aos dados e oferece a capacidade de realizar cálculos complexos, analisar tendências e de modelar os dados refinadamente. A partir da modelação multidimensional esta tecnologia cria cubos para analisar a informação necessária à tomada de decisão sobre várias perspetivas. O processamento analítico dos dados são baseados em hierarquias de conceitos de forma a criar vistas lógicas ao longo das dimensões de um DW. Por exemplo, uma dimensão "local" pode gerar uma hierarquia ordenada (país, distrito, concelho, freguesia). Estas hierarquias ajudam na visualização sobre os cubos de um DW<ref name="HanKamber2001">Han, J., & Kamber, M. (2001). Data Mining: Concepts and Techniques: Morgan Kaufmann Publishers.</ref>. | ||
Os servidores ''OLAP'' podem ser multidimensionais, relacionais ou hibridos<ref name="HanKamber2001"/>. | |||
===Metadatas=== | |||
Os ''Metadatas'' (dados sobre dados) são uma parte importante de qualquer ''Data Warehousing''. Estes são armazenados em repositórios próprios, e incluem informações como <ref name="Sen2004">Sen, A. (2004). Metadata Management: Past, Present and Future. Decision Support Systems, 37(1).</ref>: | |||
* Descrição das fontes dos dados | |||
* Descrição das dimensões e hierarquias | |||
* Descrição das queries | |||
* Localização de dados | |||
* Conteúdos dos ''Data Marts'' | |||
* As regras de extração, limpeza e carregamento | |||
* O perfil dos utilizadores | |||
* Políticas de controlo de acesso e autorizações | |||
Edição atual desde as 15h49min de 17 de abril de 2016
Data Warehouse em Saúde | |
---|---|
Sigla | DW |
Aplicações | Armazenamento de dados, Sistemas de Apoio à Decisão |
Conceitos relacionados |
Introdução
O conceito de Data Warehouse (DW) surge no final dos anos 80, sendo um sistema que funciona como um repositório de dados construído para o suporte à tomada de decisão [1]. Devido à crescente quantidade de informação disponível, surge a necessidade de estruturar os dados num formato válido e consistente para permitir atividades como consultas (pré-definidas ou ad-hoc), processamento analítico, e elaboração de relatórios. Outra maneira de explorar os dados armazenados no DW é recorrendo a técnicas de Data Mining (DM)[1]. Assim, o DW surgiu de forma a permitir aceder a dados rigorosos que espalhem a realidade não só das instituições de saúde, como a de muitas outras.
Os profissionais de saúde necessitam de uma ferramenta fiável, centrada no paciente, que preste todo o apoio e permita melhorar o seu fluxo de trabalho. Atualmente o formato em papel já não é um suporte fiável para o registo e gestão da grande quantidade de informação que as instituições de saúde produzem. Os problemas de legibilidade são constantes, o acesso a informação é difícil e por causa disso, localizar ou acompanhar um evento recente pode ser muito complicado.
O sistema de DW pode ser aplicado em diversas áreas, sendo as duas principais funções[1]:
- Manter registos históricos e atuais;
- Ajudar organizações a tomar decisões através de análises de dados precisos.
Desenvolvimento na Saúde
A grande quantidade de informação recolhida pelos registos clínicos eletrónicos encontrou um valor adicional quando integrada e armazenada nos sistemas de DW. Este tornou-se útil não só na organização e em estratégias de tomadas de decisão, como também no apoio à decisão clínica de um paciente em específico[2].
Como um esforço para facilitar o acesso à informação médica, os armazéns de dados que continham os dados clínicos e administrativos da organização de saúde, começaram a ser desenvolvidos. Usando tecnologias de rede, foram desenvolvidas interfaces para recolher os dados a partir de diferentes bases de dados sendo depois armazenados num único e grande banco de dados. No entanto, no início, foi reconhecido que os dados provenientes de diversas fontes, não só precisavam de ser integrados, como também limpos, e formatados[2].
Como foram identificados novos usos para os armazéns de dados, o padrão DICOM (Digital Imaging and Communications in Medicine) começou a ser usado para integrar informações de imagem usando o sistema PACS (Picture Archiving and Communication System). A vantagem do compartilhamento de dados pertencentes a diferentes organizações foi identificada surgindo a necessidade de se desenvolver modelos de informação federados. Enquanto o HL7 é muitas vezes usado como o padrão de interface para a integração de dados divergentes, outros padrões de dados, incluindo RxNorm, SNOMED-CT, ICD, CPT(Current Procedural Terminology), LOINC, UMLS e códigos GDH são também frequentemente incluídos nos DW. Os dados armazenados dentro desses armazéns de dados podem ser gerenciados e acedidos através de Structured Query Language (SQL) integrado em Application Programming Interfaces (APIs) que são programados em C ++, Java, Perl, etc[2].
Extração de Dados
Todos os dados passam por um processo de "limpeza" dividido em três passos: extrair, transformar e limpar, e carregar (ETL - Extract, Transform and Load)[1]. Estas ferramentas são especializadas em lidar com a homogeneidade dos dados, a sua limpeza e o carregamento para o DW [3]
- Extrair: As informações recolhidas provêm de hospitalizações (tipo de admissão, tempo de internamento), diagnósticos, exames, vacinas, sinais vitais, entre outras. Os dados são extraídos para um DW vazio onde é feita a distinção lógica entre a primeira extração e subsequentes extrações incrementais que atualizam o DW utilizando novos dados.
- Transformar: Nesta fase o objetivo é limpar os dados e melhorar a qualidade destes fazendo correções de inconsistências, erros e valores em falta. São também aplicadas regras automáticas pré-definidas para corrigir os erros mais recorrentes. Posteriormente ocorrem conversões adicionais para garantir a homogeneidade e integração dos dados.
- Carregar: Por fim os dados são carregados para as tabelas do DW, tornando-se disponíveis para os analistas e as aplicações de apoio à decisão.
Características
O Data Warehouse contém quatro atributos fundamentais, definindo DW como um conjunto de dados integrado, orientado por assunto, não volátil e estruturado temporalmente de maneira a suportar os gestores no seu processo de tomada de decisão[1].
- Orientado por assunto: Os dados são organizados por assuntos, como por exemplo o serviço, o profissional ou os pacientes. Esta orientação providencia uma visão simples de um determinado assunto, permitindo uma melhor análise dos dados para o suporte à tomada de decisão.
- Integrado: Estreitamente relacionado ao conceito “orientado por assunto”. A informação proveniente das diversas fontes devem ser consistentes. Para isso são usadas as técnicas de limpeza e integração que resolvem os conflitos e discrepâncias dos diversos formatos dos dados.
- Estruturado temporalmente: O tempo é uma dimensão essencial que o DW deve suportar. Uma vez que o DW mantém dados históricos, este conceito permite detetar padrões e relações a longo prazo para auxiliar a tomada de decisão.
- Não volátil: Os registos não podem ser modificados ou atualizados depois de inseridos. Alguns dados podem ser considerados absoletos pela instituição podendo ser eliminados (embora na realidade nunca se removam dados de um DW), e as mudanças são registadas como sendo dados novos.
Tipos de Sistemas
Data Mart
Sempre que existe a necessidade de separar a informação, o armazenamento é feito num repositório de dados mais pequeno do que os DW, sendo designado de Data Mart. Estes repositórios reúnem todos os dados de um subconjunto específico da organização, como por exemplo um tipo de serviço (p.e. ortopedia)[4].
Data Mart vs Data Warehouse
Data Mart | Data Warehouse |
---|---|
Dados de um departamento | Dados de toda a instituição |
Uma única área | Várias áreas |
Fácil de construir | Difícil de construir |
Mais rápido de construir | Mais demorado |
Memória grande | Memória limitada |
Sistema Operacional
Os sistemas operacionais, ou On-line Transactional Processing (OLTP), devem centrar-se no registo das transações que ocorrem no seu funcionamento diário. Estas operações são estruturadas e repetitivas consistindo em transações pequenas, atómicas e isoladas [5].
Sistema Analítico
O DW é normalmente apresentado como analítico, ou On-line Analytical Processing (OLAP), para efetuar análises e tomar decisões. O principal objetivo do DW é o armazenamento histórico e a integração dos dados provenientes de diversas fontes da instituição[5].
Base de Dados Organizacional vs Data Warehouse
Geralmente, o DW é mantido separadamente da Base de Dados Organizacional (BDO) da organização devido à finalidade dos dois sistemas. A tabela 2 resume as principais diferenças entre estes conceitos[6].
Base de Dados Operacional | Data Warehouse | |
---|---|---|
Função | Operações Diárias
OLTP |
Suporte à Decisão
OLAP |
Design da Base de Dados | Orientada às aplicações
Optimizada para atualizações |
Orientada aos assuntos
Optimizada para processamento de queries |
Dados | Correntes
Atualizados Atómicos Relacionais (Normalizados) Isolados |
Históricos
Sumarizados Multidimensionais Integrados |
Utilização | Repetitivo
Dia-a-dia |
Ad-hoc |
Acessos | Leitura/Escrita
Transacções simples (envolvendo 1 a 3 tabelas) |
Maioria de Leitura
Queries complexas (envolvendo várias tabelas) |
De forma a explorar os dados e a informação de um DW são usadas técnicas como o processamento analítico de dados OLAP, juntamente com algoritmos de DM. A tecnologia OLAP permite realizar análises multidimensionais aos dados e oferece a capacidade de realizar cálculos complexos, analisar tendências e de modelar os dados refinadamente. A partir da modelação multidimensional esta tecnologia cria cubos para analisar a informação necessária à tomada de decisão sobre várias perspetivas. O processamento analítico dos dados são baseados em hierarquias de conceitos de forma a criar vistas lógicas ao longo das dimensões de um DW. Por exemplo, uma dimensão "local" pode gerar uma hierarquia ordenada (país, distrito, concelho, freguesia). Estas hierarquias ajudam na visualização sobre os cubos de um DW[7].
Os servidores OLAP podem ser multidimensionais, relacionais ou hibridos[7].
Metadatas
Os Metadatas (dados sobre dados) são uma parte importante de qualquer Data Warehousing. Estes são armazenados em repositórios próprios, e incluem informações como [8]:
- Descrição das fontes dos dados
- Descrição das dimensões e hierarquias
- Descrição das queries
- Localização de dados
- Conteúdos dos Data Marts
- As regras de extração, limpeza e carregamento
- O perfil dos utilizadores
- Políticas de controlo de acesso e autorizações
Referências
- ↑ 1,0 1,1 1,2 1,3 1,4 Inmon, W. H. (2005). Building the Data Warehouse. New York: Wiley.
- ↑ 2,0 2,1 2,2 Evans, R. S., Lloyd, J. F., & Pierce, L. A. (2012). Clinical Use of an Enterprise Data Warehouse. AMIA Annual Symposium Proceedings, 2012, 189–198.
- ↑ Vassiliadis, P., Simitsis, A., & Skiadopoulos, S. (2002). Conceptual modeling for ETL processes. Paper presented at the 5th ACM international workshop on Data Warehousing and OLAP, Virginia, USA.
- ↑ Gardner, S. R. (1998). Building the Data Warehouse. Communications of the ACM, 41(9), 52-60.
- ↑ 5,0 5,1 Chaudhuri, S., & Dayal, U. (1997). An overview of Data Warehousing and OLAP technology. SIGMOD Rec, 26(1), 65-74.
- ↑ 6,0 6,1 Wu, M. C., & Buchman, A. P. (1997). Research Issues in Data Warehousing. Paper presented at the BTW'97, Ulm, Germany.
- ↑ 7,0 7,1 Han, J., & Kamber, M. (2001). Data Mining: Concepts and Techniques: Morgan Kaufmann Publishers.
- ↑ Sen, A. (2004). Metadata Management: Past, Present and Future. Decision Support Systems, 37(1).