Saiba neste artigo o que é Data Warehouse, para a disciplina de Tecnologia da Informação (TI).
Olá, Estrategistas. Tudo bem com vocês?
A disciplina de Tecnologia da Informação assusta qualquer concurseiro, não é mesmo?
Hoje em dia ela está presente em diversas áreas, como a fiscal e a policial, não sendo mais cobrada apenas em concursos específicos da área da tecnologia.
Por não ser tão comum em certames públicos, ela acaba se tornando um pouco complicada, uma vez que não está no dia a dia do estudante, como as disciplinas de Direito. Mas estamos aqui justamente para ajudá-lo a entender melhor este tema.
O artigo de hoje é sobre um assunto bem recorrente em provas de TI, o Data Warehouse. Desse modo, dividiremos o nosso estudo em alguns tópicos, como podemos ver abaixo:
- Conceito de Data Warehouse;
- Características;
- Data Mart;
- ETL;
- Processo de Data Warehouse.
Conceito de Data Warehouse
Você sabe o que é Data Warehouse?
Bom, no sentido literal da palavra, Data Warehouse significa “Armazém de Dados”. Então ele é um Banco de Dados? Na verdade, ele extrapola este conceito, podendo ser definido como um grande repositório de bancos de dados, em que informações de diversas fontes são armazenadas de forma centralizada, em uma única localidade.
Ele é muito utilizado para apoiar decisões gerenciais, oferecendo acesso a dados históricos e atuais para análise avançada, realizando a descoberta de conhecimento e gerando relatórios, de modo a permitir que as organizações possuam informações úteis e completas sobre os seus negócios.
Imagine uma pequena empresa gerenciada por apenas três pessoas, a qual comercializa motos, carros e bicicletas. Suas vendas não são tão expressivas, de modo que é possível consolidar todos os seus dados em poucos documentos. Entretanto, ela começa a realizar um grande volume de negócios, sendo necessário expandir sua estrutura, contratar mais funcionários, etc.
Assim, grandes volumes de informações de diferentes setores começarão a ser gerados a todo momento, criando diversos bancos de dados. Desse modo, é utilizado um Data Warehouse para consolidar todas essas informações, com o intuito de unificar todos os dados de determinado setor da empresa, atuais e históricos, podendo gerar relatórios que podem ser úteis para realizar o diagnóstico da companhia, auxiliando nas tomadas de decisões estratégicas e gerenciais.
Características
O Data Warehouse pode ser entendido como uma grande coleção de dados orientada a assunto, variável com o tempo, integrada e não-volátil, a qual fornece suporte à tomada de decisão.
Estas quatro características de um Data Warehouse são muito importantes, sendo geralmente cobradas em questões de provas. Desse modo, iremos analisar cada uma delas.
- Orientado a assunto
Os dados de um Data Warehouse são organizados por determinados assuntos, de modo a tratar de tópicos específicos e que são importantes para a empresa, de acordo com a visão do negócio, como compras, vendas, marketing, entre outras.
- Variável com o tempo
Ele é variável com o tempo, mantendo todas as informações históricas (antigas) carregadas, sem se desfazer delas, realizando apenas a adição de novas informações. Desse modo, é possível recuperar informações de registros que foram armazenados há muito tempo, auxiliando na análise, permitindo a realização de comparações com os dados atuais, prever tendências, entre outros diagnósticos importantes.
- Integrado
As informações de um Data Warehouse são coletadas de várias fontes, desse modo, é possível que a formatação desses dados seja distinta em cada um desses bancos de dados. Dessa maneira, é preciso que os dados sejam transformados em um mesmo padrão.
Por exemplo, vamos supor que as datas das vendas dos produtos de cada ramo da empresa sejam dispostas de diferentes maneiras em cada setor, como por exemplo:
Data da venda de Carros: 23/05/2021
Data da venda de Motos: 23/05/21
Data da venda de Bicicletas: 23 de maio de 2021
Assim, quando for realizada a consolidação dessas informações, serão gerados conflitos. Desse modo, elas deverão ser convertidas em apenas um padrão, de modo a facilitar a análise dessas informações.
Assim, a integridade diz respeito à consistência dos padrões de dados similares, de modo a uniformizá-los.
- Não-volátil
A não-volatilidade significa que os dados anteriormente armazenados não podem ser excluídos ou editados, salvo algumas alterações pontuais de correção. Desse modo, as únicas operações que podem ser realizadas em um Data Warehouse são a de carga de novos dados, bem como a consulta e a leitura dos dados previamente carregados.
Data Mart
Um importante conceito presente em Data Warehouse e que é alvo constante de questões de concursos é o Data Mart, sendo ele um subconjunto de um Data Warehouse.
Já falamos que o Data Warehouse é a centralização de várias fontes e tipos de dados, desse modo, há uma variedade de informações dentro dele, dos mais diversos assuntos. Assim, Data Marts são criados de modo a separar as informações dentro de um Data Warehouse de acordo com a categoria de cada dado. Por exemplo, é possível separar, em cada Data Mart, a quantidade de vendas de cada ramo da empresa, ou seja, será criado um subconjunto da venda de carros, além dos de motos e bicicletas.
Outro exemplo é a criação de diferentes conjuntos que podem fornecer informações sobre a quantidade de vendas anuais, semestrais ou mensais. Além disso, é possível realizar a divisão de vendas concretizadas por estados, como São Paulo e Rio de Janeiro, e assim por diante. Desse modo, há autores que identificam o Data Mart como um Data Warehouse Setorial.
Eles são muito utilizados com o intuito de facilitar o acesso a dados específicos, recuperando um conjunto particular de informações com uma maior agilidade.
ETL
Você já aprendeu que um Data Warehouse é criado a partir da integração de dados de diferentes fontes, não é mesmo? Mas como essas informações são coletadas e inseridas neste grande repositório? Bom, o principal processo utilizado para realizar esta ação é o ETL.
O ETL (Extract, Transform, Load) é um processo que possui três fases principais: Extrair, Transformar e Carregar (Load) os dados de uma fonte para o Data Warehouse. Entretanto, é importante salientar que este processo não é formado simplesmente por estas três etapas. Porém, para efeitos de provas, o conhecimento delas é mais do que suficiente.
Os dados são primeiramente extraídos de diversas fontes, podendo elas serem homogêneas ou heterogêneas. Eles podem ser coletados de bancos de dados relacionais, arquivos XML, arquivos log, dados da web, entre outras fontes.
Após serem extraídos, eles precisam ser transformados para adequá-los às formatações do Data Warehouse de destino. Esta etapa pode ser realizada através da limpeza das informações, eliminando aquilo que não seja útil, seja pela sua baixa qualidade ou porque não são convenientes; padronização dos formatos dos dados, de modo a encaixá-los no enquadramento do armazém de informações, como nomenclatura e extensões, entre outras ações.
Após todas estas fases, os dados finalmente estarão preparados para serem carregados no Data Warehouse, de modo a armazená-los para que possam ser utilizados em aplicações futuras. O processo de carregamento pode ser configurado para ser realizado a cada hora, por dia, por mês, etc.
Processo de Data Warehouse
Como já discutimos diversos conceitos importantes neste artigo, iremos ilustrar abaixo, de maneira geral, como é o processo de um Data Warehouse:
Primeiramente, percebemos que é necessário definir as fontes de informações de onde os dados serão coletados. Desse modo, através do processo ETL, eles são extraídos, transformados e carregados para o Data Warehouse. Este grande repositório de dados pode ser dividido em conjuntos, os Data Marts, de acordo com o assunto, departamento, região, entre outros tipos. Por fim, eles podem ser visualizados e analisados por meio de diversas ferramentas, como o Data Mining (Mineração de Dados), OLAP, geração de relatórios, entre outras funcionalidades.
Os processos de Data Mining e OLAP serão discutidos em outros artigos.
Fonte: Estratégia Concursos