Analyse des données Big et l'entrepôt de données

Vous trouverez la valeur en apportant les capacités de l'entrepôt de données et de l'environnement de données grand ensemble. Vous devez créer un environnement hybride où les grandes données peuvent travailler main dans la main avec l'entrepôt de données.

Sommaire

D'abord, il est important de reconnaître que l'entrepôt de données car il est conçu aujourd'hui ne va pas changer à court terme.

Par conséquent, il est plus pragmatique à utiliser l'entrepôt de données pour ce qu'il a été conçu pour faire - fournir une version bien-Info brute de la vérité sur un sujet que l'entreprise veut analyser. L'entrepôt peut inclure des informations sur la ligne de produits une entreprise en particulier, ses clients, ses fournisseurs, et les détails de la valeur des transactions d'une année.

Les informations gérées dans l'entrepôt de données ou un datamart départemental a été soigneusement conçu pour que les métadonnées sont exacts. Avec la croissance de nouvelles informations sur le Web, il est pratique et souvent nécessaire d'analyser cette quantité massive de données dans le contexte des données historiques. Ceci est où le modèle hybride entre en jeu.

Certains aspects de marier l'entrepôt de données avec de grandes données peuvent être relativement facile. Par exemple, la plupart des sources de données de grandes proviennent de sources qui incluent leurs propres métadonnées bien conçus. Sites e-commerce complexes comprennent des éléments de données bien définies. Par conséquent, lorsque la réalisation d'analyses entre l'entrepôt et de la source de données grand, l'organisme de gestion de l'information travaille avec deux ensembles de données avec des modèles de métadonnées soigneusement conçues qui doivent être rationalisés.

Bien sûr, dans certaines situations, les sources d'information manquent métadonnées explicites. Avant un analyste peut combiner les données transactionnelles historiques avec le Big Data moins structuré, le travail doit être fait. Typiquement, l'analyse initiale des pétaoctets de données va révéler des modèles intéressants qui peuvent aider à prédire les changements subtils dans des solutions d'affaires ou potentiels à un diagnostic d'un patient.

L'analyse initiale peut être complétée outils comme MapReduce effet de levier avec le cadre du système de fichiers Hadoop distribué. À ce stade, vous pouvez commencer à comprendre si elle est en mesure d'aider à évaluer le problème abordé.

Dans le processus d'analyse, il est tout aussi important d'éliminer les données inutiles comme il est d'identifier les données pertinentes au contexte de l'entreprise. Lorsque cette phase est terminée, les données restant doit être transformée de manière à ce que les définitions de métadonnées sont précis. De cette façon, quand le grand données sont combinées avec des données historiques traditionnels de l'entrepôt, les résultats seront exacts et utiles.

Le grand pivot de l'intégration de données

Ce processus exige une stratégie d'intégration de données bien défini. Alors que l'intégration des données est un élément essentiel de la gestion de grands volumes de données, il est également important lors de la création d'une analyse hybride avec l'entrepôt de données. En fait, le processus d'extraction de données et de la transformer dans un environnement hybride est très similaire à la façon dont ce processus est exécuté dans un entrepôt de données traditionnel.


Dans l'entrepôt de données, les données sont extraites des systèmes de sources traditionnelles, telles que les systèmes CRM ou ERP. Il est essentiel que les éléments de ces différents systèmes sont correctement adaptés.

Repenser l'extraction, la transformation et les charges pour les entrepôts de données

Dans l'entrepôt de données, vous trouverez souvent une combinaison de tables de base de données relationnelles, fichiers plats, et des sources non relationnelles. Un entrepôt de données bien construit sera architecturé de telle sorte que les données sont converties dans un format commun, permettant des requêtes à traiter avec précision et constance. Les fichiers extraits doivent être transformées pour correspondre aux règles et processus d'affaires de la zone de l'objet que l'entrepôt de données est conçu pour analyser.

En d'autres termes, les données doivent être extraites des sources de données de grandes de sorte que ces sources peuvent travailler ensemble en toute sécurité et de produire des résultats significatifs. En outre, les sources doivent être transformés de sorte qu'ils sont utiles pour analyser la relation entre les données historiques et les données plus dynamique et en temps réel qui provient de sources de données grands.

Chargement des informations dans le grand modèle de données sera différent de ce que vous pouvez vous attendre dans un entrepôt de données traditionnelles. Avec des entrepôts de données, après que les données a été codifié, il ne change jamais. Un entrepôt de données typique fournira l'entreprise avec un instantané des données basées sur la nécessité d'analyser une question d'affaires particulière qui nécessite un suivi, comme les stocks ou de vente.

La structure distribuée de données de grandes organisations mènera souvent à des premières données de charge en une série de nœuds, puis effectuer l'extraction et de la transformation. Lors de la création d'un hybride de l'entrepôt de données traditionnelle et de l'environnement grande de données, la nature distribuée de l'environnement grand de données peut changer radicalement la capacité des organisations à analyser d'énormes volumes de données dans le contexte de l'entreprise.


» » » » Analyse des données Big et l'entrepôt de données