Les principes fondamentaux de la grande intégration de données

Les éléments fondamentaux de la grande plate-forme de données de gérer les données dans de nouveaux moyens par rapport à la base de données relationnelle traditionnelle. Ceci est dû à la nécessité d'avoir l'évolutivité et la haute performance requis pour gérer les données structurées et non structurées.

Composants de la grande écosystème de données allant de Hadoop pour NoSQL DB, MongoDB, Cassandra et HBase ont tous leur propre approche pour l'extraction et le chargement de données. En conséquence, vos équipes peuvent avoir besoin de développer de nouvelles compétences pour gérer le processus d'intégration dans ces plates-formes. Toutefois, bon nombre des meilleures pratiques de gestion des données de votre société va devenir encore plus important que vous vous déplacez dans le monde de grands volumes de données.

Alors que Big Data introduit un nouveau niveau de complexité de l'intégration, les principes fondamentaux de base restent applicables. Votre objectif de l'entreprise doit être axée sur la prestation et la qualité des données fiables à l'organisation et au bon moment et dans le bon contexte.

Pour assurer cette confiance, vous avez besoin d'établir des règles communes pour la qualité des données en mettant l'accent sur l'exactitude et l'exhaustivité des données. En outre, vous avez besoin d'une approche globale pour le développement de métadonnées d'entreprise, garder la trace de la lignée de données et de la gouvernance pour soutenir l'intégration de vos données.

Dans le même temps, les outils traditionnels pour l'intégration des données évoluent pour gérer le nombre croissant de données non structurées et l'augmentation du volume et de la vitesse de grands volumes de données. Alors que les formes traditionnelles d'intégration prennent de nouvelles significations dans un grand monde de données, vos technologies d'intégration ont besoin d'une plate-forme commune qui prend en charge la qualité des données et le profilage.

Pour prendre des décisions d'affaires basé sur le grande analyse des données, cette information doit être fiable et compris à tous les niveaux de l'organisation. Bien qu'il ne sera probablement pas coûté ou temps efficace pour être trop préoccupés par la qualité des données dans la phase exploratoire d'une grande analyse des données, éventuellement la qualité et la confiance doivent jouer un rôle si les résultats doivent être incorporées dans le processus de l'entreprise.

L'information doit être livré à l'entreprise d'une manière digne de confiance, contrôlée, cohérente et flexible à travers l'entreprise, indépendamment des exigences spécifiques aux systèmes ou applications individuelles. Pour atteindre cet objectif, trois principes de base applicables:

  • Vous devez créer une compréhension commune des définitions de données. Lors des premières étapes de votre grand analyse de données, vous n'êtes pas susceptible d'avoir le même niveau de contrôle sur les définitions de données comme vous le faites avec vos données opérationnelles. Cependant, une fois que vous avez identifié les motifs qui sont les plus pertinents pour votre entreprise, vous avez besoin de la capacité de cartographier les éléments de données à une définition commune.

  • Vous devez développer un ensemble de services de données pour qualifier les données et les rendre cohérentes et, finalement, digne de confiance. Lorsque vos sources de données non structurées et grands sont intégrés avec des données opérationnelles structurées, vous devez être sûr que les résultats seront significatifs.


  • Vous devez trouver un moyen simplifié d'intégrer vos sources et systèmes d'enregistrement de données de grandes. Afin de prendre de bonnes décisions sur la base des résultats de votre grande analyse des données, vous devez fournir des informations au bon moment et avec le bon contexte. Votre processus d'intégration de données grande devrait garantir la cohérence et la fiabilité.

Pour intégrer des données dans des environnements d'applications mixtes, obtenir des données d'un environnement de données (source) vers un autre environnement de données (cible). Extraire, transformer, et de chargement (ETL) technologies ont été utilisées pour accomplir ce dans des environnements traditionnels de l'entrepôt de données. Le rôle de l'ETL évolue pour gérer les environnements de gestion de données plus récentes comme Hadoop.

Dans un environnement de grande données, vous pouvez avoir besoin de combiner des outils qui prennent en charge les processus d'intégration de lots (ETL) avec l'aide de l'intégration en temps réel et la fédération à travers de multiples sources. Par exemple, une entreprise pharmaceutique peut avoir besoin de mélanger les données stockées dans son système de Master Data Management (MDM) avec des sources de données sur les grands résultats médicaux de l'usage des drogues à la clientèle.

Les entreprises utilisent MDM pour faciliter la collecte, l'agrégation, la consolidation, et la livraison des données cohérentes et fiables d'une manière contrôlée à travers l'entreprise. En outre, de nouveaux outils comme Sqoop et Scribe sont utilisés pour soutenir l'intégration d'environnements de données volumineux. Vous trouverez également un accent croissant mis sur l'utilisation de l'extrait, de la charge, et de transformer (ELT) technologies. Ces technologies sont décrites ci-dessous.


» » » » Les principes fondamentaux de la grande intégration de données