Les bases de données en colonnes dans un environnement grand de données

Les bases de données en colonnes peuvent être très utiles dans votre grand projet de données. Bases de données relationnelles sont orientée rangée, que les données de chaque ligne d'une table sont stockées ensemble. Dans une forme de colonne, ou colonne de base de données orientée, les données sont stockées de l'autre côté rangées. Même si cela peut sembler une distinction banale, elle est la plus importante caractéristique sous-jacente des bases de données en colonnes.

Il est très facile d'ajouter des colonnes, et ils peuvent être ajoutés ligne par ligne, offrant une grande flexibilité, les performances et l'évolutivité. Lorsque vous avez le volume et la variété des données, vous pouvez utiliser une base de données en colonnes. Il est très adaptable- vous continuez tout simplement d'ajouter des colonnes.

Une des bases de données les plus populaires colonnaires est HBase. Elle aussi, est un projet de la Fondation Apache Software distribué sous la licence Apache Software v2.0. HBase utilise le système de fichiers Hadoop MapReduce et le moteur pour ses besoins de stockage de données de base.

La conception de HBase est calqué sur BigTable de Google. Par conséquent, les implémentations de HBase, sont clairsemées, distribué, cartes triées multidimensionnelles persistants hautement évolutives. La carte est indexée par une clé de ligne, clé de colonne, et un timestamp- chaque valeur de la carte est un tableau d'octets non interprétées.

Lorsque votre grande mise en œuvre de données requiert l'accès aux données en lecture / écriture aléatoire, en temps réel, HBase est une très bonne solution. Il est souvent utilisé pour stocker les résultats de traitement analytique plus tard.

Les caractéristiques importantes de HBase comprennent ce qui suit:

  • Cohérence: Bien que pas un “ ACID ” mise en œuvre, HBase offre fortement cohérente lectures et écritures et ne repose pas sur un modèle finalement cohérente. Cela signifie que vous pouvez l'utiliser pour les besoins à grande vitesse aussi longtemps que vous ne l'avez pas besoin “ des fonctionnalités supplémentaires ” offert par SGBDR comme le support complet des transactions ou de colonnes typées.

  • Sharding: Parce que les données sont distribuées par le système de fichiers de support, HBase offre transparente, fractionnement automatique et la redistribution de son contenu.

  • Haute disponibilité: Grâce à la mise en œuvre de serveurs de la région, HBase soutient LAN et WAN basculement et la récupération. À la base, il ya un serveur maître chargé de surveiller les serveurs de la région et toutes les métadonnées pour le cluster.

  • Client API: HBase offre un accès programmatique à travers une API Java.

  • Soutien aux opérations informatiques: Implementers peuvent exposer la performance et d'autres paramètres à travers un ensemble de pages Web intégrées.

Implémentations Hbase sont les mieux adaptés pour

  • Volume élevé, la collecte de données et de traitement incrémentiel

  • L'échange d'informations en temps réel (par exemple, messagerie)

  • Foire changer portion contenu


» » » » Les bases de données en colonnes dans un environnement grand de données