Sécurisation de vos données dans Hadoop

Comme Hadoop entre le courant dominant de l'informatique et commence à être utilisé d'une manière importante dans les environnements de production, les mêmes préoccupations en matière de sécurité applicables aux systèmes informatiques tels que les bases de données seront applicables à Hadoop ainsi. Dans ses premières années, Hadoop était célèbre pas

Sommaire

conçu avec la sécurité à l'esprit, mais l'ajout de fonctionnalités de sécurité de niveau entreprise est une partie importante de la venue de l'âge Hadoop. Il est une partie nécessaire ainsi: Pour de nombreuses applications (tels que la finance), si vous ne pouvez pas fournir des garanties de sécurité, vous pouvez être enfreindre la loi.

Cet article se concentre sur trois principaux aspects de la sécurisation des informations - Aspects applicables à Hadoop comme ils le feraient à tout autre système informatique:

  • La gestion de périmètre

  • Contrôle d'accès




  • Chiffrement

La gestion de périmètre

Le premier principe de la sécurité informatique est de contrôler étroitement les frontières entre votre système et le monde extérieur. Parce que Hadoop est un système distribué couvrant de nombreux ordinateurs, cela est largement un problème de réseau. En tant que plate-forme de calcul distribué, un cluster Hadoop a de nombreux ordinateurs individuels, avec chaque ordinateur ayant un nombre de ports et services ouverts.

Comme on pouvait s'y attendre, cela est un cauchemar de sécurité, l'un que la plupart des administrateurs gèrent en gardant la grappe sur un réseau isolé. Le défi vient quand les utilisateurs ont besoin pour exécuter des applications Hadoop contre lui-même. Envisager de déployer les nœuds de bordure, avec la mise en réseau partagé, d'agir en tant que passerelles entre Hadoop et le monde extérieur. Cette stratégie présente des défis de sécurité, cependant. Pour relever ce défi, l'équipe Hortonworks a commencé le développement du projet Apache Knox, qui permet un accès sécurisé aux services du cluster Hadoop.

Contrôle d'accès

Une grande partie de la discussion de la sécurité est de contrôler l'accès. Lorsque le contrôle de périmètre est de minimiser les points d'accès, le contrôle d'accès est d'assurer que tout accès qui ne se produit est sécurisé.

Authentification

À la ligne de front de contrôle d'accès est l'authentification, qui, en bref, est la validation que vos utilisateurs sont bien qui ils disent qu'ils sont. La communauté open source a mis une énorme quantité de travail dans ce domaine, permettant aux différents composants de l'écosystème Hadoop à travailler avec Kerberos, le protocole d'authentification réseau informatique bien considéré. Au printemps 2014, les deux versions Hadoop Hadoop 1 et 2 sont entièrement Kerberos. (Non chaque magasin informatique utilise Kerberos, mais d'autres protocoles, tels que LDAP, ont été appliquées à Hadoop par certains vendeurs de distributions Hadoop dans leurs offres propriétaires.)

Autorisation

Après vos services d'authentification ont validé l'identité d'un utilisateur, la question suivante est de déterminer quelles sont les informations et les comportements cet utilisateur est en droit de - autorisation, Autrement dit.

Actuellement, l'autorisation dans Hadoop est assez rudimentaire, et se limite à la lecture POSIX, écriture et exécution des privilèges au niveau du système de fichiers. Toutefois, d'importants efforts sont en cours pour définir les catégories d'utilisateurs (par exemple, les rôles d'utilisateur) et l'administration des listes de contrôle d'accès (ACL).

Le projet Hive, par exemple, aura bientôt subvention / annuler les commandes pour permettre aux administrateurs de définir quels utilisateurs peuvent accéder à des tables ou des vues spécifiques. À cette fin, l'équipe a été le fer de lance de Cloudera le projet Apache Knox pour gérer la définition des rôles des utilisateurs et leurs privilèges d'accès aux données dans l'Impala et la ruche.

Audit

La dernière pièce du puzzle de contrôle d'accès est le suivi des événements d'accès aux données, ce qui est une exigence de base pour un certain nombre de normes réglementaires de gestion de l'information, comme la Loi sur la responsabilité Health Insurance Portability et (HIPAA) et le Payment Card Industry Data Security Standard (PCI DSS). Hadoop fait un bon travail de stocker les informations d'audit pour enregistrer les événements d'accès aux données, donc une exigence de base est déjà en place. Pour protéger et gérer que les données d'audit, des outils tiers sont disponibles, comme Navigator de Cloudera ou IBM Guardium.

Chiffrement

Après s'être assuré que les défenses de vos données sont en place par la gestion du périmètre et régissant l'accès, vous pouvez faire encore plus dans le cas d'une violation ne se produise. Le chiffrement peut être que la dernière ligne de défense. Pour les données sur le disque, un travail actif se déroule dans la communauté Hadoop pour incorporer le cryptage en option pour toutes les données stockées dans HDFS. La distribution de Intel dispose d'un saut dès le début ce cryptage car elle a permis à des données dans HDFS en profitant d'instructions de chiffrement spécialisées dans les processeurs Intel utilisés dans des nœuds esclaves Hadoop. Outils tiers sont également disponibles pour crypter les données dans HDFS.

Parce que Hadoop est un système distribué appuyant fortement sur la communication en réseau, le cryptage des données comme il se déplace à travers le réseau est un élément essentiel de cette histoire. Retour dans Hadoop 1, Hadoop appel de procédure distante du système (RPC) a été améliorée pour supporter le chiffrement. Cela couvre la communication impliquée dans le traitement de données, telles que MapReduce, mais pour le mouvement des données et les interfaces Web, Hadoop utilise aussi TCP / IP et HTTP. Ces deux éléments ont également été fixé: le serveur HTTP de Hadoop prend désormais en charge le protocole HTTPS, et les opérations de transfert HDFS peuvent être configurés pour être crypté.


» » » » Sécurisation de vos données dans Hadoop