Mises à jour de points de reprise dans Hadoop système de fichiers distribué

Distributed File System Hadoop (HDFS) est un système de fichiers journalisé, où de nouvelles modifications apportées aux fichiers dans HDFS sont capturés dans un journal d'édition qui est stocké sur le NameNode dans un fichier nommé. Périodiquement, lorsque le fichier atteint un certain seuil ou après un certain délai, les entrées journalisés besoin d'être commis dans le fichier maître.

Sommaire

Le NameNode lui-même ne fait pas cela, car il est conçu pour répondre aux demandes d'application le plus rapidement possible. Plus important encore, un risque considérable est impliqué dans cette opération ayant de mise à jour de métadonnées gérées par un serveur maître unique.

Si les métadonnées décrivant les correspondances entre les blocs de données et leurs fichiers correspondants est endommagé, les données d'origine est aussi bon que perdu.

Services de points de reprise pour un cluster Hadoop sont manipulés par l'un des quatre démons possibles, qui doivent fonctionner sur leur propre nœud maître dédié aux côtés de nœud maître du démon NameNode:

  • NameNode secondaire: Avant Hadoop 2, ce fut le seul démon de points de reprise, l'exécution du processus de points de reprise décrit dans cette section. Le NameNode secondaire a un nom notoirement imprécises, car il est en aucune façon “ secondaire ” ou un “ de veille n ° 148; pour la NameNode.

  • Noeud Checkpoint: Le Noeud Checkpoint est le remplacement pour le NameNode secondaire. Il effectue checkpointing et rien de plus.

  • La sauvegarde des noeuds: Fournit un service de points de reprise, mais maintient également une sauvegarde du fichier et des modifications.

  • Veille NameNode: Effectue un service de points de reprise et, contrairement à l'ancien NameNode secondaire, la veille NameNode est un véritable serveur de secours, permettant à un hot-swap du processus de NameNode pour éviter tout temps d'arrêt.

Le processus de points de reprise

Les étapes suivantes décrivent le processus de points de reprise comme il est effectué par le NameNode et le service de points de reprise (à noter que quatre démons possibles peuvent être utilisés pour les points de contrôle):

  1. Quand il est temps d'effectuer le check-point, l'NameNode crée un nouveau fichier pour accepter les changements de système de fichiers journalisé.

    Il nomme le nouveau fichier.

  2. En conséquence, le fichier accepte pas d'autres changements et est copié dans le service de points de reprise, avec le fichier.

  3. Le service de points de reprise fusionne ces deux fichiers, la création d'un fichier nommé.

  4. Les services de points de reprise copie le fichier dans le NameNode.


  5. Le NameNode écrase le fichier par.

  6. Le NameNode renomme le fichier.

    image0.jpg

Considérations de la sauvegarde des noeuds

En plus de fournir la fonctionnalité de points de reprise, la sauvegarde des noeuds maintient l'état actuel de toutes les métadonnées de bloc HDFS dans la mémoire, tout comme le NameNode. En ce sens, il maintient une sauvegarde en temps réel de l'état de l'NameNode.

En conséquence de maintenir les métadonnées de bloc dans la mémoire, la sauvegarde des noeuds est beaucoup plus efficace que le nœud de Checkpoint à effectuer la tâche de points de reprise, parce que le et les fichiers ne doivent être transférés et ensuite fusionné. Ces changements ont déjà fusionné en mémoire.

Un autre avantage de l'utilisation du noeud de sauvegarde est que le NameNode peut être configuré pour déléguer la sauvegarde des noeuds de sorte qu'il persiste données du journal sur le disque.

Si vous utilisez le nœud de sauvegarde, vous ne pouvez pas exécuter le nœud Checkpoint. Il n'y a pas besoin de le faire, parce que le processus de points de reprise est déjà pris en charge.

Standby considérations NameNode

Le NameNode veille est le serveur maître désigné chaude veille pour le NameNode. Alors qu'il était en veille, il effectue également le processus de points de reprise. En tant que tel, vous ne pouvez pas exécuter la sauvegarde des noeuds ou nœud en attente.

NameNode secondaire, Node Checkpoint, la sauvegarde des noeuds, et veille NameNode Maître conception de serveur

Le serveur maître exécutant le NameNode secondaire, le nœud Checkpoint, la sauvegarde des noeuds, ou veille NameNode démons ont les mêmes exigences matérielles que celles déployées pour le serveur maître NameNode. La raison en est que ces serveurs se chargent également en mémoire toutes les données de métadonnées et l'emplacement de tous les blocs de données stockées dans HDFS.


» » » » Mises à jour de points de reprise dans Hadoop système de fichiers distribué