Hadoop offline image viewer guide

本文固定链接:https://www.askmaclean.com/archives/hadoop-offline-image-viewer-guide.html

本文是官方文档的翻译,原文地址是:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsImageViewer.html

 

1.概述

 

Offline Image Viewer是一个专场将hdfs fsimage文件中的文件到可读的格式的工具,提供了一个只读的WebHDFS API 来允许离线分析和检查Hadoop 集群的namespace。这个工具可以相对较快的处理非常大的image文件。这个工具处理布局格式包含了hadoop 2.4版本及以上。如果你想处理旧的布局格式,你可以使用hadoop 2.3版本的 Offline Image Viewer或者 oiv_legacy命令。如果这个工具不能够处理一个镜像文件,其将干净地退出。Offline Image Viewer不需要hadoop集群是正在运行的;其操作完全处于offline状态。

 

Offline Image Viewer 提供了一系列输出进程:

1.Web 是默认的输出进程。它发动一个HTTP服务,暴露只读的WebHDFS API。用户可以通过HTTP REST API来探讨namespace的交互。

2.XML 创建了一个fsimage的XML文件,其中包含了fsimage的所有信息,类似于lsr进程。这个进程的输出是自动化的过程,并且被XML工具分析。由于XML 冗长的语法,这个进程将输出大量的输出(www.askmaclean.com)。

3.FileDsitribution 用来分析namespace image中的文件大小。为了运行这个工具,必须定义一个整数范围[0,maxSize],并且同时指定一个maxSize。这个整数范围划分为每一步的段:[0,s[1],…,s[n-1],maxsize],而且进程计算每个段(s[i-1],s[i])中的文件数。注意文件超过maxsize的总是会放入最后一个段中。输出文件是以tab分隔的2个字段:SIZE和NumFiles的表。size代表开始的段,numFiles表示从image装入这个段的文件数目。

4.Delimited(实现性质的):生成一个text 文件,包含所有节点和节点以内建设的常见元素,以分隔符封。默认的分隔符是\t,通过-delimiter参数可以改变。

[Read more…]

MapReduce Example

MapReduce Example

 

MapReduce Programs

 

A very common example to illustrate MapReduce is a word count…

Typical HDFS cluster

A typical HDFS cluster:

 

hdfs cluster

 

 

沪ICP备14014813号

沪公网安备 31010802001379号