pydoop：用python 写Hadoop的MapReduce

pqwsa · 发表于 2015-7-14 07:29:06

pydoop：用python 写Hadoop的MapReduce

　　
　　Pydoop 是用python 对Hadoop 的C++API的MapReduce和HDFS的封装。程序很小，只有500多KB。
　　
　　[zhouhh@Hadoop48 ~]$ tar -zxvf pydoop-0.5.2-rc2.tar.gz
　　
　　[zhouhh@Hadoop48 pydoop-0.5.2-rc2]$ python setup.py build
　　build通过后，执行安装
　　可以安装在系统中或安装在本地
　　sudo安装时如果不跟参数，会导致环境变量不可用：
　　
　　[zhouhh@Hadoop48 pydoop-0.5.2-rc2]$ sudo python setup.py install
　　错误：
　　RuntimeError: Could not determine JAVA_HOME path
　　但是该环境变量是存在的：
[zhouhh@Hadoop48 pydoop-0.5.2-rc2]$ echo $JAVA_HOME
/usr/java/jdk1.7.0　　打开setup.py
self.java_home = os.getenv("JAVA_HOME", find_first_existing("/opt/sun-jdk", "/usr/lib/jvm/java-6-sun"))　　改为：
self.java_home = os.getenv("JAVA_HOME", find_first_existing("/opt/sun-jdk", "/usr/lib/jvm/java-6-sun","/usr/java/jdk1.7.0"))　　
　　再执行setup.py install
ValueError: HADOOP_HOME not set
[zhouhh@Hadoop48 pydoop-0.5.2-rc2]$ echo $HADOOP_HOME
/home/zhouhh/hadoop-1.0.3[zhouhh@Hadoop48 pydoop-0.5.2-rc2]$ echo $HADOOP_HOME
/home/zhouhh/hadoop-1.0.3　　找到：
　　paths = reduce(list.__add__, map(glob.glob, (“/opt/hadoop*”, “/usr/lib/hadoop*”, “/usr/local/lib/hadoop*”)))
　　
　　改为：
　　paths = reduce(list.__add__, map(glob.glob, (“/opt/hadoop*”, “/usr/lib/hadoop*”, “/usr/local/lib/hadoop*”,”/home/zhouhh/hadoop-*”)))
　　…
　　为了避免环境变量问题，
　　如果安装到系统，应略过创建：
　　[zhouhh@Hadoop48 pydoop-0.5.2-rc2]$ sudo python setup.py install –skip-build
　　或者直接装在当前用户下：
　　[zhouhh@Hadoop48 pydoop-0.5.2-rc2]$ python setup.py install –user
　　或安装到指定目录：
　　[zhouhh@Hadoop48 pydoop-0.5.2-rc2]$ python setup.py install –home /home/zhouhh/pydoop
　　检验是否成功：
[zhouhh@Hadoop48 pydoop-0.5.2-rc2]$ cd test
[zhouhh@Hadoop48 test]$ python all_test.py　　ImportError: /usr/lib64/libboost_python.so.2: undefined symbol: PyUnicodeUCS4_FromEncodedObject
　　
　　单词计数示例
from pydoop.pipes import Mapper, Reducer, Factory, runTask
class WordCountMapper(Mapper):
def map(self, context):
words = context.getInputValue().split()
for w in words:
context.emit(w, "1")
class WordCountReducer(Reducer):
def reduce(self, context):
s = 0
while context.nextValue():
s += int(context.getInputValue())
context.emit(context.getInputKey(), str(s))
runTask(Factory(WordCountMapper, WordCountReducer))　　
　　对简单任务，可以使用pydoop_script工具：
def mapper(k, text, writer):
for word in text.split():
writer.emit(word, 1)
def reducer(word, count, writer):
writer.emit(word, sum(map(int, count)))　　参考：
　　下载：https://sourceforge.net/projects/pydoop/files
　　示例地址：http://pydoop.sourceforge.net/docs/examples/index.html
　　最新版下载：http://sourceforge.net/projects/pydoop/files/Pydoop-0.5/pydoop-0.5.2-rc2.tar.gz/download
　　主页：http://sourceforge.net/apps/mediawiki/pydoop/index.php?title=Main_Page

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] pydoop：用python 写Hadoop的MapReduce

浏览过的版块

扫码加入运维网微信交流群