hadoop 提供了 3 种方式来实现自己的功能,一种是 java 接口,另一种是 pipes,还有一种是 streaming。streaming 允许用任何语言来开发 mapper 和 reducer,它们和 hadoop 之间的交互通过标准输入/输出来进行。这种方式的好处是调试很方便。
先来看一个使用 bash 编写的 wordcount 的例子:
#!/bin/bash
while read line; do
arr=($line)
let i=0
while ! [ -z ${arr[$i]} ]; do
echo -e "${arr[$i]}\t1"
let i=$i+1
done
… 阅读全文…