hadoop pig 设计的还是很不错的,可以写 UDF 每一个统计基本上都是要对原始日志进行切分,把想要的一些字段 EXTRACT 提取出来 日志有着基本的模式 "mac:50:A4:C8:D7:10:7D"|"build:5141bc99"|"network:mobile"|"version:2.4.1"|"id:taobao22935952431"| 基本
hadoop pig 设计的还是很不错的,可以写 UDF
每一个统计基本上都是要对原始日志进行切分,把想要的一些字段 EXTRACT 提取出来
日志有着基本的模式
"mac:50:A4:C8:D7:10:7D"|"build:5141bc99"|"network:mobile"|"version:2.4.1"|"id:taobao22935952431"|
基本上是 key, value对,自定义一个 load function ,指定 key,就可以获取 对应的value,在 pig 中可以使用
REGISTER /jar/kload.jar;
AA = LOAD '/log/load.log' USING kload.KoudaiLoader('mac,build') AS (mac,build);
DUMP AA;
输出结果
(50:A4:C8:D7:10:7D,5141bc99)
koudaiLoader是自己实现的一个 Load function,输出为要获取的key,输出为key所对应的 value
package kload;
import java.io.IOException;
import java.util.*;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.pig.*;
import org.apache.pig.backend.executionengine.ExecException;
import org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.*;
import org.apache.pig.data.*;
public class KoudaiLoader extends LoadFunc{
protected RecordReader recordReader = null;
private String fieldDel = "";
private String[] reqFildList;
private ArrayList
编译
javac -cp /usr/local/webserver/pig/pig-0.9.2.jar:. KoudaiLoader.java
打成jar包
jar -cf kload.jar kload
用pig在本地模式下运行
java -cp /usr/local/webserver/pig/pig-0.9.2.jar:/jar/kload.jar org.apache.pig.Main -x local kload.pig
原文地址:Hadoop Pig Loadfunc, 感谢原作者分享。