设为首页 收藏本站
查看: 818|回复: 0

[经验分享] 如何给Apache Pig自定义UDF函数?

[复制链接]

尚未签到

发表于 2018-11-21 14:07:52 | 显示全部楼层 |阅读模式
  近日由于工作所需,需要使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天时间,大致看完了pig官网的文档,在看文档期间,也是边实战边学习,这样以来,对pig的学习,会更加容易,当然本篇不是介绍如何快速学好一门框架或语言的文章,正如标题所示,散仙打算介绍下如何在Pig中,使用用户自定义的UDF函数,关于学习经验,散仙会在后面的文章里介绍。



一旦你学会了UDF的使用,就意味着,你可以以更加灵活的方式来使用Pig,使它扩展一些为我们的业务场景定制的特殊功能,而这些功能,在通用的pig里是没有的,举个例子:

你从HDFS上读取的数据格式,如果使用默认的PigStorage()来加载,存储可能只支持有限的数据编码和类型,如果我们定义了一种特殊的编码存储或序列化方式,那么当我们使用默认的Pig来加载的时候,就会发现加载不了,这时候我们的UDF就派上用场了,我们只需要自定义一个LoadFunction和一个StoreFunction就可以解决,这种问题。


本篇散仙根据官方文档的例子,来实战一下,并在hadoop集群上使用Pig测试通过:
我们先来看下定义一个UDF扩展类,需要几个步骤:

序号步骤说明1在eclipse里新建一个java工程,并导入pig的核心包java项目2新建一个包,继承特定的接口或类,重写自定义部分核心业务3编写完成后,使用ant打包成jar编译时需要pig依赖,但不用把pig的jar包打入UDF中4把打包完成后的jar上传到HDFS上pig运行时候需要加载使用5在pig脚本里,注册我们自定义的udf的jar包注入运行时环境6编写我们的核心业务pig脚本运行测试是否运行成功

项目工程截图如下:

DSC0000.jpg



核心代码如下:
  Java代码  

  •   package com.pigudf;  
  •     
  •   import java.io.IOException;  
  •     
  •   import org.apache.pig.EvalFunc;  
  •   import org.apache.pig.data.Tuple;  
  •   import org.apache.pig.impl.util.WrappedIOException;  
  •   /**
  •    * 自定义UDF类,对字符串转换大写
  •    * @author qindongliang
  •    * */  
  •   public class MyUDF extends EvalFunc {  
  •     
  •       @Override  
  •       public String exec(Tuple input) throws IOException {  
  •            
  •            //判断是否为null或空,就跳过  
  •           if(input==null||input.size()==0){  
  •               return null;  
  •           }  
  •           try{  
  •               //获取第一个元素  
  •               String str=(String) input.get(0);  
  •               //转成大写返回  
  •               return str.toUpperCase();  
  •                 
  •           }catch(Exception e){  
  •               throw WrappedIOException.wrap("Caught exception processing input row ",e);  
  •           }  
  •       }  
  •         
  •     
  •   }  
  

关于打包的ant脚本,散仙会在文末上传附件,下面看下造的一些测试数据(注意,文件一定要上传到HDFS上,除非你是local模式):

  Java代码  

  •   grunt> cat s.txt  
  •   zhang san,12  
  •   Song,34  
  •   long,34  
  •   abC,12  
  •   grunt>   
  


我们在看下,操作文件和jar包是放在一起的:

  Java代码  

  •   grunt> ls  
  •   hdfs://dnode1:8020/tmp/udf/pudf.jar        1295  
  •   hdfs://dnode1:8020/tmp/udf/s.txt   36  
  •   grunt>   
  

最后,我们看下pig脚本的定义:

  Pig代码  

  •   --注册自定义的jar包  
  •   REGISTER pudf.jar;   
  •   --加载测试文件的数据,逗号作为分隔符  
  •   a = load 's.txt' using PigStorage(',');     
  •   --遍历数据,对name列转成大写  
  •   b =  foreach a generate com.pigudf.MyUDF((chararray)$0);   
  •   --启动MapReduce的Job进行数据分析  
  •   dump b  
  
最后,我们看下结果,只要过程不出现异常和任务失败,就证明我们的udf使用成功:


  Java代码  

  •   Counters:  
  •   Total records written : 4  
  •   Total bytes written : 64  
  •   Spillable Memory Manager spill count : 0  
  •   Total bags proactively spilled: 0  
  •   Total records proactively spilled: 0  
  •     
  •   Job DAG:  
  •   job_1419419533357_0147  
  •     
  •     
  •   2014-12-30 18:10:24,394 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - Success!  
  •   2014-12-30 18:10:24,395 [main] INFO  org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS  
  •   2014-12-30 18:10:24,396 [main] INFO  org.apache.pig.data.SchemaTupleBackend - Key [pig.schematuple] was not set... will not generate code.  
  •   2014-12-30 18:10:24,405 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1  
  •   2014-12-30 18:10:24,405 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1  
  •   (ZHANG SAN,12)  
  •   (SONG,34)  
  •   (LONG,34)  
  •   (ABC,12)  
  
结果没问题,我们的UDF加载执行成功,如果我们还想将我们的输出结果直接写入到HDFS上,可以在pig脚本的末尾,去掉dump命令,加入
store e into '/tmp/dongliang/result/'; 将结果存储到HDFS上,当然我们可以自定义存储函数,将结果写入数据库,Lucene,Hbase等关系型或一些NOSQL数据库里。

  





运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-637876-1-1.html 上篇帖子: discuz url静态化 apache,nginx 下篇帖子: linux mono+Apache 环境搭建
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表