设为首页 收藏本站
查看: 958|回复: 0

[经验分享] Apache Pig的UDF返回值问题

[复制链接]

尚未签到

发表于 2017-1-6 06:15:55 | 显示全部楼层 |阅读模式
今天写了关于Pig的EvalFunc UDF函数,结果一执行,发现返回值,总是bag类型,我就纳闷了,我明明指定了返回是String类型,怎么会变成Bag类型呢?经查找,发现拷贝的问题,由于先前写的UDF函数,返回值是多个,而现在的这个是一个,所以导致,我在pig脚本里面,进行强转string类型出错,发现问题后,设置返回类型为DataType.CHARARRAY问题得以解决。

案例(一),输入值为多个参数,返回也为多个参数


package com.easy.pig;
import com.easy.similar.model.ResultModel;
import com.easy.similar.tools.TextBuildID;
import org.apache.pig.EvalFunc;
import org.apache.pig.data.*;
import org.apache.pig.impl.logicalLayer.schema.Schema;
import java.io.IOException;
/**
* Created by qindongliang on 2015/9/29.
* 根据一篇内容返回md5和关键词words
*/
public class FingerUDF  extends EvalFunc<DataBag>  {

/**tuple实例**/
TupleFactory mTupleFactory = TupleFactory.getInstance();
/**Bag实例*/
BagFactory mBagFactory = BagFactory.getInstance();
/**md5构建**/
TextBuildID textBuildID = new TextBuildID();


@Override
public DataBag exec(Tuple tuple) throws IOException {
try {
DataBag output = mBagFactory.newDefaultBag();
Object o = tuple.get(0);
//返回多少句子
int num_sentence = Integer.parseInt(tuple.get(1).toString());
//返回几个关键词
int num_words = Integer.parseInt(tuple.get(2).toString());
//使用指纹算法 1  还是分词算法 2
int type=Integer.parseInt(tuple.get(3).toString());
//参与扩展计算的指纹,null的直接返回空
String ext=tuple.get(4)==null?"":tuple.get(4).toString();
//设置句子数量
textBuildID.top_N_Sentence=num_sentence;
//设置返回指纹数量
textBuildID.top_N_Words=num_words;
//设置去重算法类型
textBuildID.type=type;
ResultModel ro=textBuildID.buildID(o.toString(),ext);
output.add(mTupleFactory.newTuple(ro.getMd5()));//获取md5值
output.add(mTupleFactory.newTuple(ro.getWords()));//获取指纹关键词
return output;
} catch (Exception ee) {
// error handling goes here
ee.printStackTrace();
}

return null;
}

/**描述scheaml形式*/
public Schema outputSchema(Schema input) {
try{
Schema bagSchema = new Schema();
bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY));
return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input),
bagSchema, DataType.BAG));
}catch (Exception e){
return null;
}
}

}


案例(二),输入值为String,返回也为String


package com.easy.pig;
import org.apache.pig.EvalFunc;
import org.apache.pig.data.DataType;
import org.apache.pig.data.Tuple;
import org.apache.pig.impl.logicalLayer.schema.Schema;
import java.io.IOException;
/**
*  处理url
*/
public class UrlCvUDF extends EvalFunc<String>  {

@Override
public String exec(Tuple tuple) throws IOException {
try {
Object o = tuple.get(0);
if(o!=null){
//判断是否为指定url开头的来源
if((o+"").startsWith("http://www.court.gov.cn")){
return "1";
}else{
return "2";
}
}
} catch (Exception ee) {
ee.printStackTrace();
}
//url 为null 则返回0
return "0";
}
//
/**描述scheaml形式*/
public Schema outputSchema(Schema input) {
try{
Schema bagSchema = new Schema();
bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY));
//注意此处返回值要与泛型里面的对应
return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input),
bagSchema, DataType.CHARARRAY));
}catch (Exception e){
e.printStackTrace();
return null;
}
}

}



案例一的pig脚本:


--SET debug 'on'
--REGISTER ./aa.jar
REGISTER ./udf-pig-similarty-hbase-1.0-SNAPSHOT-jar-with-dependencies.jar
REGISTER ./pig-udf-extend-1.0.1-SNAPSHOT-jar-with-dependencies.jar
--mkdir /user/webmaster/crawldb/finger/
--rmf /user/webmaster/crawldb/finger/
mkdir /user/webmaster/search/monitor/finger-data;
rmf  /user/webmaster/search/monitor/finger-data;

set job.name 'pig-hbase-build-index'

a = load 'hbase://ETLDB' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('content:conn content:casenum,meta:isdelete','-loadKey true  ');
--a = foreach a generate FLATTEN(com.easy.pig.FingerUDF((chararray)$1));
-- 4个参数  0:文章内容   1:前n最长的句子数,2:前n关键词,3:判重算法, 1=>指纹 2=>分词
a = foreach a generate $0 as rowkey:chararray , BagToString(com.easy.pig.FingerUDF((chararray)$1,5,8,1,$2),'@') as info:chararray,$2 as casenum:chararray , $3 as isdel:chararray ;
--a = foreach a generate $2 as num:chararray;
--a = limit a 50;
--dump a;
--describe a;
a = foreach a generate $0 as rowkey:chararray , STRSPLIT(info,'@',2).$0 as finger_md5:chararray ,STRSPLIT(info,'@',2).$1 as finger_content:chararray ,casenum,isdel ;
--describe a;
store a into  '/user/webmaster/search/monitor/finger-data'  using com.pig.support.lucene.LuceneStore('row:true:false,finger_md5:true:false,finger_content:true:false,casenum:true:false,isdel:true:false','default');



案例二的pig脚本:


--SET debug 'on'
--REGISTER ./aa.jar
REGISTER ./udf-pig-similarty-hbase-1.0-SNAPSHOT-jar-with-dependencies.jar
REGISTER ./pig-udf-extend-1.0.1-SNAPSHOT-jar-with-dependencies.jar
--mkdir /user/webmaster/crawldb/finger/
--rmf /user/webmaster/crawldb/finger/
mkdir /user/webmaster/search/monitor/finger-data;
rmf  /user/webmaster/search/monitor/finger-data;

set job.name 'pig-hbase-build-index'

a = load 'hbase://ETLDB' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('content:conn content:casenum meta:isdelete content:url','-loadKey true  ');
--a = foreach a generate FLATTEN(com.easy.pig.FingerUDF((chararray)$1));
-- 4个参数  0:文章内容   1:前n最长的句子数,2:前n关键词,3:判重算法, 1=>指纹 2=>分词
a = foreach a generate $0 as rowkey:chararray , BagToString(com.easy.pig.FingerUDF((chararray)$1,5,8,1,''),'@') as info:chararray,$2 as casenum:chararray , $3 as isdel:chararray,   com.easy.pig.UrlCvUDF((chararray)$4)  as source:chararray   ;
--a = foreach a generate $2 as num:chararray;

a = limit a 11;
dump a;
describe a;
--describe a;
--a = foreach a generate $0 as rowkey:chararray , STRSPLIT(info,'@',2).$0 as finger_md5:chararray ,STRSPLIT(info,'@',2).$1 as finger_content:chararray ,casenum,isdel ;
--describe a;
--store a into  '/user/webmaster/search/monitor/finger-data'  using com.pig.support.lucene.LuceneStore('row:true:false,finger_md5:true:false,finger_content:true:false,casenum:true:false,isdel:true:false','default');

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-324355-1-1.html 上篇帖子: apache+tomcat集群和负载均衡配置 下篇帖子: 8.4和Apache Geronimo集成
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表