设为首页 收藏本站
查看: 961|回复: 0

Hadoop 中文编码相关问题 -- mapreduce程序处理GBK编码数据并输出GBK编码数据

[复制链接]
累计签到:29 天
连续签到:1 天
发表于 2015-11-11 15:13:56 | 显示全部楼层 |阅读模式
  

输入是GBK文件, 输出也是 GBK 文件的示例代码:

http://onexin.iyunv.com/source/plugin/onexin_bigdata/file:///C:/Users/zkl/AppData/Local/youdao/ynote/images/0620443076204B5CA1E3CCE2E3D7A5B4/attachment.png?1379569032417

Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8,如果文件编码格式是其它类型(如GBK),则会出现乱码。

此时只需在mapper或reducer程序中读取Text时,使用transformTextToUTF8(text, "GBK");进行一下转码,以确保都是以UTF-8的编码方式在运行。


  • public static Text transformTextToUTF8(Text text, String encoding) {
  • String value = null;
  • try {
  • value = new String(text.getBytes(), 0, text.getLength(), encoding);
  • } catch (UnsupportedEncodingException e) {
  • e.printStackTrace();
  • }
  • return new Text(value);
  • }



这里核心代码是: String line=new String(text.getBytes(),0,text.getLength(),"GBK"); //这里的value是Text类型

若直接使用 String line=value.toString(); 会输出乱码, 这是由Text这个Writable类型造成的。初学时,一直认为和LongWritable对long的封装一样,Text类型是String的Writable封装。但其实Text和String还是有些区别,它是一种UTF-8格式的Writable,而Java中的String是Unicode字符。所以直接使用value.toString()方法,会默认其中的字符都是UTF-8编码过的,因而原本GBK编码的数据使用Text读入后直接使用该方法就会变成乱码。



正确的方法是将输入的Text类型的value转换为字节数组(value.getBytes()),使用String的构造器String(byte[] bytes, int offset, int length, Charset charset),通过使用指定的charset解码指定的byte子数组,构造一个新的String。

如果需要map/reduce输出其它编码格式的数据,需要自己实现OutputFormat,在其中指定编码方式,而不能使用默认的TextOutputFormat。

具体的范例可以见淘宝数据平台与产品部官方博客上的博文 http://www.tbdata.org/archives/244 。

来自:  Hadoop的map/reduce作业输入非UTF-8编码数据的处理原理

以下摘自 淘宝数据平台与产品部官方博客:


  1 中文问题

    从url中解析出中文,但hadoop中打印出来仍是乱码?我们曾经以为hadoop是不支持中文的,后来经过查看源代码,发现hadoop仅仅是不支持以gbk格式输出中文而己。

      这是TextOutputFormat.class中的代码,hadoop默认的输出都是继承自FileOutputFormat来的,FileOutputFormat的两个子类一个是基于二进制流的输出,一个就是基于文本的输出TextOutputFormat。
      public static class TextOutputFormat<K, V> extends FileOutputFormat<K, V> {

  protected static class LineRecordWriter<K, V>

    implements RecordWriter<K, V> {

    private static final String utf8 = “UTF-8″;//这里被写死成了utf-8

    private static final byte[] newline;

    static {

      try {

        newline = “\n”.getBytes(utf8);

      } catch (UnsupportedEncodingException uee) {

        throw new IllegalArgumentException(“can’t find ” &#43; utf8 &#43; ” encoding”);

      }

    }



    public LineRecordWriter(DataOutputStream out, String keyValueSeparator) {

      this.out = out;

      try {

        this.keyValueSeparator = keyValueSeparator.getBytes(utf8);

      } catch (UnsupportedEncodingException uee) {

        throw new IllegalArgumentException(“can’t find ” &#43; utf8 &#43; ” encoding”);

      }

    }



    private void writeObject(Object o) throws IOException {

      if (o instanceof Text) {

        Text to = (Text) o;

        out.write(to.getBytes(), 0, to.getLength());//这里也需要修改

      } else {

        out.write(o.toString().getBytes(utf8));

      }

    }



}

    可以看出hadoop默认的输出写死为utf-8,因此如果decode中文正确,那么将Linux客户端的character设为utf-8是可以看到中文的。因为hadoop用utf-8的&#26684;式输出了中文。

    因为大多数数据库是用gbk来定义字段的,如果想让hadoop用gbk&#26684;式输出中文以兼容数据库怎么办?

    我们可以定义一个新的类:

    public class GbkOutputFormat<K, V> extends FileOutputFormat<K, V> {

  protected static class LineRecordWriter<K, V>

    implements RecordWriter<K, V> {

    //写成gbk即可

    private static final String gbk = “gbk”;


    private static final byte[] newline;

    static {

      try {

        newline = “\n”.getBytes(gbk);

      } catch (UnsupportedEncodingException uee) {

        throw new IllegalArgumentException(“can’t find ” &#43; gbk &#43; ” encoding”);

      }

    }



    public LineRecordWriter(DataOutputStream out, String keyValueSeparator) {

      this.out = out;

      try {

        this.keyValueSeparator = keyValueSeparator.getBytes(gbk);

      } catch (UnsupportedEncodingException uee) {

        throw new IllegalArgumentException(“can’t find ” &#43; gbk &#43; ” encoding”);

      }

    }



    private void writeObject(Object o) throws IOException {

      if (o instanceof Text) {

             //  Text to = (Text) o;

             //  out.write(to.getBytes(), 0, to.getLength());

            //  
} else {

          out.write(o.toString().getBytes(gbk));

      }

    }



}

    然后在mapreduce代码中加入conf1.setOutputFormat(GbkOutputFormat.class)

    即可以gbk&#26684;式输出中文。








详见我的有道笔记: http://note.youdao.com/share/?id=04678102d70bae8334b26df2c9c4a961&type=note
  


  



版权声明:本文为博主原创文章,未经博主允许不得转载。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-138011-1-1.html 上篇帖子: Hadoop 2.x build native library on Mac os x 下篇帖子: Hadoop中的排序器/组合器/合并器
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表