设为首页 收藏本站
查看: 1184|回复: 0

[经验分享] Hadoop HDFS编程 API入门系列之路径过滤上传多个文件到HDFS(二)

[复制链接]

尚未签到

发表于 2017-12-18 08:41:11 | 显示全部楼层 |阅读模式
1 package com.dajiangtai.Hadoop.HDFS;  

  2  
  3 import java.io.IOException;
  
  4 import java.net.URI;
  
  5 import java.net.URISyntaxException;
  
  6
  
  7 import org.apache.hadoop.conf.Configuration;
  
  8 import org.apache.hadoop.fs.FSDataInputStream;
  
  9 import org.apache.hadoop.fs.FSDataOutputStream;
  
10 import org.apache.hadoop.fs.FileStatus;
  
11 import org.apache.hadoop.fs.FileSystem;
  
12 import org.apache.hadoop.fs.FileUtil;
  
13 import org.apache.hadoop.fs.Path;
  
14 import org.apache.hadoop.fs.PathFilter;
  
15 /**
  
16  * @function 将指定格式的多个文件上传至 HDFS
  
17  * 使用文件模式,实现多文件上传至HDFS
  
18  * @author 小讲
  
19  *
  
20  */
  
21 @SuppressWarnings("unused")

  
22 public>  
23     
  
24     private static FileSystem fs = null;//FileSystem实例对象,即fs
  
25     private static FileSystem local = null;//FileSystem实例对象,即Local,本地文件系统
  
26
  
27     /**
  
28      * @function Main 方法
  
29      * @param args
  
30      * @throws IOException
  
31      * @throws URISyntaxException
  
32      */
  
33     public static void main(String[] args) throws IOException,URISyntaxException {
  
34         //文件上传路径
  
35 //        Path dstPath = new Path("hdfs://djt002:9000/outData/copyManyFilesToHDFS/");//这样会在这个默认的copyManyFilesToHDFS.txt里
  
36         Path dstPath = new Path("hdfs://djt002:9000/outCopyManyFilesToHDFS/");//要么,你先可以新建好outCopyManyFilesToHDFS这个目录
  
37
  
38         
  
39         //调用文件上传 list 方法
  
40         list(dstPath);
  
41     }
  
42
  
43     /**
  
44      * function 过滤文件格式   将多个文件上传至 HDFS
  
45      * @param dstPath 目的路径
  
46      * @throws IOException
  
47      * @throws URISyntaxException
  
48      */
  
49     public static void list(Path dstPath) throws IOException, URISyntaxException {
  
50         //读取hadoop文件系统的配置
  
51         Configuration conf = new Configuration();
  
52         //HDFS 接口
  
53         URI uri = new URI("hdfs://djt002:9000");
  
54         
  
55 //        URL、URI与Path三者的区别
  
56 //        Hadoop文件系统中通过Hadoop Path对象来代表一个文件   
  
57 //        URL(相当于绝对路径)    ->   (文件) ->    URI(相当于相对路径,即代表URL前面的那一部分)
  
58 //        URI:如hdfs://dajiangtai:9000
  
59 //        如,URL.openStream
  
60         
  
61         
  
62         //获得FileSystem实例fs
  
63         fs = FileSystem.get(uri, conf);
  
64 //        返回类型是FileSystem,等价于  FileSystem fs = FileSystem.get(uri, conf);
  
65     
  
66         
  
67         //获得FileSystem实例,即Local
  
68         local = FileSystem.getLocal(conf);
  
69 //        返回类型是LocalFileSystem,等价于  LocalFileSystem  local = FileSystem.getLocal(conf);
  
70         
  
71 //        为什么要获取到Local呢,因为,我们要把本地D盘下data/74目录下的文件要合并后,上传到HDFS里,所以,我们需先获取到Local,再来做复制工作啦!
  
72
  
73         
  
74         //只上传data/testdata 目录下 txt 格式的文件
  
75         FileStatus[] localStatus = local.globStatus(new Path("D://data/74/*"),new RegexAcceptPathFilter("^.*txt$"));
  
76 //        FileStatus[] localStatus = local.globStatus(new Path("./data/copyManyFilesToHDFS/*"),new RegexAcceptPathFilter("^.*txt$"));
  
77 //        ^表示匹配我们字符串开始的位置               *代表0到多个字符                        $代表字符串结束的位置
  
78 //        RegexAcceptPathFilter来只接收我们需要的,即格式
  
79 //        RegexAcceptPathFilter这个方法我们自己写
  
80         
  
81 //        但是我们,最终是要处理文件里的东西,最终是要转成Path类型,因为Path对象f,它对应着一个文件。
  
82         
  
83         //获取74目录下的所有文件路径,注意FIleUtil中stat2Paths()的使用,它将一个FileStatus对象数组转换为Path对象数组。
  
84         Path[] listedPaths = FileUtil.stat2Paths(localStatus);//localStatus是FileStatus数组类型
  
85
  
86         for(Path p:listedPaths){//for星型循环,即将listedPaths是Path对象数组,一一传给Path p
  
87             //将本地文件上传到HDFS
  
88             fs.copyFromLocalFile(p, dstPath);
  
89             //因为每一个Path对象p,就是对应本地下的一个文件,
  
90            
  
91         }
  
92     }
  
93
  
94     /**
  
95      * @function 只接受 txt 格式的文件aa
  
96      * @author 小讲
  
97      *
  
98      */

  
99     public static>  
100         private final String regex;//变量
  
101
  
102         public RegexAcceptPathFilter(String regex) {
  
103             this.regex = regex;//意思是String regex的值,赋给当前类RegexAcceptPathFilter所定义的private final String regex;
  
104         }
  
105
  
106         public boolean accept(Path path) {//主要是实现accept方法
  
107             // TODO Auto-generated method stub
  
108             boolean flag = path.toString().matches(regex);//匹配正则表达式,这里是^.*txt$
  
109             //只接受 regex 格式的文件
  
110             return flag;//如果要接收 regex 格式的文件,则accept()方法就return flag; 如果想要过滤掉regex格式的文件,则accept()方法就return !flag。
  
111         }
  
112     }
  
113 }

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-425274-1-1.html 上篇帖子: 关于Hadoop未授权访问可导致数据泄露通知 下篇帖子: 大数据系列01:大数据离线计算平台hadoop集群搭建和本地环境配置实践
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表