设为首页 收藏本站
查看: 538|回复: 0

[经验分享] 数据採集之Web端上传文件到Hadoop HDFS

[复制链接]

尚未签到

发表于 2017-11-23 09:21:04 | 显示全部楼层 |阅读模式
前言
  近期在公司接到一个任务。是关于数据採集方面的。

需求主要有3个:

  • 通过web端上传文件到HDFS;
  • 通过日志採集的方式导入到HDFS;
  • 将数据库DB的表数据导入到HDFS。
  正好近期都有在这方面做知识储备。正所谓养兵千日,用兵一时啊。
  学习到的东西仅仅有应用到真实的环境中才有意义不是么。
环境
  这里仅仅做模拟环境。而不是真实的线上环境,所以也非常easy。假设要使用的话还须要优化优化。

  • OS Debian 8.7
  • Hadoop 2.6.5
  • SpringBoot 1.5.1.RELEASE
  说明一下,这个系统OS最好使用Linux的。然后Hadoop也推荐使用CDH发行版的,由于在兼容性、安全性、稳定性都要好于开源的版本号。
  比方说CDH的易于升级维护,已解决好Hadoop生态其它产品的版本号兼容问题,补丁更新比开源要及时(毕竟商业公司支持)等等

还有之所以使用SpringBoot是由于快捷,方便,不用做一大堆的配置,无论是作为演示还是生产开发都挺好的。
项目搭建
  这里仅仅是做一个非常easy的演示,就是在Web页面提供一个上传button,使用户能够将本地文件上传至Hadoop集群平台。
pom.xml
  首先看下pom文件的依赖:


<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.infosys.hadoop</groupId>
<artifactId>upload</artifactId>
<version>1.0-SNAPSHOT</version>
<name>upload</name>
<packaging>jar</packaging>
<parent>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-parent</artifactId>
<version>1.5.1.RELEASE</version>
<relativePath/> <!-- lookup parent from repository -->
</parent>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
<hadoop.version>2.6.5</hadoop.version>
</properties>
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<dependency>
<groupId>javax.servlet</groupId>
<artifactId>javax.servlet-api</artifactId>
<version>3.1.0</version>
</dependency>

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
<exclusions>
<exclusion>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
</exclusion>
</exclusions>
</dependency>
<!-- Test -->
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.mrunit</groupId>
<artifactId>mrunit</artifactId>
<version>1.1.0</version>
<classifier>hadoop2</classifier>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-minicluster</artifactId>
<version>${hadoop.version}</version>
<scope>test</scope>
</dependency>
</dependencies>

<build>
<finalName>${project.artifactId}</finalName>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-archetype-plugin</artifactId>
<version>2.2</version>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-resources-plugin</artifactId>
<configuration>
<encoding>UTF-8</encoding>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<version>3.1</version>
<configuration>
<source>1.8</source>
<target>1.8</target>
</configuration>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-jar-plugin</artifactId>
<version>2.5</version>
<configuration>
<outputDirectory>${basedir}</outputDirectory>
</configuration>
</plugin>
<plugin>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-maven-plugin</artifactId>
</plugin>
</plugins>
</build>
</project>
  我们就是加入了一个SpringBootHadoop Client的依赖。其它的是一些測试相关的。
  关于这个Hadoop Client它提供了一些开发Hadoop应用所需的全部依赖,能够參考之前的一篇博客:Hadoop 2.x Maven开发环境搭建
首页
  首页界面就仅仅是提供一个上传表单button:

index.html


<!doctype html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport"
content="width=device-width, user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0">
<meta http-equiv="X-UA-Compatible" content="ie=edge">
<title>Upload</title>
</head>
<body>
<form action="/upload" method="post" enctype="multipart/form-data">
<p>
文件:<input type="file" name="file">
</p>
<p>
<input type="submit" value="上传">
</p>
</form>
</body>
</html>
  然后在Controller提供一个接口进行訪问首页:

HomeController.java


@Controller
@RequestMapping(value = "/")
public class HomeController {
public ModelAndView home() {
return new ModelAndView("index");
}
}

上传
  上传的逻辑也非常easy,就是使用SpringBoot上传文件的形式先将文件接收到后台。然后调用Hadoop提供的接口API运行上传。
  

上传接口UploadController.java


@Controller
public class UploadController {
@PostMapping("/upload")
@ResponseBody
public String handleFileUpload(@RequestParam("file") MultipartFile file) {
if (!file.isEmpty()) {
try {
String originalFilename = file.getOriginalFilename();
BufferedOutputStream out = new BufferedOutputStream(
new FileOutputStream(
new File(originalFilename)
)
);
out.write(file.getBytes());
out.flush();
out.close();
String destFileName = "/user/hadoop/" + originalFilename;
Upload.main(new String[]{originalFilename, destFileName});
} catch (FileNotFoundException e) {
e.printStackTrace();
return "上传失败," + e.getMessage();
} catch (IOException e) {
e.printStackTrace();
return "上传失败, " + e.getMessage();
}

return "上传成功";
} else {
return "上传失败。文件为空。
  ";
}
}
}
  最后我们在提供一个类来操作Hadoop接口。
  

Upload.java


public class Upload {
public static final String FS_DEFAULT_FS = "fs.defaultFS";
public static final String HDFS_HOST = "hdfs://192.168.1.2:9000";
public static final String CROSS_PLATFORM = "mapreduce.app-submission.cross-platform";

public static void main(String[] args) throws IOException {
Configuration conf = new Configuration();
conf.setBoolean(CROSS_PLATFORM, true);
conf.set(FS_DEFAULT_FS, HDFS_HOST);
GenericOptionsParser optionsParser = new GenericOptionsParser(conf, args);
String[] remainingArgs = optionsParser.getRemainingArgs();
if (remainingArgs.length < 2) {
System.err.println("Usage: upload <source> <dest>");
System.exit(2);
}
Path source = new Path(args[0]);
Path dest = new Path(args[1]);
FileSystem fs = FileSystem.get(conf);
fs.copyFromLocalFile(true, false, source, dest);
}
}

  当中的fs.defaultFS属性须要与集群Master NameNode节点中配置的一直。该属性配置一般在etc/hadoop/core-site.xml文件里进行定义。

能够看到我们实际的操作非常easy,就仅仅是调用Hadoop的FileSystem接口中的copyFromLocalFile方法。该方法參数说明:

  • 第一个參数:表示是否删除本地的源文件。也就是上传文件后是否保留原文件。这里为了避免兴许文件越来越多,就直接採用上传成功就删除的方式。
  • 第二个參数:表示是否覆盖已存在的文件,这里false表示不覆盖,假设HDFS集群中已存在该文件,就提示上传失败。
  • 第三个參数:源文件路径
  • 第四个參数:上传到HDFS指定的路径
后记
  当然上传的方式肯定不止这一种,比方:通过Hadoop的rest接口调用PUT也能够上传,还有Python等其它语言也有对应的API接口等等
  假设是要做成平台的话,这样肯定是远远不够的,每一个用户都能够上传就须要做好隔离措施,我们能够採用HDFS文件夹隔离的方式,只是我认为这样不够好,最好採用CDH支持的kerberos进行授权认证的方式比較好。
  开源的Hadoop默认仅仅支持Simple的形式,也就是与操作系统一致的用户验证。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-409764-1-1.html 上篇帖子: centos7 启动流程 下篇帖子: So you want to write a desktop app in Python
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表