设为首页 收藏本站
查看: 749|回复: 0

[经验分享] Hadoop、spark、hive的原理及其在金融领域的应用

[复制链接]

尚未签到

发表于 2018-10-28 15:19:32 | 显示全部楼层 |阅读模式
  首先百度百科了各个词条的含义:
  Hadoop
  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
  [1]  Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
  

SPARK (Spark)    

  Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
  Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
  Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  Hadoop
  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
  [1]  Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
  大数据对风控的帮助
  大数据可以提供全面的多角度的数据,降低借款人的贷款的风险。
  企业指标:宏观指标,行业指标,企业指标,财务指标
  个人指标:宏观,行业,个人。
  指标频率:日,月,季,年
  个人版风控系统查询:
  A个人收入
  B银行流水
  C负债
  D汽车折旧系数
  E房产折现系数
  企业版风控系统查询
  绝对指标
  A资产总计
  B负债总计
  C营业总成本/营业总收入
  D销售毛利率
  现金收益
  E净资产收益率ROE
  F经营活动净收益/利润总额(TTM)
  G经营性现金净流量/营业总收入
  H筹资活动产生的现金流量净额占比
  I投资活动产生的现金流量净额占比
  偿债能力
  J资产负债率
  K有形资产/总资产
  L权益乘数
  M流动比率
  N速动比率
  营运能力
  O存货周转率
  P应收账款周转率
  Q应付账款周转率
  R净资产(同比增长率)
  S固定资产投资扩张率
  T利润总额/息税前利润
  U股东权益合计/负债总计
  V. EBITDA率%
  风控流程
  3.1业务流程
  1.借款人进行咨询;
  2.填写申请表和有关资料,提交给业务员;
  3.业务员添加客户至客户室;
  4.业务员为客户发起授信申请,进入授信审核,审核成功后,借款人获得授信额度。
  5.业务员为借款人发起借款申请,进入借款审核,审核成功后,财务放款,借款成功.
  3.2授信审核流程(贷前流程)
  1.业务员为自己客户发起授信申请;
  2.业务主管进行初审,审核通过进入风控委员初审,驳回返回上级,拒绝的授信失败;
  3.风控委员进行初审;
  4.风控主管进行复审;
  5.贷审会进行审核;
  6.总经理进行终审,审核通过,授信成功,借款人获得授信额度。
  3.3
  借款审核流程(贷中流程)
  1.借款人拥有一定的授信额度,业务员为借款人发起借款申请;
  2.业务主管进行初审,审核通过进入风控委员初审,驳回返回上级,拒绝的授信失败;
  3.风控委员进行初审;
  4.风控主管进行复审;
  5.总经理进行终审;
  6.审核通过的,财务放款,借款人借款成功。
  3.4贷后流程
  贷款到期,借款人还款。其中借款人可以提前还款,若到期未能还款,则有展期申请、强制结清、押品结清、押品处置、违约金法系处理。
  借款人还清贷款,即可拿回抵押物品。
  四。风险管理全面解决方案



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627631-1-1.html 上篇帖子: hadoop安装(3) 下篇帖子: hadoop的文件操作命令
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表