设为首页 收藏本站
查看: 1797|回复: 0

[经验分享] 基于OGG的Oracle与Hadoop集群/kafka准实时同步

[复制链接]

尚未签到

发表于 2019-1-31 11:19:40 | 显示全部楼层 |阅读模式
  Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段。近期有场景需要做Oracle到Hadoop体系的实时导入,这里以此案例做以介绍。
  Oracle作为商业化的数据库解决方案,自发性的获取数据库事务日志等比较困难,故选择官方提供的同步工具OGG(Oracle GoldenGate)来解决。
安装与基本配置
环境说明
  软件配置
角色数据存储服务及版本OGG版本IP源服务器OracleRelease11.2.0.1Oracle GoldenGate 11.2.1.0 for Oracle on Linux x86-6410.0.0.25目标服务器Hadoop 2.7.2Oracle GoldenGate for Big Data 12.2.0.1 on Linux x86-6410.0.0.2  以上源服务器上OGG安装在Oracle用户下,目标服务器上OGG安装在root用户下。
注意
  Oracle导出到异构的存储系统,如MySQL,DB2,PG等以及对应的不同平台,如AIX,Windows,Linux等官方都有提供对应的Oracle GoldenGate版本,可在这里或者在旧版本查询下载安装。
Oracle源端基础配置
  将下载到的对应OGG版本放在方便的位置并解压,本示例Oracle源端最终的解压目录为/u01/gg。

  •   配置环境变量
      这里的环境变量主要是对执行OGG的用户添加OGG相关的环境变量,本示例为Oracle用户添加的环境变量如下:(/home/oracle/.bash_profile文件)





  •   Oracle打开归档模式
      使用如下命令查看当前是否为归档模式(archive)
      如非以上状态,手动调整即可















  •   Oracle打开日志相关
      OGG基于辅助日志等进行实时传输,故需要打开相关日志确保可获取事务内容。通过一下命令查看当前状态:
      如果以上查询结果非YES,可通过以下命令修改状态:







  •   Oracle创建复制用户
      为了使Oracle里用户的复制权限更加单纯,故专门创建复制用户,并赋予dba权限
      最终这个ggs帐号的权限如下所示:
























  •   OGG初始化
      进入OGG的主目录执行./ggsci,进入OGG命令行




















  •   Oracle创建模拟复制库表
      模拟建一个用户叫tcloud,密码tcloud,同时基于这个用户建一张表,叫t_ogg。










目标端基础配置
  将下载到的对应OGG版本放在方便的位置并解压,本示例Oracle目标端最终的解压目录为/data/gg。

  •   配置环境变量
      这里需要用到HDFS相关的库,故需要配置java环境变量以及OGG相关,并引入HDFS的相关库文件,参考配置如下:





  •   OGG初始化
      目标端的OGG初始化和源端类似进入OGG的主目录执行./ggsci,进入OGG命令行















Oracle源配置
  Oracle实时传输到Hadoop集群(HDFS,Hive,Kafka等)的基本原理如图:
DSC0000.png

  根据如上原理,配置大概分为如下步骤:源端目标端配置ogg管理器(mgr);源端配置extract进程进行Oracle日志抓取;源端配置pump进程传输抓取内容到目标端;目标端配置replicate进程复制日志到Hadoop集群或者复制到用户自定义的解析器将最终结果落入到Hadoop集群。
配置全局变量
  在源端服务器OGG主目录下,执行./ggsci到OGG命令行下,执行如下命令:
  其中./globals变量没有的话可以用edit params ./globals来编辑添加即可(编辑器默认使用的vim)
配置管理器mgr
  在OGG命令行下执行如下命令:
  说明:PORT即mgr的默认监听端口;DYNAMICPORTLIST动态端口列表,当指定的mgr端口不可用时,会在这个端口列表中选择一个,最大指定范围为256个;AUTORESTART重启参数设置表示重启所有EXTRACT进程,最多5次,每次间隔3分钟;PURGEOLDEXTRACTS即TRAIL文件的定期清理
  在命令行下执行start mgr即可启动管理进程,通过info mgr可查看mgr状态
添加复制表
  在OGG命令行下执行添加需要复制的表的操作,如下:
配置extract进程
  配置extract进程OGG命令行下执行如下命令:
  说明:第一行指定extract进程名称;dynamicresolution动态解析;SETENV设置环境变量,这里分别设置了Oracle数据库以及字符集;userid ggs,password ggs即OGG连接Oracle数据库的帐号密码,这里使用2.3.4中特意创建的复制帐号;exttrail定义trail文件的保存位置以及文件名,注意这里文件名只能是2个字母,其余部分OGG会补齐;table即复制表的表明,支持*通配,必须以;结尾
  接下来在OGG命令行执行如下命令添加extract进程:
  最后添加trail文件的定义与extract进程绑定:
  可在OGG命令行下通过info命令查看状态:
配置pump进程
  pump进程本质上来说也是一个extract,只不过他的作用仅仅是把trail文件传递到目标端,配置过程和extract进程类似,只是逻辑上称之为pump进程
  在OGG命令行下执行:
  说明:第一行指定extract进程名称;passthru即禁止OGG与Oracle交互,我们这里使用pump逻辑传输,故禁止即可;dynamicresolution动态解析;userid ggs,password ggs即OGG连接Oracle数据库的帐号密码,这里使用2.3.4中特意创建的复制帐号;rmthost和mgrhost即目标端OGG的mgr服务的地址以及监听端口;rmttrail即目标端trail文件存储位置以及名称
  分别将本地trail文件和目标端的trail文件绑定到extract进程:
  同样可以在OGG命令行下使用info查看进程状态:
配置define文件
  Oracle与MySQL,Hadoop集群(HDFS,Hive,kafka等)等之间数据传输可以定义为异构数据类型的传输,故需要定义表之间的关系映射,在OGG命令行执行:
  在OGG主目录下执行:
  ./defgen paramfile dirprm/tcloud.prm
  完成之后会生成这样的文件/u01/gg/dirdef/tcloud.t_ogg,将这个文件拷贝到目标端的OGG主目录下的dirdef目录即可。
目标端的配置
创建目标表(目录)
  这里主要是当目标端为HDFS目录或者Hive表或者MySQL数据库时需要手动先在目标端创建好目录或者表,创建方法都类似,这里我们模拟实时传入到HDFS目录,故手动创建一个接收目录即可
  hadoop –fs mkdir /gg/replication/hive/
配置管理器mgr
  目标端的OGG管理器(mgr)和源端的配置类似,在OGG命令行下执行:
配置checkpoint
  checkpoint即复制可追溯的一个偏移量记录,在全局配置里添加checkpoint表即可
  保存即可
配置replicate进程
  在OGG的命令行下执行:
  说明:REPLICATE r2hdfs定义rep进程名称;sourcedefs即在3.6中在源服务器上做的表映射文件;TARGETDB LIBFILE即定义HDFS一些适配性的库文件以及配置文件,配置文件位于OGG主目录下的dirprm/hdfs.props;REPORTCOUNT即复制任务的报告生成频率;GROUPTRANSOPS为以事务传输时,事务合并的单位,减少IO操作;MAP即源端与目标端的映射关系
  其中property=dirprm/hdfs.props的配置中,最主要的几项配置及注释如下:
  具体的OGG for Big Data支持参数以及定义可参考地址
  最后在OGG的命令行下执行:
  将文件与复制进程绑定即可
测试
启动进程
  在源端和目标端的OGG命令行下使用start [进程名]的形式启动所有进程。
  启动顺序按照源mgr——目标mgr——源extract——源pump——目标replicate来完成。
检查进程状态
  以上启动完成之后,可在源端与目标端的OGG命令行下使用info [进程名]来查看所有进程状态,如下:
  源端:
  目标端:
  所有的状态均是RUNNING即可。(当然也可以使用info all来查看所有进程状态)
测试同步更新效果
  测试方法比较简单,直接在源端的数据表中insert,update,delete操作即可。由于Oracle到Hadoop集群的同步是异构形式,目前尚不支持truncate操作。
  源端进行insert操作
  查看源端trail文件状态
  查看目标端trail文件状态
  查看HDFS中是否有写入
  注意:从写入到HDFS的文件内容看,文件的格式如下:
  很明显Oracle的数据已准实时导入到HDFS了。导入的内容实际是一条条的类似流水日志(具体日志格式不同的传输格式,内容略有差异,本例使用的delimitedtext。格式为操作符 数据库.表名 操作时间戳(GMT+0) 当前时间戳(GMT+8) 偏移量 字段1名称 字段1内容 字段2名称 字段2内容),如果要和Oracle的表内容完全一致,需要客户手动实现解析日志并写入到Hive的功能,这里官方并没有提供适配器。目前腾讯侧已实现该功能的开发。
  当然你可以直接把这个HDFS的路径通过LOCATION的方式在Hive上建外表(external table)达到实时导入Hive的目的。
总结
  OGG for Big Data实现了Oracle实时同步到Hadoop体系的接口,但得到的日志目前仍需应用层来解析(关系型数据库如MySQL时OGG对应版本已实现应用层的解析,无需人工解析)。
  OGG的几个主要进程mgr,extract,pump,replicate配置方便,可快速配置OGG与异构关系存储结构的实时同步。后续如果有新增表,修改对应的extract,pump和replicate进程即可,当然如果是一整个库,在配置上述2个进程时,使用通配的方式即可。
附录
  OGG到Hadoop体系的实时同步时,可在源端extract和pump进程配置不变的情况下,直接在目标端增加replicate进程的方式,增加同步目标,以下简单介绍本示例中增加同步到Kafka的配置方法。
  本示例中extract,pump进程都是现成的,无需再添加。只需要在目标端增加同步到Kafka的replicate进程即可。
  在OGG的命令行下执行:
  replicate进程和导入到HDFS的配置类似,差异是调用不同的配置dirprm/r2kafka.props。这个配置的主要配置如下:
  r2kafka.props引用的custom_kafka_producer.properties定义了Kafka的相关配置如下:
  以上配置以及其他可配置项可参考地址:
  以上配置完成后,在OGG命令行下添加trail文件到replicate进程并启动导入到Kafka的replicate进程
  检查实时同步到kafka的效果,在Oracle源端更新表的同时,使用kafka客户端自带的脚本去查看这里配置的ggtopic这个kafkatopic下的消息:
  目标端Kafka的同步情况:
  显然,Oracle的数据已准实时同步到Kafka。从头开始消费这个topic发现之前的同步信息也存在。架构上可以直接接Storm,SparkStreaming等直接消费kafka消息进行业务逻辑的处理。
  从Oracle实时同步到其他的Hadoop集群中,官方最新版本提供了HDFS,HBase,Flume和Kafka,相关配置可参考官网给出的例子配置即可。
  版权声明:本文由王亮原创文章,转载请注明出处:
  文章原文链接:https://www.qcloud.com/community/article/220
  来源:腾云阁 https://www.qcloud.com/community



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-669983-1-1.html 上篇帖子: Kafka源码深度解析-序列3 -Producer -Java NIO 下篇帖子: Kafka源码深度解析-序列5 -Producer -RecordAccumulator队列分析
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表