设为首页 收藏本站
查看: 1002|回复: 0

[经验分享] 使用spark分析mysql慢日志

[复制链接]

尚未签到

发表于 2018-9-27 10:29:09 | 显示全部楼层 |阅读模式
  熟悉oracle的童鞋都知道,在oracle中,有很多视图记录着sql执行的各项指标,我们可以根据自己的需求编写相应脚本,从oracle中获取sql的性能开销。作为开源数据库,mysql不比oracle,分析慢sql只能通过slow.log。slow.log看起来不够直观,而且同一条慢sql执行多次的话就会在slow.log中被记录多次,可阅读性较差。
  最近,部门开发的数据库审计平台上线mysql审计模块,需要为客户提供一键化提取slow.log中慢sql的功能。由于本人之前研究过spark,在分析慢日志的文本结构后,使用scala语言,利用spark core相关技术,编写了能够去重slow.log中重复sql,并将按执行时间排序的top sql输入到hive表中的小程序。
  话不多说,上菜!
  开发环境:
  1、CentOS 6.5
  2、JDK 1.7
  3、Hadoop 2.4.1
  4、Hive 0.13
  5、Spark 1.5.1
  6、scala 2.11.4
  hadoop及spark集群环境的搭建方法就不多说了哈,网上资料很多,对大数据感兴趣的童鞋可以尝试搭建。

  step 1 使用scala>  analyzeSlowLog.scala:
  

package cn.spark.study.sql  

  
import org.apache.spark.SparkConf
  
import org.apache.spark.SparkContext
  
import scala.util.matching.Regex
  
import scala.collection.mutable.ArrayBuffer
  
import org.apache.spark.sql.types.StructType
  
import org.apache.spark.sql.types.StructField
  
import org.apache.spark.sql.types.StringType
  
import org.apache.spark.sql.types.DoubleType
  
import org.apache.spark.sql.SQLContext
  
import org.apache.spark.sql.Row
  
import org.apache.spark.sql.hive.HiveContext
  

  
object SlowLogAnalyze {
  def main(args: Array[String]): Unit = {
  //创建SparkConf,SparkContext和HiveContext
  val conf=new SparkConf()
  .setAppName("SlowLogAnalyze");
  val sc=new SparkContext(conf)
  val hiveContext=new HiveContext(sc)
  

  //读取hdfs文件,获取logRDD
  val logRDD=sc.textFile("hdfs://spark1:9000/files/slow.log", 5)
  

  //创建正则表达式,用来过滤slow.log中的无效信息
  val pattern1="# Time:".r
  val pattern2="# User@Host:".r
  val pattern3="SET timestamp=".r
  

  //对logRDD进行filter,过滤无效信息
  val filteredLogRDD=logRDD.filter { str =>
  //正则返回的是option类型,只有Some和None两种类型
  if(pattern1.findFirstIn(str)!=None){
  false
  }else if(pattern2.findFirstIn(str)!=None){
  false
  }else if(pattern3.findFirstIn(str)!=None){
  false
  }else{
  true
  }
  }
  /**
  * 将filteredLogRDD转换为格式为(execute_time,sql_text)的tuple类RDD KV_RDD
  */
  

  //将filteredLogRDD转换为数组
  val logArray=filteredLogRDD.toArray()
  

  //定义正则表达式pattern,用于识别Query_time
  val pattern="# Query_time:".r
  

  //定义数组KV_Array,用于存放循环映射后的tuple,tuple为(query_time所在行,sql_text)
  val KV_Array=ArrayBuffer[(String,String)]()
  for (iRow(tuple._2,tuple._1)}
  val top10Array=sortedRowRDD.take(10)
  val top10RDD=sc.parallelize(top10Array, 1)
  //将sortedRDD转换为dataframe
  val structType=new StructType(Array(
  StructField("sql_text",StringType,true),
  StructField("executed_time",DoubleType,true)
  )
  )
  val top10DF=hiveContext.createDataFrame(top10RDD, structType)
  hiveContext.sql("drop table if exists sql_top10")
  top10DF.saveAsTable("sql_top10")
  }
  
}
  

  将代码打成jar包并上传至linux。
  step 2 编写执行脚本
  analyzeSlowLog.sh:
  

/var/software/spark-1.5.1-bin-hadoop2.4/bin/spark-submit \  
--class cn.spark.study.sql.SlowLogAnalyze \
  
--num-executors 3 \
  
--driver-memory 100m \
  
--executor-memory 100m \
  
--executor-cores 3 \
  
--files /var/software/hive/conf/hive-site.xml \
  
--driver-class-path /var/software/hive/lib/mysql-connector-java-5.1.17.jar \
  
/var/software/spark_study/scala/SlowLogAnalyze.jar
  

  step 3 执行analyzeSlowLog.sh,并进入hive查看分析结果:
  hive> show tables;
  OK
  daily_top3_keywords_uvs
  good_students
  sql_top10          -- 这张表就是scala程序中定义的表名,程序运行时会在hive中创建
  student_infos
  student_scores
  Time taken: 0.042 seconds, Fetched: 5 row(s)
  查看sql_top10中的内容:
  这里由于长度限制,截断了sql文本,所以看起来部分sql是一样的,实际是两条不同的sql(where 条件不同)。
  hive> select substr(sql_text,1,50),executed_time from sql_top10;
  Total jobs = 1
  Launching Job 1 out of 1
  Number of reduce tasks is set to 0 since there's no reduce operator
  ...
  Execution completed successfully
  MapredLocal task succeeded
  OK

  select         'true' as QUERYID,        >  select count() from pms_garage_vitri_info              0.0048902
  select count() from information_schema.PROCESSLIS      3.626E-4
  select         'true' as QUERYID,         e_survey      2.39E-4
  select         'true' as QUERYID,         e_survey      2.34E-4
  SELECT                        account_code AS um        2.2360000000000001E-4
  select         'true' as QUERYID,         e_survey      2.19E-4
  select         'true' as QUERYID,         e_survey      2.18E-4
  select         'true' as QUERYID,         e_survey      2.15E-4
  SELECT                        account_code AS um        2.1419999999999998E-4
  Time taken: 8.501 seconds, Fetched: 10 row(s)
  至此,对mysql slow.log的提取完毕!
  关于在mysql中创建相关视图的思考:
  hadoop和spark一般用于处理大数据,这里用来处理mysql的慢日志实在是大材小用。不过,要想在mysql中提供查看数据库top sql的v$Topsql视图,对slow.log的实时分析是必须的,此时,spark streaming便可派上用场。
  思路如下:
  1.编写crontab定时任务以定时拷贝slow.log至hdfs
  2.编写crontab定时任务以调用spark streaming程序分析hdfs上的最新slow.log ->通过jdbc将将top sql输出到对应mysql数据库中的v$Topsql视图中,并覆盖之前的数据。
  ps:在分析slow.log时,可在程序中executor,timestamp等字段(本文中并未提取这两个字段),以提供更详细的信息。



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-602688-1-1.html 上篇帖子: MySQL数据库的备份与恢复之xtrabackup工具的使用 下篇帖子: Lvs+Keepalived+MySQL Cluster架设高可用负载均衡Mysql集群
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表