设为首页 收藏本站
查看: 662|回复: 0

[经验分享] nginx 日志分析,python 实现

[复制链接]

尚未签到

发表于 2018-8-9 07:34:07 | 显示全部楼层 |阅读模式
环境:  

  
  OS:
  
     Linux: Linux version 2.6.32-431.el6.x86_64 (mockbuild@c6b8.bsys.dev.centos.org)                                                 x
  
     Build: (gcc version 4.4.7 20120313 (Red Hat 4.4.7-4) (GCC) )                                                                    x
  
     Release  : 2.6.32-431.el6.x86_64                                                                                                x
  
     Version  : #1 SMP Fri Nov 22 03:15:09 UTC 2013                                                                                  x
  
     cpuinfo: GenuineIntel Intel(R) Core(TM) i3 CPU  M 380  @ 2.53GHz                                                           x
  
     cpuinfo: Hz=2527.069 bogomips=5054.13                                                                                           x
  
     cpuinfo: ProcessorChips=1 PhyscalCores=2                                                                                        x
  
     cpuinfo: Hyperthreads  =0 VirtualCPUs =2
  

  
  Python:Python 3.5.1
  

  
  功能:
  
      1. 支持总访问量和总流量的分析;
  
      2. 支持HTTP个状态码的统计分析;
  
      3. 支持对结构进行指定条目显示;
  
      4. 支持分析指定时间内的统计;
  

  

  
#!/usr/bin/env python3
  
#-*- coding: utf8 -*-
  

  
import fileinput
  
import re
  
import time
  
from collections import Counter
  
import math
  
import sys
  
from datetime import datetime, timedelta
  

  
#初始化显示的日志条目,None表示显示全部
  
records = None
  

  
#脚本使用方法
  
def usage():
  
    print('Usage: %s nginx_log_file [max_record_nums] [datetime]' % sys.argv[0])
  
    print('Usage: [max_record_nums] for int number. eg: 10 ')
  
    print('Usage: [datetime] for [5d | 5h | 5m | 5s] for [5 days | 5 hours | 5 minutes | 5 seconds]')
  
    print('eg: ./ngx.py /var/log/nginx/access.log [10] [5d | 5h | 5m | 5s]')
  
    sys.exit(0)
  

  
#过去多长时间的时间点时间戳
  
def tmstamp():
  
    if len(sys.argv) <= 3:
  
        #return datetime.now().timestamp()
  
        return 0
  
    elif re.match('^[\d]+d$', sys.argv[3]):
  
        return (datetime.now() - timedelta(days=float(sys.argv[3].rstrip('d')))).timestamp()
  
    elif re.match('^[\d]+h$', sys.argv[3]):
  
        return (datetime.now() - timedelta(hours=float(sys.argv[3].rstrip('h')))).timestamp()
  
    elif re.match('^[\d]+m$', sys.argv[3]):
  
        return (datetime.now() - timedelta(minutes=float(sys.argv[3].rstrip('m')))).timestamp()
  
    elif re.match('^[\d]+s$', sys.argv[3]):
  
        return (datetime.now() - timedelta(seconds=float(sys.argv[3].rstrip('s')))).timestamp()
  
    else:
  
        usage()
  

  

  

  
#转换字节单位
  
def convertBytes(bytes, lst=['B','KB','MB','GB','TB','PB']):
  
    i = int(math.floor(math.log(bytes, 1024)))
  
    if i >= len(lst):
  
        i = len(lst) - 1
  
    return ('%.2f ' + lst) % (bytes/math.pow(1024, i))
  

  
#日志解析生成器
  
def ngx():
  
    try:
  
        with fileinput.input(sys.argv[1]) as f:
  
            for line in f:
  
                ip,_,_,dtime, _, mthd, _, _, status, size, *_ = re.split('[\s"]+', line)
  
                dtstamp = time.mktime(time.strptime(dtime.lstrip('['), '%d/%b/%Y:%H:%M:%S'))
  
                yield [ip, status, size, dtstamp]
  
    except:
  
        usage()
  

  

  
# 参数判断
  
if len(sys.argv) < 2 or len(sys.argv) > 4:
  
    usage()
  
if len(sys.argv) < 3:
  
    records = None
  
elif len(sys.argv) == 3:
  
    try:
  
        re.match('[\d]+', sys.argv[2])
  
        records = int(sys.argv[2])
  
    except:
  
        usage()
  
elif len(sys.argv) == 4:
  
    try:
  
        re.match('^[\d]+[dhms]$', sys.argv[3])
  
    except:
  
        usage()
  

  

  
#初始化各统计变量
  
iptotal, ipsize, ip200, ip302, ip304, ip403, ip404, ip500, ip502, ip503, totsize =  Counter(), Counter(), Counter(), Counter(), Counter(), Counter(), Counter(), Counter(), Counter(), Counter(), 0
  

  
#定义映射表头
  
header = ['ip', 'statuscode', 'size', 'dtstamp']
  

  
#进行迭代统计
  
for line in ngx():
  
    #将两个列表转换为字典
  
    datadict = dict(zip(header, line))
  

  
    #统计n天/时/分/秒之前的访问量和带宽等信息
  
    if datadict['dtstamp'] > tmstamp():
  

  
        #每个IP的流量带宽
  
        ipsize[datadict['ip']] += int(datadict['size'])
  

  
        #总流量
  
        totsize += int(datadict['size'])
  

  
        #每IP的总访问量
  
        iptotal[datadict['ip']] += 1
  

  
        #统计个状态码的请求数
  
        if datadict['statuscode'] == '200':
  
            ip200[datadict['ip']] += 1
  
        elif datadict['statuscode'] == '302':
  
            ip302[datadict['ip']] += 1
  
        elif datadict['statuscode'] == '304':
  
            ip304[datadict['ip']] += 1
  
        elif datadict['statuscode'] == '403':
  
            ip403[datadict['ip']] += 1
  
        elif datadict['statuscode'] == '404':
  
            ip404[datadict['ip']] += 1
  
        elif datadict['statuscode'] == '500':
  
            ip500[datadict['ip']] += 1
  
        elif datadict['statuscode'] == '502':
  
            ip502[datadict['ip']] += 1
  
        elif datadict['statuscode'] == '503':
  
            ip503[datadict['ip']] += 1
  

  
#判断是否有存在数据,存在则打印,否则,输出错误信息!
  
if totsize:
  
    #打印网站总流量,总访问量
  
    print("\nTotal traffic : %s  Total request times : %d\n" % (convertBytes(totsize),sum(iptotal.values())))
  

  
    #打印表头
  
    print('%-15s %-10s %-12s %-8s %-8s %-8s %-8s %-8s %-8s %-8s %-8s' %('Ip', 'Times', 'Traffic' , '200', '302', '304', '403', '404', '500', '502', '503'))
  

  
    print('%-15s %-10s %-12s %-8s %-8s %-8s %-8s %-8s %-8s %-8s %-8s' %('-'*15, '-'*10, '-'*12, '-'*8, '-'*8, '-'*8, '-'*8, '-'*8, '-'*8, '-'*8, '-'*8))
  
    #打印前多少条数据
  
    #for k, v in sorted(iptotal.items(), key=lambda v: v[1], reverse=True):
  
    for k, v in iptotal.most_common(records):
  
        print('%-15s %-10s %-12s %-8s %-8s %-8s %-8s %-8s %-8s %-8s %-8s' % (k, v, convertBytes(ipsize[k]), ip200[k], ip302[k], ip304[k], ip403[k], ip404[k], ip500[k], ip502[k], ip503[k]))
  

  
else:
  
    print('Not found data!')

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-548847-1-1.html 上篇帖子: Python 新式类与经典类的区别 下篇帖子: Python赋值运算符
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表