设为首页 收藏本站
查看: 727|回复: 0

[经验分享] 一、基于hadoop的nginx访问日志分析

[复制链接]

尚未签到

发表于 2017-12-17 21:09:58 | 显示全部楼层 |阅读模式
#!/usr/bin/env python  
#
coding=utf-8  

  
import datetime
  
from urllib.parse import urlparse
  
from user_agents import parse as ua_parse
  

  
class NginxLineParser(object):
  

  def parse(self, line):
  """ 将 nginx 日志解析多个字段
  """
  try:
  line_item = line.strip().split('"')
  self._server_name, self._local_ip, self._client_ip, self._remote_port = line_item[0].strip().split('[')[0].split()
  self._time_local = line_item[0].strip().split('[')[-1].strip(']')
  self._method, self._request, self._verb = line_item[1].strip().split()
  self._status, self._body_bytes_sent = line_item[2].strip().split()
  self._http_referer = line_item[3].strip()
  self._http_user_agent = line_item[-2].strip()
  self._request_time, self._upstream_response_time = line_item[-1].strip().split()
  except:
  with open('/tmp/parser_log_error.txt', 'a+') as f:
  f.write(line + '\n')
  

  def logline_to_dict(self):
  """ 将日志段转为字典
  """
  line_field = {}
  line_field['server_name'] = self.server_name
  line_field['local_ip'] = self.local_ip
  line_field['client_ip'] = self.client_ip
  line_field['remote_port'] = self.remote_port
  line_field['time_local'] = self.time_local
  line_field['method'] = self.method
  line_field['request'] = self.request
  line_field['verb'] = self.verb
  line_field['status'] = self.status
  line_field['body_bytes_sent'] = self.body_bytes_sent
  line_field['http_referer'] = self.http_referer
  line_field['http_user_agent'] = self.http_user_agent
  line_field['request_time'] = self.request_time
  line_field['upstream_response_time'] = self.upstream_response_time
  

  return line_field
  

  @property
  def server_name(self):
  return self._server_name
  @property
  def local_ip(self):
  return self._local_ip
  

  @property
  def client_ip(self):
  return self._client_ip
  

  @property
  def remote_port(self):
  return self._remote_port
  

  @property
  def time_local(self):
  return datetime.datetime.strptime(self._time_local, '%d/%b/%Y:%H:%M:%S +0800')
  

  @property
  def method(self):
  return self._method
  

  @property
  def request(self):
  return urlparse(self._request).path
  

  @property
  def verb(self):
  return self._verb
  

  @property
  def body_bytes_sent(self):
  return self._body_bytes_sent
  

  @property
  def http_referer(self):
  return self._http_referer
  

  @property
  def http_user_agent(self):
  ua_agent = ua_parse(self._http_user_agent)
  if not ua_agent.is_bot:
  return ua_agent.browser.family
  

  @property
  def user_agent_type(self):
  us_agent = ua_parse(self._http_user_agent)
  if us_agent.is_bot:
  return us_agent.browser.family
  

  @property
  def status(self):
  return self._status
  

  @property
  def request_time(self):
  return self._request_time
  

  @property
  def upstream_response_time(self):
  return self._upstream_response_time
  

  
def main():
  """程序执行入口
  """
  ng_line_parser = NginxLineParser()
  with open('test.log', 'r') as f:
  for line in f:
  ng_line_parser.parse(line)
  

  
if __name__ == '__main__':
  main()

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-425156-1-1.html 上篇帖子: 分别使用Hadoop和Spark实现TopN(1) 下篇帖子: Hadoop hdfs上传文件 权限问题
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表