设为首页 收藏本站
查看: 2561|回复: 0

[经验分享] Apache日志管理与统计分析

[复制链接]
发表于 2018-11-23 13:50:09 | 显示全部楼层 |阅读模式
  我们都知道Apache是一个性能非常优秀的web服务器,它能够稳定的工作,对各种插件支持的也非
  常优秀。所以很多公司都选择使用Apache来搭建web服务器,从web服务器的使用量上看,Apache的市
  场份额一直是居高不下。
DSC0000.jpg 图片来自http://news.netcraft.com/archives/category/web-server-survey/




    在日常工作中,我们不仅要保证网站的稳定运行,而且还需要统计网站的访问量和分析报表。了解和监控网站的运行状态,对于提高网站的服务能力和服务水平似乎必不可少的。通过对web服务器的日志文件进行分析和统计,能够有效的掌握系统运行的情况及站点内容的被访问情况,加强对整个站及其内容的维护与管理;管理web网站需要监视其速度、web内容传送,服务器每天的吞吐量,和web网站的外来访问,了解网站各个页面的访问情况,根据页面的点击率来改善网页的内容和质量,提高内容的可读性。

1、Apache日志分类

    Apache规定了4类日志,分别是:错误日志、访问日志、传输日志、Cookie日志。其中Apache2.0

默认设置的有错误日志和访问日志,如果需要分析其他日志,需要进行相关的配置。

    错误日志(/etc/httpd/log/access_log,log是一个链接文件)           /*源码安装

    记录服务器运行期间的各种错误和一些服务器何时启动等信息。在这个文件中,管理员可以准

确、清晰地看到各种错误提示:文件没有找到、用户认证错误或者PHP、CGI的语法错误等。通过这些

准确的错误描述,管理员就可以较为顺利的解决问题了。

    访问日志(/etc/httpd/log/access_log)

    通过Apache的访问日志可以了解到访问服务器的相关信息,比如,有哪些人访问了服务器,都访

问了哪些内容等相关信息。Apache服务器一旦启动就会自动生成访问日志(/var/log/httpd/access_log)文件。

DSC0001.jpg

    记录的大致由这几个部分组成:来源主机,浏览者标识,认证用户,访问时间,以何种方式访问

哪个内容,引用的网址(从哪个页面跳转过来的),以及浏览器的类型和操作系统的属性等。访问日

日志的文件位置实际就是一个配置选项。如果用户检查httpd.conf配置文件,可以看到该文件中有这

行内容

    CustomLog logs/access_log common  //指定了Apache访问日志保存的绝对路径和格式,因为

                                        Apache服务器会自动配置访问日志,所以该选项主要用

                                        于为每个虚拟主机指定不同访问日志。

2、日志统计分析

    通过对日志文件的分析,可以统计网站的访问量,从侧面反应出哪些网站最受欢迎,同时也可以

获取客户端的相关信息:浏览者的来源、使用何种浏览器等。

    目前支持Apache日志统计分析的软件众多。webalizer是Red Hat Enterprise Linux5内置的日志

统计分析软件。如果需要通过Apache进行远程访问,则还要进行如下配置(Webalizer配置文件

为:/etc/webalizer.conf   源码安装)

    ①、使用vi命令编辑webalizer配置文件。在该文件中确保如下几行(Red Hat Enterprise

Linux5中的webalizer的默认配置):

    LogFile   /var/log/httpd/access_log    指定Apache访问记录文件所在位置

    OutputDir  /var/www/usage

    ②、为Apache创建一个虚拟目录,使客户端能快速访问。编辑Apache配置文件/etc/httpd/conf/httpd.conf,找到Alias  /icons/xxxxx语句,在后面添加内容:

     Alias /webalizer   "/var/www/usage"       //确保有这个目录

  
  Options FollowSymLinks
  AllowOverride all
  order  deny,allow

  Allow from all

  
  ③、在/var/www/usage目录下创建一个文件.htaccess

  AuthName    “Test  Zone”

  AuthType     Basic

  AuthUserFile    /usr/local/apache/passwd/.htpasswd

  require   valid-user

  ④、关于创建认证用户,在上一篇文章中写到过,请参考。如果只是练习,可以不用要验证这一步。

  ⑤、执行命令webalizer

  ⑥、重启Apache

  ⑦、在客户端访问http://IP/webalizer/,输入授权的帐号和密码,成功后,结果如图所示:

DSC0002.jpg

      日志文件的压缩和备份
      网站日志文件是以文本格式存在,如果服务器有大量的用户,则日志文件会非常庞大,会占用大
  量的磁盘空间。因此须才却相应措施来防止日志文件将磁盘空间占满。Red Hat Enterprise Linux5
  供了这样一个logrotate小程序让用户来备份管理日志,rpm安装的时候,自动会安装这个工具。此时
  需要稍微调整,就可以达到减少磁盘空间占用的目的。打开Apache日志备份配置文
  /etc/logrotate.d/httpd/,并修改。通过简单设置后,Apache日志占用磁盘空间的问题将会得到很
  大的缓解。
  
DSC0003.png

实用的日志分析脚本
了解日志的各种定义后,这里分享一下从网上淘来的一些对日志分析的脚本

来自:http://www.blogjava.net/dongbule/archive/2010/12/10/340288.html

1.查看apache的进程数
ps -aux | grep httpd | wc -l

2.分析日志查看当天的ip连接数
cat default-access_log | grep "10/Dec/2010" | awk '{print $2}' | sort | uniq -c | sort -nr

3.查看指定的ip在当天究竟访问了什么url
cat default-access_log | grep "10/Dec/2010" | grep "218.19.140.242" | awk '{print $7}' | sort | uniq -c | sort -nr

4.查看当天访问排行前10的url
cat default-access_log | grep "10/Dec/2010" | awk '{print $7}' | sort | uniq -c | sort -nr | head -n 10

5.看到指定的ip究竟干了什么
cat default-access_log | grep 218.19.140.242 | awk '{print $1"\t"$8}' | sort | uniq -c | sort -nr | less

6.查看访问次数最多的几个分钟(找到热点)
awk '{print $4}' default-access_log |cut -c 14-18|sort|uniq -c|sort -nr|head









运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-638741-1-1.html 上篇帖子: 解决WEB(apache)服务器time_wait过高的性能优化过程 下篇帖子: web服务器apache理论、实践详解
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表