设为首页 收藏本站
查看: 741|回复: 0

[经验分享] 线上PHP问题排查思路与实践

[复制链接]

尚未签到

发表于 2018-12-18 11:00:42 | 显示全部楼层 |阅读模式
  转载:http://www.bo56.com/%E7%BA%BF%E4%B8%8Aphp%E9%97%AE%E9%A2%98%E6%8E%92%E6%9F%A5%E6%80%9D%E8%B7%AF%E4%B8%8E%E5%AE%9E%E8%B7%B5/
  前几天,在一淘网,腾讯网媒和微博商业技术联合组织的技术分享大会上,我分享了《在线PHP问题排查思路与实践》。此博文除了对PPT提供下载外,还会对ppt做简单的注释说明。主题分为三部分,常见问题,解决思路和案例分析。
常见问题
  不同用户看到的错误可能不一样。一般用户看到的错误都是表层的现象。如,裸奔的错误页面:
DSC0000.png

  这种裸奔的错误页面,经常被用户成为乱码,太丑太暴漏。甚至把一些不应该暴漏的敏感信息都暴漏了。如,nginx版本号,文件路径等。为了解决这些问题,设计师们又做了有情调的错误页。但是,错误五花八门,并不是一个错误页能掩盖的。
  对于工程师,咱们看问题可能会更深入些。能看到问题背后的问题。如,看到502错误,他们会想到可能是后端PHP-FPM进程出现问题。如后端的PHP-FPM进程已经死掉,nginx无法连接到PHP-FPM进程。
处理思路
DSC0001.png

  虽然问题五发八门,但是有一套解决思路可以整体处理这些问题。解决思路大概分为如下几个部分:恢复服务,保留现场,排查问题和验证。下面对这几部分分别加以说明。
恢复服务
DSC0002.png

  恢复服务,顾名思义。就是赶紧让用户感受不到错误的存在。为什么这样做呢?原因有如下两个。第一,如果不这样做,用户看到的是错误页面,用户体验不好。可能还会对公司带来直接的经济损失。 第二,如果不这样做,年底你的奖金就飞了。那如何恢复服务呢?下面说下不同场景下的几种操作方式。
  摘机:所谓摘机就是摘除有问题的机器。这种操作的应用场景是,当提供服务的多台机器中,有部分机器出现问题时,可以这样操作。这就要求我们,对于线上运行的服务,必须保障有多台机器运行相同的服务,多台机器间没有依赖关系。其中一台或者几台被摘除不会影响到其他机器。
  回滚:所谓回滚就是恢复到操作之前的状态。这种操作的应用场景是,当进行了上线或者软件配置修改后,出现了问题。
  重启:当你的服务运行一段时间,突然出现了异常。如进程占用了cpu 100%。你可以通过重启的方式来解决。重启的过程就是一个资源释放和重新分配的过程。
  降级:当你的网站的访问量超出了你服务器的负载时,网站就会出现问题。这个时候,就需要保证主要功能可用。把损失降到最低。
  当然,网站出现问题时,并不是教条的套用,做单一的操作来恢复服务。而是根据情况进行相应的操作。遇到问题时,可能需要进行多个恢复服务的操作。但是,所有的这些操作的原则就是,把损失降到最低。
保留现场
DSC0003.png

  其实问题排查和警察破案过程是一样的。想想警察是如何保留现场的?商场内安装摄像头。不方便安装摄像头的场所(洗头房),就在场所外的大街上安装摄像头。虽然有监控,但是还有会有案件发生。案件出现后,他们会保护案发现场。其实我们对现场的保留,也是从这几方面入手。
  系统内部日志:这就好比在商场内安装摄像头。如果有良好的日志记录,那就可以记录系统运行过程中出现的一些异常。良好的日志系统,也是我们在选择开源软件时的重要标准。
  系统外部监控:这个就好比洗头房外大街上的监控。在系统中,总有一些地方是你不方便或者没权增加日志记录的。如,咱们在调用第三方服务的时候,肯定你也不方便在第三方服务中添加日志。这个时候,我们就需要增加对第三方服务的监控和日志记录。能时刻知道第三方服务是否可用。
  保留运行状态:这个就是案发现场的保留。比如,你发现一个进程占用cpu 100%。你为了解决问题,贸然的重启进程,就是破坏了现场。
  保留现场和恢复服务并没有一个明确的先后关系。他们共同是问题排查的基础。恢复了服务,你才可用安心的进行问题排查。保留了现场,你才有问题排查的数据来源。有时候,保留现场和恢复服务会有冲突。如,你就一台机器提供服务,这台机器上出现了问题,这个时候要如何处理呢?这个时候建议最短的时间备份现场,然后尽快的恢复服务。如,一个进程占用cpu 100%,那你就可以用 gcore 把进程生成core文件,然后重启进程。
  对于PHP开发的系统,为了实现更健壮的日志系统,我这里有个小tip。可以使用register_shutdown_function 和 error_get_last。具体的可以查看。博文地址
  所有的这些保留现场的操作,就是为之后的问题排查提供数据。
排查问题
  排查问题的过程才是展现你福尔摩斯风采的时候。问题排查的过程就是用你掌握的知识和工具去分析数据的过程。现在,数据已经有了。知识和工具都需要掌握哪些呢?
知识
  知识的海洋是浩瀚的。这里我只能做个大概的分类。
  语言:PHP语言方面,除了了解基本语法以外,还要对PHP的内核有所了解。对PHP内核有所了解后,你就大概了解了php的执行流程。出现问题,你就可以大概推测是那个环节出现了问题。发现问题后,你可以根据掌握的知识分析出大概那里出现了问题。比如,当一个PHP进程占用cpu 100%。你就可以通过掌握的PHP内核的数据结构找出是大概那里的代码出现了问题。参见博文《当cpu飙升时,找出php中可能有问题的代码行》
  网络:咱们毕竟是搞网络通信编程的。对网络通信方面的知识有所了解,是必须的。尤其是对一些协议要有大概的了解。通信协议的重要性,并不仅仅局限于面试时撑撑场面,更重要的是用来解决问题。查看博文 《tcpdump 和 wireshark组合拳,揪出有问题的机器》
  软件:对搭建系统所使用软件要有所了解。如对memcached的内存管理策略有所了解的话,可以让你更好的对其调优,充分的利用内存,减少内存浪费。
  系统:避免咱们搭建的系统运行在操作系统上。那就需要对操作系统所有了解。如,权限,系统日志位置,oom等。
工具
  工欲善其事必先利其器。网络上有一张图总结的很好,把常用的工具总结的很全。
DSC0004.png

  如果你把所有的工具都能很好的掌握,你就是神啦。
案例分析
  案例分析中给出了三个案例。涉及网络,语言和系统三个方面。
  网络:使用tcpdump排查mysql数据库tps飙升的问题
  语言:php进程导致服务器cpu 100问题追查过程
  系统:一个echo引起的进程崩溃
  更多案例请查看 http://www.bo56.com/category/troubleshoot/


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-652781-1-1.html 上篇帖子: 自学PHP日记(1) 下篇帖子: php连接mysql连接配置
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表