设为首页 收藏本站
查看: 511|回复: 0

[经验分享] PHP对大文件的处理思路

[复制链接]

尚未签到

发表于 2017-4-1 12:51:42 | 显示全部楼层 |阅读模式
  需求: 现有一个1G左右的日志文件,大约有500多万行, 用php返回最后几行的内容。
  在php中,对于文件的读取时,最快捷的方式莫过于使用一些诸如file、file_get_contents之类的函数,简简单单的几行代码就能很漂亮的完成我们所需要的功能。但当所操作的文件是一个比较大的文件时,这些函数可能就显的力不从心, 下面将从一个需求入手来说明对于读取大文件时,常用的操作方法。
  1. 直接采用file函数来操作
由于 file函数是一次性将所有内容读入内存,而php为了防止一些写的比较糟糕的程序占用太多的内存而导致系统内存不足,使服务器出现宕机,所以默认情况下限制只能最大使用内存16M,这是通过php.ini里的memory_limit = 16M来进行设置,这个值如果设置-1,则内存使用量不受限制。
  下面是一段用file来取出这具文件最后一行的代码。代码执行大概2分钟左右。
  view sourceprint?
01 $fp = fopen($file, "r");
  02 $num = 10;
  03 $chunk = 4096;
  04 $fs = sprintf("%u", filesize($file));
  05 $max = (intval($fs) == PHP_INT_MAX) ? PHP_INT_MAX : filesize($file);
  06 for ($len = 0; $len < $max; $len += $chunk) {
  07 $seekSize = ($max - $len > $chunk) ? $chunk : $max - $len;
  08 fseek($fp, ($len + $seekSize) * -1, SEEK_END);
  09 $readData = fread($fp, $seekSize) . $readData;
  10
  11 if (substr_count($readData, "\n") >= $num + 1) {
  12 preg_match("!(.*?\n){".($num)."}$!", $readData, $match);
  13 $data = $match[0];
  14 break;
  15 }
  16 }
  17 fclose($fp);
  18 echo $data;
我机器是2个G的内存,当按下F5运行时,系统直接变灰,差不多20分钟后才恢复过来,可见将这么大的文件全部直接读入内存,后果是多少严重,所以不在万不得以,memory_limit这东西不能调得太高,否则只有打电话给机房,让reset机器了。
  2.直接调用linux的tail命令来显示最后几行
在linux命令行下,可以直接使用tail -n 10 access.log很轻易的显示日志文件最后几行,可以直接用php来调用tail命令,执行php代码如下.整个代码执行完成耗时 0.0034 (s)
  view sourceprint?
1 file = 'access.log';
  2 $file = escapeshellarg($file); // 对命令行参数进行安全转义
  3 $line = `tail -n 1 $file`;
  4 echo $line;
3. 直接使用php的fseek来进行文件操作
这种方式是最为普遍的方式,它不需要将文件的内容全部读入内存,而是直接通过指针来操作,所以效率是相当高效的.在使用fseek来对文件进行操作时,也有多种不同的方法,效率可能也是略有差别的,下面是常用的两种方法.
  方法一:
  首先通过fseek找到文件的最后一位EOF,然后找最后一行的起始位置,取这一行的数据,再找次一行的起始位置,再取这一行的位置,依次类推,直到找到了$num行。
  view sourceprint?
01 function tail($fp,$n,$base=5)
  02 {
  03 assert($n>0);
  04 $pos = $n+1;
  05 $lines = array();
  06 while(count($lines)< =$n){
  07 try{
  08 fseek($fp,-$pos,SEEK_END);
  09 } catch (Exception $e){
  10 fseek(0);
  11 break;
  12 }
  13 $pos *= $base;
  14 while(!feof($fp)){
  15 array_unshift($lines,fgets($fp));
  16 }
  17 }
  18 return array_slice($lines,0,$n);
  19 }
  20 var_dump(tail(fopen("access.log","r+"),10));
方法二:
  还是采用fseek的方式从文件最后开始读,但这时不是一位一位的读,而是一块一块的读,每读一块数据时,就将读取后的数据放在一个buf里,然后通过换行符(\n)的个数来判断是否已经读完最后$num行数据.
  view sourceprint?
01 $fp = fopen($file, "r");
  02 $line = 10;
  03 $pos = -2;
  04 $t = " ";
  05 $data = "";
  06 while ($line > 0) {
  07 while ($t != "\n") {
  08 fseek($fp, $pos, SEEK_END);
  09 $t = fgetc($fp);
  10 $pos --;
  11 }
  12 $t = " ";
  13 $data .= fgets($fp);
  14 $line --;
  15 }
  16 fclose ($fp);
  17 echo $data
方法三:
  view sourceprint?
1 ini_set('memory_limit','-1');
  2 $file = 'access.log';
  3 $data = file($file);
  4 $line = $data[count($data)-1];
  5 echo $line;

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-358748-1-1.html 上篇帖子: php curl 爬取网站数据 下篇帖子: php 获取百度的热词数据
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表