设为首页 收藏本站
查看: 920|回复: 0

[经验分享] 关于静态页面的蜘蛛爬行记录,PHP版

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-8-25 10:25:21 | 显示全部楼层 |阅读模式
今天突然想知道每天爬行了网站些什么页面,爬了几次,但本人网站都是静态页面,而且空间商的记录要每天最设保留日志第二天才会保留。因些想看能不能通过伪静态的逆向,研究了半个小时左右弄出了这个东西来,部分代码是网上找的.能节省精力尽力节省麻。。。  php文件 本人设为bot.php



DSC0000.gif DSC0001.gif View Code

1 <?php
2     $useragent = addslashes(strtolower($_SERVER['HTTP_USER_AGENT']));
3     if (strpos($useragent, 'googlebot')!== false){$bot = 'Google';}
4     elseif (strpos($useragent,'mediapartners-google') !== false){$bot = 'Google Adsense';}
5     elseif (strpos($useragent,'baiduspider') !== false){$bot = 'Baidu';}
6     elseif (strpos($useragent,'sogou spider') !== false){$bot = 'Sogou';}
7     elseif (strpos($useragent,'sogou web') !== false){$bot = 'Sogou web';}
8     elseif (strpos($useragent,'sosospider') !== false){$bot = 'SOSO';}
9     elseif (strpos($useragent,'yahoo') !== false){$bot = 'Yahoo';}
10     elseif (strpos($useragent,'msn') !== false){$bot = 'MSN';}
11     elseif (strpos($useragent,'msnbot') !== false){$bot = 'msnbot';}
12     elseif (strpos($useragent,'sohu') !== false){$bot = 'Sohu';}
13     elseif (strpos($useragent,'yodaoBot') !== false){$bot = 'Yodao';}
14     elseif (strpos($useragent,'twiceler') !== false){$bot = 'Twiceler';}
15     elseif (strpos($useragent,'ia_archiver') !== false){$bot = 'Alexa_';}
16     elseif (strpos($useragent,'iaarchiver') !== false){$bot = 'Alexa';}
17     elseif (strpos($useragent,'slurp') !== false){$bot = '雅虎';}
18     elseif (strpos($useragent,'bot') !== false){$bot = '其它蜘蛛';}
19     if(isset($bot)){
20     $fp = @fopen('bot.txt','a');
21     fwrite($fp,date('Y-m-d H:i:s')."\t".$_SERVER["REMOTE_ADDR"]."\t".$bot."\t".'http://'.$_SERVER['SERVER_NAME'].$_SERVER["HTTP_X_REWRITE_URL"]."\r\n");
22     fclose($fp);
23     }
24     $file=".".$_SERVER[HTTP_X_REWRITE_URL];
25     $f_head=substr($file,-5);
26     if($f_head==".html")
27     {
28         if(file_exists($file))
29         {
30           echo file_get_contents($file);
31         }else
32         {
33            
34         header('HTTP/1.1 404 Not Found');
35         header("status: 404 Not Found");
36
37         echo "该页面无法找到";
38
39         }
40         
41     }
42     else
43     {
44         header('HTTP/1.1 404 Not Found');
45         header("status: 404 Not Found");
46         echo "该页面无法找到";
47
48         
49     }
50     ?> 伪静态文件代码
  


1 [ISAPI_Rewrite]
2
3 # 3600 = 1 hour
4 CacheClockRate 3600
5
6 RepeatLimit 32
7
8 # Protect httpd.ini and httpd.parse.errors files
9 # from accessing through HTTP
10 RewriteRule /index.html /index.php
11 RewriteRule ^/article/(.*) /bot.php [L]
12 RewriteRule ^/list/(.*) /bot.php [L]

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-103922-1-1.html 上篇帖子: PHP实现今天是星期几的几种写法 下篇帖子: XML-RPC for PHP简介及使用
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表