利用APACHE WEB日志挖掘搜索引擎

devil20 · 发表于 2017-1-8 07:34:02

　　按奈不住激动你横眉冷对怒发冲冠：百度你是吃屎的吗？该发布的发布了，该提交的提交了，现在都半月过去了，还毫无动静！谷歌？还好了，已经过百了，可一个IP都没有啊！真不明白它们到底干什么去了，反映这么慢。还让不让老子干了？

对了，我网站是不是有问题？你帮我看看……于是，另一番歇斯底里的好戏上场了。在我看来，百度并没有吃屎，恰恰于此相反，他是靠吃我们站长长大的。抛开那些牢骚不说，当我们开始对工作有疑问时，为什么不尝试自己去解决呢？

实际上，当我们开始牢骚时，暗流正在涌动，白纸黑字已经隐藏在日志里了。本文将和大家一起，通过分析网站日志，初步把握百度谷歌等搜索引擎和我们网站的交互情况。特别是网站建立初期，对我们正确评估网站，有着比较重要的指导意义。

认识几个搜索引擎爬虫

Googlebot

谷歌搜索引擎爬虫，当它第一次出现在你网站日志时，谷歌和网站的漫长交往正式开始。Googlebot 是 Google

的网页抓取机器人（有时称为“信息采集软件”）。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。

Baiduspider

百度蜘蛛，大多数中文网站辛辛苦苦，就是为了有朝一日能和这个蜘蛛搞对眼，对眼了小站也就有油水了。Baiduspider 是百度搜索引擎的一个自动程序，它的作用是访问互联网上的网页，建立索引数据库，使用户能在百度搜索引擎中搜索到您网站上的网页。

Sogou+web+spider

：sogou spider是搜狗搜索引擎的一个自动程序。它的作用是访问互联网上的网页，存储到本地数据库中，并从中发现新的链接，走访互联网，使用户能在搜狗搜索引擎中搜索到您网站的网页。

ia_archiver

：这个是Alexa的蜘蛛爬虫，和Googlebot、Baiduspider一样，为收集用户数据而存在。

Sosospider+、HuaweiSymantecSpider、MJ12bot、+bingbot、ichiro等等不一而足。我们要对它们来访表现出热情与好客，有朋自远方来，要不亦乐乎？

搜索引擎爬虫第一次到你的网站都干什么？

就如同拜访您的朋友，到你家门口都会礼貌的敲门，吃一两次闭门羹或许尚可忍受，吃多了闭门羹，从此和你一刀两断，能否挽回交情那自要下另一番功夫了，咱们不去讨论。这里看看蜘蛛爬虫第一次到我们网站，它们会先干什么呢？用分析数据说话。

2011-10-12 14:53:22 *** GET http://www.1ju.org//robots.txt *;+Googlebot/2.1;* 404
2011-10-13 02:16:58 *** GET http://www.1ju.org//robots.txt * Baiduspider * 404
2011-10-13 11:12:00 *** GET http://www.1ju.org//robots.txt * Sosospider+ * 404
2011-10-17 01:46:56 GET http://www.1ju.org//robots.txt *;+Googlebot/2.1;* 200

　　

上面的时间是GMT时间，我们是在东八区，加上8小时就是北京时间了。从上面可知，谷歌百度搜搜先后来本站请求robots.txt文件返回404错误，页面无法找到。17日早6点我写了一个robots.txt文件，谷歌第一时间请求该文件，返回200成功状态码。

2011-10-12 15:44:53 *** GET http://www.1ju.org//index.asp *+Googlebot/2.1; * 200
2011-10-12 22:01:23 *** GET http://www.1ju.org//index.asp * Sogou+web+spider/4.0 * 200
2011-10-13 01:22:19 *** GET http://www.1ju.org//index.asp *;+Baiduspider/2.0; * 200
2011-10-14 12:17:47 *** GET http://www.1ju.org//index2.asp *;+Googlebot/2.1;* 200

　　12日晚上21点左右，谷歌爬虫率先请求了我的首页，网站积极响应返回200状态码，搜狗百度紧跟其后。14日为线上测试需要，把默认首页改成index2.asp，并在上面写上蛋蛋的蛋，谷歌不负众望很快收录，三日之后还给我放了出来，让我哭笑不得。
　　请注意红色标记Baiduspider和+Baiduspider/2.0，前面是个先头兵？从上面结果来看，百度貌似跟着谷歌屁股走抓取反映慢半拍。我认为不然，我喜欢用Firefox编辑测试，Firefox有谷歌工具条，并习惯于登录状态。
　　搜索引擎爬虫在不遗余力抓取页面

　　制作了比较全面的站点地图索引和站点地图，向百度和谷歌示好，并作了提交工作。一只（一个IP）谷歌爬虫开始慢个悠悠请求着页面，18日早晨稳定在七百左右的数量级，到此博文发布位置谷歌爬虫一直再爬却不见收录。

googlebot在请求XML站点地图

　　百度于18日晚，放出五条以上爬虫开始大规模践踏行动，因为我发现至少五个不同颜色的标着IP的Baiduspider在迅速行动，此时谷歌在大量日志中不时蹦出一条显然处于弱势了;中间穿插的搜狗、搜搜像戏剧里的丑角，偶尔露个脸跑个场就匆匆走下舞台。

　　关于蜘蛛爬虫的一些后话

　　对于一个新站，任何爬虫都会主动积极的去接触。百度15天才放站那是它玩游戏的习惯做事的法则。我们不可要求百度像谷歌那样怎样，也不能要求谷歌想百度如何，毕竟他们有各自不同的特点。
　　我们在抱怨百度或谷歌的“不作为”，大体是因为没有看到这些爬虫的辛勤劳动。这是我想起了领导隔三差五让我优化关键字，我一直努力在做，可领导一直不满意。或许这里面有着相同的存在。
　　手工查看日志，在网站初期是件有意思的事。因为在没有人知道你网站之前，只有蜘蛛和你在访问你的小站。慢慢的经过你的精心照顾和蜘蛛爬虫的努力工作，小站才有展露头角的机会，这过程仔细想想蕴含着一种感动。
　　此刻已是凌晨，抛开那些让我们省时省力的工具，喝杯咖啡紧盯屏幕看这些无聊繁杂的日志，对我来说似乎成习惯成瘾了。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] 利用APACHE WEB日志挖掘搜索引擎

浏览过的版块

扫码加入运维网微信交流群