设为首页 收藏本站
查看: 1009|回复: 0

[经验分享] 利用APACHE WEB日志挖掘搜索引擎

[复制链接]

尚未签到

发表于 2017-1-8 07:34:02 | 显示全部楼层 |阅读模式
  按奈不住激动你横眉冷对怒发冲冠:百度你是吃屎的吗?该发布的发布了,该提交的提交了,现在都半月过去了,还毫无动静!谷歌?还好了,已经过百了,可一个IP都没有啊!真不明白它们到底干什么去了,反映这么慢。还让不让老子干了?


对了,我网站是不是有问题?你帮我看看……于是,另一番歇斯底里的好戏上场了。在我看来,百度并没有吃屎,恰恰于此相反,他是靠吃我们站长长大的。抛开那些牢骚不说,当我们开始对工作有疑问时,为什么不尝试自己去解决呢?


实际上,当我们开始牢骚时,暗流正在涌动,白纸黑字已经隐藏在日志里了。本文将和大家一起,通过分析网站日志,初步把握百度谷歌等搜索引擎和我们网站的交互情况。特别是网站建立初期,对我们正确评估网站,有着比较重要的指导意义。

认识几个搜索引擎爬虫



Googlebot


谷歌搜索引擎爬虫,当它第一次出现在你网站日志时,谷歌和网站的漫长交往正式开始。Googlebot 是 Google 

的网页抓取机器人(有时称为“信息采集软件”)。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。

Baiduspider


百度蜘蛛,大多数中文网站辛辛苦苦,就是为了有朝一日能和这个蜘蛛搞对眼,对眼了小站也就有油水了。Baiduspider  是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。

Sogou+web+spider


:sogou  spider是搜狗搜索引擎的一个自动程序。它的作用是访问互联网上的网页,存储到本地数据库中,并从中发现新的链接,走访互联网,使用户能在搜狗搜索引擎中搜索到您网站的网页。

ia_archiver


:这个是Alexa的蜘蛛爬虫,和Googlebot、Baiduspider一样,为收集用户数据而存在。


Sosospider+、HuaweiSymantecSpider、MJ12bot、+bingbot、ichiro等等不一而足。我们要对它们来访表现出热情与好客,有朋自远方来,要不亦乐乎?

搜索引擎爬虫第一次到你的网站都干什么?




就如同拜访您的朋友,到你家门口都会礼貌的敲门,吃一两次闭门羹或许尚可忍受,吃多了闭门羹,从此和你一刀两断,能否挽回交情那自要下另一番功夫了,咱们不去讨论。这里看看蜘蛛爬虫第一次到我们网站,它们会先干什么呢?用分析数据说话。


 


    2011-10-12 14:53:22 *** GET http://www.1ju.org//robots.txt *;+Googlebot/2.1;* 404
2011-10-13 02:16:58 *** GET http://www.1ju.org//robots.txt * Baiduspider * 404
2011-10-13 11:12:00 *** GET http://www.1ju.org//robots.txt * Sosospider+ * 404
2011-10-17 01:46:56 GET http://www.1ju.org//robots.txt *;+Googlebot/2.1;* 200

  


 


上面的时间是GMT时间,我们是在东八区,加上8小时就是北京时间了。从上面可知,谷歌百度搜搜先后来本站请求robots.txt文件返回404错误,页面无法找到。17日早6点我写了一个robots.txt文件,谷歌第一时间请求该文件,返回200成功状态码。


    2011-10-12 15:44:53 *** GET http://www.1ju.org//index.asp *+Googlebot/2.1; * 200
2011-10-12 22:01:23 *** GET http://www.1ju.org//index.asp * Sogou+web+spider/4.0 * 200
2011-10-13 01:22:19 *** GET http://www.1ju.org//index.asp *;+Baiduspider/2.0; * 200
2011-10-14 12:17:47 *** GET http://www.1ju.org//index2.asp *;+Googlebot/2.1;* 200

  12日晚上21点左右,谷歌爬虫率先请求了我的首页,网站积极响应返回200状态码,搜狗百度紧跟其后。14日为线上测试需要,把默认首页改成index2.asp,并在上面写上蛋蛋的蛋,谷歌不负众望很快收录,三日之后还给我放了出来,让我哭笑不得。
  请注意红色标记Baiduspider和+Baiduspider/2.0,前面是个先头兵?从上面结果来看,百度貌似跟着谷歌屁股走抓取反映慢半拍。我认为不然,我喜欢用Firefox编辑测试,Firefox有谷歌工具条,并习惯于登录状态。
  搜索引擎爬虫在不遗余力抓取页面

  制作了比较全面的站点地图索引和站点地图,向百度和谷歌示好,并作了提交工作。一只(一个IP)谷歌爬虫开始慢个悠悠请求着页面,18日早晨稳定在七百左右的数量级,到此博文发布位置谷歌爬虫一直再爬却不见收录。
DSC0000.gif

googlebot在请求XML站点地图

  百度于18日晚,放出五条以上爬虫开始大规模践踏行动,因为我发现至少五个不同颜色的标着IP的Baiduspider在迅速行动,此时谷歌在大量日志中不时蹦出一条显然处于弱势了;中间穿插的搜狗、搜搜像戏剧里的丑角,偶尔露个脸跑个场就匆匆走下舞台。
DSC0001.gif

  关于蜘蛛爬虫的一些后话

  对于一个新站,任何爬虫都会主动积极的去接触。百度15天才放站那是它玩游戏的习惯做事的法则。我们不可要求百度像谷歌那样怎样,也不能要求谷歌想百度如何,毕竟他们有各自不同的特点。
  我们在抱怨百度或谷歌的“不作为”,大体是因为没有看到这些爬虫的辛勤劳动。这是我想起了领导隔三差五让我优化关键字,我一直努力在做,可领导一直不满意。或许这里面有着相同的存在。
  手工查看日志,在网站初期是件有意思的事。因为在没有人知道你网站之前,只有蜘蛛和你在访问你的小站。慢慢的经过你的精心照顾和蜘蛛爬虫的努力工作,小站才有展露头角的机会,这过程仔细想想蕴含着一种感动。
  此刻已是凌晨,抛开那些让我们省时省力的工具,喝杯咖啡紧盯屏幕看这些无聊繁杂的日志,对我来说似乎成习惯成瘾了。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-325267-1-1.html 上篇帖子: Apache 提供的StringUtils的工具类 下篇帖子: Apache的Mod_rewrite 例子(转)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表