IIS日志分析

第五章:IIS日志分析
一、IIS日志是什么
对于SEO从事人员来说IIS应该是经常听到的名词,可是很多人却不知道怎么运用,对IIS日志的了解并不彻底,其实大多数人说的IIS日志这个叫法并不正确,正确的说法应该是服务器日志,造成这个误会的说法是因为现在市面上的IIS服务器所占市场比例高,很多人用的空间都是IIS服务器的,现在市面上主流存在两个服务器,IIS服务器和Apache服务器,所以正确的说法应该是服务器日记,服务器日志是每个服务器管理者都必须学会查看的,服务器的一些状况和访问IP的来源都会记录在服务器日志中,所以服务器日志对每个服务器管理者非常的重要,seoer也不例外,这点同时也可方便网站管理人员查看网站的运营情况。
二、IIS日志分析的目标
1、通过分析每天爬取的数量,停留的时间等来了解搜索引擎对于网站的评价。
2.掌握根据搜索引擎爬取的记录直接来分析网站的状况。
3.根据日志记录可以提前预防危机。
三、如何分析IIS日志
如何看日志:
第一步:日志是由服务商提供。
得问清楚是否提供这样的功能、设置。
第二点:如何下载日志、以及日志的设置要求。
建议:日志以小时为时间段来生存,因为文件大小比较大,会使电脑死机。
指点生成到指点文件夹,买的空间。链接ftp后可以直接看到的日志文件夹。
第三步:如何分析。
选择格式里面的自动换行。
编辑里面有个查找功能,ctrl+f 查找百度蜘蛛baiduspider
和google机器人。googlebot
IIS日志为例
1.打开IIS日志服务器日志
#Software: Microsoft Internet Information Services 7.5
#Version: 1.0
#Date: 2012-04-16 05:00:00
#Fields: date time s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status time-taken
这个是IIS日志头部的文件说明,第一行(software),第二行(Version)都是说明这个日志是在一个什么样的IIS版本下生产的,第三行(Data)是一个生成日期,第四行(Fields)是文件格式,同时也是非常重要的,这个文件格式对应说明了下面生成日志数值的具体意思。
2.文件格式详细解答
date time 爬行时间
s-ip 服务器IP地址
cs-method GET命令
cs-uri-stem 用户访问iis的资源
cs-uri-query 客户端正在尝试执行
s-port服务器端口
cs-username 用户名
c-ip cs(User-Agent)客户IP
sc-status 协议状态
sc-substatus sc-win32-status win32状态 (200正常、404是找不到文件、304网页内容未改变等)
time-taken所用时间
四、案例讲解
220.181.108.184 – - [15/May/2012:06:57:50 +0800] “GET /office/shuzichuanmeidasha.html HTTP/1.1″ 301 338 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
220.181.108.172 – - [15/May/2012:06:57:50 +0800] “GET /office/shuzichuanmeidasha.html HTTP/1.1″ 404 816 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
为什么要反复访问301在访问404的情况?我们继续分析日志
220.181.108.174 – - [15/May/2012:08:39:35 +0800] “GET / HTTP/1.1″ 301 308 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
这是爬取的是根目录,出现了301,根据上面情况,他爬取301后在在爬取一个正常的。
220.181.108.187 – - [15/May/2012:08:39:36 +0800] “GET / HTTP/1.1″ 200 9846 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
百度的IP:187爬取的是200,174爬取的是301,172爬取是404
回顾:
301 是IP 174
220.181.108.187 – - [15/May/2012:08:39:36 +0800] “GET / HTTP/1.1″ 200 9846 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
404 是IP172
220.181.108.172 – - [15/May/2012:06:57:50 +0800] “GET /office/shuzichuanmeidasha.html HTTP/1.1″ 404 816 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
301 是IP184
220.181.108.184 – - [15/May/2012:06:57:50 +0800] “GET /office/shuzichuanmeidasha.html HTTP/1.1″ 301 338 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

404 是IP 174

220.181.108.140 – - [15/May/2012:06:51:13 +0800] “GET /office/guanjingxiezilou.html HTTP/1.1″ 404 816 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

404 是IP 140

220.181.108.140 – - [15/May/2012:06:51:13 +0800] “GET /office/guanjingxiezilou.html HTTP/1.1″ 404 816 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

301 是IP 153

220.181.108.153 – - [15/May/2012:06:51:11 +0800] “GET /office/guanjingxiezilou.html HTTP/1.1″ 301 336 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

404 是IP 97

220.181.108.97 – - [15/May/2012:05:16:41 +0800] “GET /office/tianyuandasha.html HTTP/1.1″ 404 816 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

200 是IP 145 正常的

220.181.108.145 – - [15/May/2012:08:39:41 +0800] “GET /thread-99-1-1.html HTTP/1.1″ 200 8712 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

200 是IP 80 正常的

220.181.108.80 – - [15/May/2012:08:39:44 +0800] “GET /thread-100-1-1.html HTTP/1.1″ 200 8306 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

200 是IP 123.125.71.45 它是联通的IP 又一个百度IP段 123.125.71.*

123.125.71.45 – - [15/May/2012:09:41:30 +0800] “GET /thread-103-1-1.html HTTP/1.1″ 200 7577 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

假IP 125.90.93.141

125.90.93.141 – - [15/May/2012:10:04:30 +0800] “GET / HTTP/1.1″ 200 9823 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

200 是IP 79

220.181.108.79 – - [15/May/2012:10:33:07 +0800] “GET /thread-100-1-1.html HTTP/1.1″ 200 8305 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

百度的

220.181.108.184 – - [15/May/2012:10:33:32 +0800] “GET /thread-99-1-1.html HTTP/1.1″ 200 9222 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

百度的

220.181.108.176 – - [15/May/2012:11:23:11 +0800] “GET /forum-37-1.html HTTP/1.1″ 200 6781 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

百度的

220.181.108.185 – - [15/May/2012:11:30:25 +0800] “GET /forum-46-1.html HTTP/1.1″ 200 7819 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

假IP

125.90.93.141 – - [15/May/2012:12:25:13 +0800] “GET / HTTP/1.1″ 200 9888 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

百度的

220.181.108.80 – - [15/May/2012:12:35:09 +0800] “GET / HTTP/1.1″ 200 9930 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

百度的

220.181.108.89 – - [15/May/2012:12:35:11 +0800] “GET /space-username-%CB%C4%C0%C9.html HTTP/1.1″ 200 5249 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

统计:

假的 125.90.93.141 125.90.93.141

404 是IP 220.181.108.97 220.181.108.140 220.181.108.172

301 是IP 220.181.108.153 220.181.108.184 220.181.108.187

五、总结

我们是不能使用IP工具查询日志,必须人工,假IP很多。数据太多把日志以小时记录保存,进行抽样统计。

我们来做3个总结:

1、我们要计算并且统计的百度蜘蛛的IP以及IP段

2、我们要统计出来那些蜘蛛的IP出现异常,我们以后的工作具有参考意义

3、我们要统计蜘蛛抓取的是我们那些页面,以及抓取页面的频率

1.了解蜘蛛对网站的基本爬取情况,可以知道蜘蛛的爬取轨迹和爬取量、参考考察外链的发布效果。

2.提前预警:服务器的稳定性和服务器的打开速度。

3.网站的哪些页面受到蜘蛛的喜欢,蜘蛛抓取的高峰和低谷,了解网站的状况。知道哪些蜘蛛来爬过,收到哪些蜘蛛的喜欢,对哪些损耗服务器资源的蜘蛛进行屏蔽。

本文固定链接: http://www.boboseo.com/seojiaocheng/177.html | 无锡SEO

该文章由 无锡seo 于2012年05月18日发表在 SEO高级课 分类下, 访客可以发表评论,并在保留原文地址及作者的情况下引用到你的网站或博客!
原创文章,转载请注明: IIS日志分析 | 无锡SEO
【上一篇】
【下一篇】
收缩