服务器日志分析说明表

 

 
 

服务器日志分析说明表:

蜘蛛名称:
百度->baiduspider、
产品名称 对应user-agent
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
商务搜索 Baiduspider-ads
 
网页以及其他搜索 Baiduspider
Google ->Googlebot、
Msn ->msnbot、
yahoo ->Slurp、
yodao ->YoudaoBot、
sogou ->Sogou+web+spider
soso ->Sosospider

在日志文件里,搜索以上蜘蛛名称。就可以看到蜘蛛抓取的痕迹。
我们分析的主要点是,HTTP状态码,如以上的200和301。
" 200 5162 " 代表正常抓取,这次抓取了5162个字节。
不同的服务器或虚拟主机设置的日志记录内容不同。
有的如:200 0 33834 237 953  我们通过多看几条记录,观察规律,可以判断第三个数字代表字节数。
有的如:200 0 0或200 0 64  这是没有记录抓取字节数。注意:200 0 0和200 0 64 没代表什么问题。所谓200 0 64代表要被K的言论没有根据,一般的网站都有64代码。
在日志里,发现比较多的HTTP状态码是,200(正常)、304(没变化)、404(错误链接)。
304代表,自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。
404代表,访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。
返回开篇问题:
1、网站刚上线,看搜索引擎蜘蛛的抓取情况;
如果网站提交给搜索引擎2天后,发现日志里蜘蛛不少,并都返回200,则说明已经可以正常收录。
只是Google展示的时间比较快,而百度则需要20天左右(经验平均值)展示出来。
2、网站收录异常,对比日志中蜘蛛的行为情况;
收录正常增加时和现在异常时的日志,进行对比分析。如果没有异常,则应该是搜索引擎展示数据库出问题所致。
如果蜘蛛爬取量明显减少,观察是否外链突然减少很多。
如果日志依然,则认为是搜索引擎的展示问题。
3、解决网站被封问题时,观察日志情况。
网站被封时,往往日志里有百度蜘蛛,但很少,而且往往只访问robots.txt文件和首页。
经过这里的建议修改后,再提交给百度,之后的2天观察日志情况。
如果一直这样的情况维持1个月,可以考虑放弃该域名。
如果蜘蛛明显增加,而且返回200居多,则收录的希望很大,时间问题。
4、好像日志里收录了,但不一定展示出来?
是的。我们可以看到百度蜘蛛和google机器人访问很频繁,但不一定他们都展示出来。
这个目前没有解决办法。但只要它们频繁访问和正常抓取,一切就会很正常。
5、是否有专门分析蜘蛛爬取的工具?
暂时还没有发现,如果你发现了,请告知。谢谢
6、发现日志里蜘蛛情况和之前都一样,但最近收录或排名发生变化,是怎么回事?
这应该属于搜索引擎数据库变更,可以说没有具体对网站进行如何改进来挽救的明显有效措施
 
 
我们做SEO的,一段时间查看自己网站日志是很必要的,可以观察搜索引擎什么时候来访问过自己的站点,访问情况怎么样,这样可以对自己站点的访问情况进行一个大致的了解,方面我们即使进行调整,来使得我们的站点对搜索引擎更加友好。下面就针对搜索引擎访问情况返回的代码进行了一个全面的统计,提供给大家参考:
1xx-信息提示
这些状态代码表示临时的响应。客户端在收到常规响应之前,应准备接收一个或多个1xx响应。
100-继续。
101-切换协议。
2xx-成功
这类状态代码表明服务器成功地接受了客户端请求。
200-确定。客户端请求已成功。
201-已创建。
202-已接受。
203-非权威性信息。
204-无内容。
205-重置内容。
206-部分内容。
3xx-重定向
客户端浏览器必须采取更多操作来实现请求。例如,浏览器可能不得不请求服务器上的不同的页面,或通过代理服务器重复该请求。
301-对象已永久移走,即永久重定向。
302-对象已临时移动。
304-未修改。
307-临时重定向。
4xx-客户端错误
发生错误,客户端似乎有问题。例如,客户端请求不存在的页面,客户端未提供有效的身份验证信息。400-错误的请求。
401-访问被拒绝。IIS定义了许多不同的401错误,它们指明更为具体的错误原因。这些具体的错误代码在浏览器中显示,但不在IIS日志中显示:
401.1-登录失败。
401.2-服务器配置导致登录失败。
401.3-由于ACL对资源的限制而未获得授权。
401.4-筛选器授权失败。
401.5-ISAPI/CGI应用程序授权失败。
401.7–访问被Web服务器上的URL授权策略拒绝。这个错误代码为IIS6.0所专用。
403-禁止访问:IIS定义了许多不同的403错误,它们指明更为具体的错误原因:
403.1-执行访问被禁止。
403.2-读访问被禁止。
403.3-写访问被禁止。
403.4-要求SSL。
403.5-要求SSL128。
403.6-IP地址被拒绝。
403.7-要求客户端证书。
403.8-站点访问被拒绝。
403.9-用户数过多。
403.10-配置无效。
403.11-密码更改。
403.12-拒绝访问映射表。
403.13-客户端证书被吊销。
403.14-拒绝目录列表。
403.15-超出客户端访问许可。
403.16-客户端证书不受信任或无效。
403.17-客户端证书已过期或尚未生效。
403.18-在当前的应用程序池中不能执行所请求的URL。这个错误代码为IIS6.0所专用。
403.19-不能为这个应用程序池中的客户端执行CGI。这个错误代码为IIS6.0所专用。
403.20-Passport登录失败。这个错误代码为IIS6.0所专用。
404-未找到。
404.0-(无)–没有找到文件或目录。
404.1-无法在所请求的端口上访问Web站点。
404.2-Web服务扩展锁定策略阻止本请求。
404.3-MIME映射策略阻止本请求。
405-用来访问本页面的HTTP谓词不被允许(方法不被允许)
406-客户端浏览器不接受所请求页面的MIME类型。
407-要求进行代理身份验证。
412-前提条件失败。
413–请求实体太大。
414-请求URI太长。
415–不支持的媒体类型。
416–所请求的范围无法满足。
417–执行失败。
423–锁定的错误。
5xx-服务器错误
服务器由于遇到错误而不能完成该请求。
500-内部服务器错误。
500.12-应用程序正忙于在Web服务器上重新启动。
500.13-Web服务器太忙。
500.15-不允许直接请求Global.asa。
500.16–UNC授权凭据不正确。这个错误代码为IIS6.0所专用。
500.18–URL授权存储不能打开。这个错误代码为IIS6.0所专用。
500.100-内部ASP错误。
501-页眉值指定了未实现的配置。
502-Web服务器用作网关或代理服务器时收到了无效响应。
502.1-CGI应用程序超时。
502.2-CGI应用程序出错。application.
503-服务不可用。这个错误代码为IIS6.0所专用。
504-网关超时。
505-HTTP版本不受支持。

 
 
分享到:
 

最新文章

相关文章