这把这种情况叫做“抓取异常”,对于大量内容无法正常抓取的网站,搜索引擎会认为网站存在用户体验上的缺陷,并会降低对网站的评价。使网站在抓取、索引、排序上都会受到一定程度的负面影响,最终影响网站从百度获取流量。那么导致百度蜘蛛不能爬行网站的原因有哪些呢?下面百恒网络就来和大家介绍一下。
一、服务器连接异常
服务器连接异常有两种情况:一种是站点不稳定,蜘蛛尝试连接网站的服务器时出现暂时无法连接的情况;另一种是蜘蛛一直无法连接网站的服务器。
造成服务器连接异常的原因通常是网站服务器过大,超负荷运转,也有可能是网站运行不正常。这时应检查网站的Web服务器是否安装且正常运行,并使用浏览器检查主要页面能否正常访间。网站和主机还可能会阻止蜘蛛的访问,这时需要检查网站和主机的防火墙。
二、网络运营商异常
国内的网络运营商主要有电信和联通。如果蜘蛛无法通过电信或联通的网络访问网站,则需要与网络运营商联系,购买拥有双线服务的空间,或者购买CDN服务。
三、DNS异常
当蜘蛛无法解析网站的IP地址时会出现DNS异常,这可能是网站IP错误或者域名服务商把蜘蛛封禁所致。可以使用WHOIS或者host查询网站的IP地址是否正确且可解析,如果不正确或无法解析,应与域名注册商联系,更新IP地址。
四、IP封禁
IP封禁是指限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,这里特指封禁蜘蛛的IP地址。当网站不希望蜘蛛访问时,才需要进行该设置。如果希望蜘蛛访问网站,应检查相关设置中是否误添加了蜘蛛的IP地址。也有可能是网站所在的空间服务商封禁了百度的IP地址,这时需要联系服务商更改设置。
五、死链
页面已经无效,无法对用户提供任何有价值信息的页面就是死链,包括协议死链和内容死链两种形式。协议死链,即页面的Tcp/http协议状态明确表示的死链,常见的有404,402、502状态等。内容死链,即服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面的死链。
对于死链,百恒网络建议使用协议死链,并通过站长平台一死链工具提交,以便百度更快地发现死链,减少死链对用户及搜索引擎造成的负面影响。