搜索引擎蜘蛛是什么?

发布于:2018-06-26 06:21:20 | 作者: huidamai

引擎蜘蛛是包罗万象的互联网生态圈中,一台畅行无阻的资源收集器,一条让站长们又爱又恨的蠕虫,为搜索官方不分昼夜工作的机器人;只要你是站长,就会想方设法的讨好它,只要你不了解它的习性,那你的很多工作可能将白干,只要你的行为让它反感,你的工作效率也将大大降低,就是这么任性。


搜索引擎蜘蛛是什么?

蜘蛛抓取的那些事

蜘蛛最初发现你的网站往往是从某一外部链接或站长提交而开始,并为此网站域名进行数据库档案的建立,以方便后期将网站数据汇集至一处;建档以后,蜘蛛会定期的来抓取网站的首页,同时逐步从网站首页的链接爬入下级网页链接,对网站内容进行抓取甄别;再将抓取到的数据放入临时数据库中,就在此时针对网站的初步审核与考察(这一过程大概在半个月左右,整个审核期为期2-6个月)也正式开始了。

之后蜘蛛照旧着来,但你的网站在这半个月左右的时间始终只有一个首页被正常收录(可呈现在搜索中);直到通过初步的考核期,前期被抓取的页面才会被逐步放入到收录索引数据库之中,这时你网站被收录的页面也会丰富起来;而对于站长来说,这仅仅是第一步。

在不断的爬行抓取过程中,蜘蛛慢慢开始了解了你的网站,如内容品质如何,原创内容多吗?网站的规划布局如何?蜘蛛在里面会迷路吗?蜘蛛线好不好爬?网站的更新规律如何?该什么时候来爬更有意义等;蜘蛛也因些对你网站产生第一印象,如果是好的印象,对你网站提前通过审核期是有帮助的,如果是负面的,那么也会为你网站的成长产生负面影响。


蜘蛛独有的UA

每个搜索引擎的蜘蛛都有自已的特征,或者说独有的UA;相关内容我们在搜索引擎蜘蛛爬虫UA汇总中已经有具体描述总结;而这独有的UA我们可以将其用于对搜索引擎蜘蛛的识别统计,例如,在后台,做一个统计页面,这样就可以很方便的查询各蜘蛛们每天来了网站多少次,都爬了些什么页面等等。


吸引蜘蛛的正确姿势

想让蜘蛛常来,就得了解蜘蛛的喜好,摆正姿势,把自已网站打扮成蜘蛛喜欢的样子:

1、扁平的目录结构;

2、URL不含中文字符且较短,最好以拼音或英文单词命名;

3、网页布局合理,层次分明;

4、网站内容保持持续有规律的更新;

5、发布有高品质的原创内容;

6、稳定的WEB服务器;

7、在站内进行适当的锚文本建设;

8、发布适量的外链建设,更多引入蜘蛛进行爬行;

9、使用静态或伪静态URL;


蜘蛛抓取异常

这里的异常有可能抓取频率大幅度降低或根本就不再来抓取,导致的原因一般是因为WEB服务器不稳定,如,ISP运营商网络异常、DNS不稳定、robots设置禁爬、防火墙将蜘蛛IP禁封等等,也可能是网站被搜索引擎官方降权或禁站;不管是什么原因,我们都需要进行排查,了解清楚具体原因是什么:

1、查看出现问题的前几天服务器运行日志,统计日志,及是否存在网站改造、调整等等;

2、通过ping检测WEB服务器是否稳定;

3、检测DNS是否稳定,查看防火墙是否禁封了蜘蛛IP;

4、检测robots设置是否正确;

5、了解网站是否被降权,理论上被降权不会有抓取异常的提示;

6、网站更新频率是否极不稳定,网站内容是否全为采集等。

通过一一排查,找出蜘蛛抓取异常的最终解决办法。


总结:搜索引擎蜘蛛是为搜集互联网网页数据而生,它尤其喜欢有品质的内容及容易让其爬行的“蜘蛛线”,它容易迷路,不喜欢Js链接,也不喜欢动态的URL,更不喜欢千篇一律的内容。


版权声明:本文为原创文章,版权归惠大麦所有,转载时请务必以链接形式注明原始出处和本声明!

昵称:
邮箱:
网址:
发布