抓取数据的规则，搜索引擎蜘蛛爬取网站

作者： admin 发布时间： 2019-09-16 16:41

搜索引擎蜘蛛的爬行规则如下：

1，搜索引擎蜘蛛应该能够看到链接文本

这是搜索引擎蜘蛛在抓取时可以检索的文本。如果通过JavaScript调用文本或链接，则蜘蛛无法检索它。页面文本内容的主要内容位置越多，它就越有利。例如，产品名称位于页面的前面位置，页面的产品关键字的排名更有利。

2.搜索引擎蜘蛛可以抓取未经nofollow处理的链接

此项列出了可以检索蜘蛛可以访问网站其他页面的链接的搜索引擎蜘蛛。链接越高，它们被蜘蛛抓取的可能性就越大，搜索引擎就越有可能将它们编入索引。

3，搜索引擎蜘蛛可以找到图像链接并可以读取这些图像的含义

该页面主要显示搜索引擎蜘蛛和国际W3C标准化监视器检索到的图像。搜索引擎可以根据='处的图片判断图片的类型，性质和主题。判断图片链接页面的主题非常有用，可以有效提高商品显示页面的搜索引擎排名。根据W3C标准，页面上的所有图片都必须使用alt=''图片进行注释。徽标使用网站名称添加简短描述。商品图片使用商品名称，框架图片留空。

4.搜索引擎蜘蛛可以很好地识别HTML代码

模拟抓取页面的搜索引擎蜘蛛，获取“最简单的代码->它指的是过滤CSS和JavaScript后的代码。从中可以看出，减少额外的代码空间非常重要，如空行，换行符，空格等。

本文链接地址：抓取数据的规则，搜索引擎蜘蛛爬取网站http://www.021hy.net/yh/20190916718.html