如何引起搜索引擎蜘蛛、机器人、爬虫的关注

时间:2017-12-18 19:58来源:SEO爱好者

    搜索引擎蜘蛛、机器人和爬虫是你的朋友。如果要进行SEO,你不只需要喜欢它们,同时你真的需要特意地把它们吸引到你的网站上来。

    在SEO中,蜘蛛、机器人、爬虫大体上讲的是同一种东西,但是别过分担忧——它们都没有腿和触角。所以,让我们统一用“爬虫(crawler)”这个词来称呼它们。请牢记,有时你需要吸引这些机器人,或者把你的网站伪装成“蜘蛛诱饵”。这都属于同一个原则。

    那么,什么是爬虫?为什么我们要把它请到我的网站上来呢。

    如何引起搜索引擎蜘蛛、机器人、爬虫的关注

    爬虫是一种程序,或者是一段自动化的脚本(经常被称为bot,即robot的缩写),它在网上不停辛勤奔跑以各个URL上去。爬虫通过它们所浏览的页面上面的链接从一个URL爬到另一个URL上去。

    主流搜索引擎接连不断地将它们的爬虫派出去浏览广阔的互联网。爬虫首先找到各个页面,然后把页面上的文本和代码复制并储存在它们巨大的索引服务器上,这个过程叫作爬行(spidering)。这个巨大的索引,实际上就是一个包含搜索引擎爬虫可以成功访问到的所有网站页面的数据库。该索引被用来作为当你搜索时,可以非常快速地得以一个结果的仓库。当你在一个例如Google的搜索引擎上输入一个搜索词并提交,你实际搜索的是这个仓库的全部内容,而不是当时互联网上的实际内容。

    当然,页面会变化。有时,网页和网站的变化周期非常短。除此之外,新的网站和网页随时都在快速出现。这也是为什么爬虫始终都在互联网上不停地爬行,一遍又一遍地浏览网页,并且建立和更新搜索引擎的索引信息。

    搜索引擎索引库里面的内容是爬虫看到的内容

    搜索引擎索引库里面的内容是爬虫浏览网页时看到的内容。爬虫所看到的内容可能和一般的访问者看到的内容大相径庭。如果你想查看爬虫看到的某个网页的内容是什么,你可以使用浏览器来访问它,然后在页面上“右键——>查看源代码”,你所看到的代码和文本就是搜索引擎爬虫所看到的。

    深入了解搜索引擎蜘蛛的“性格”

    首先也是最重要的一点是,爬虫将它们爬过的每个页面的它和词组合起来。它们索引文本和链接。当你在搜索框中输入一个搜索词时,搜索引擎尽量精确地找出和搜索词组最匹配的网页给你展示出来,从而帮助你找到有用的信息。

    不同的搜索引擎有它们独具特色的爬虫,和你所期料的一样,它们不是都以完全一样的方式来运行。有些爬虫获取页面上全部的内容,而有些可能只是对其中某些部分感兴趣。大部分爬虫都认为,页面的标题以及靠近页面顶部的内容,比远在页面下面的内容更重要。爬虫在爬行网站时经常遇到障碍,比如说,在网站上,没有让它们继续爬行的链接,或者它们遇到了由怪异技术或代码造成的问题。爬虫还可能由于遇到技术障碍,而进入陷阱(比如:页面上的内容设置成回复后可见),从而使它们不能轻易完成工作。

    所以,任何SEO工作第一步的重要部分都是让爬虫更容易发现和爬行你的网站。如果你的网站没有被爬虫爬过,它们也就不会建立关于你网站的搜索引擎索引。如果网页没有在索引当中,搜索者也不会在搜索引擎中找到它,也就无法从搜索引擎上获得流量,因为搜索引擎认为那个页面根本就不存在,或者没有内容。与此同时,搜索者可能找到其他网页,并且很有可能是你的竞争对手的网页。

    链接和精心设计的网站结构是建立网站栏目、个体网页与及其他站内页面之间关系的桥梁。这将给爬虫提供良好的爬行道路。

    深入了解搜索引擎蜘蛛的性格

    如何帮助搜索引擎蜘蛛顺利抓取页面?

    建立sitemap(即网站地图),它是帮助搜索引擎爬虫抓取网站的最简单的方法之一。sitemap是一个给爬虫提供网站页面URL清单——至少是网站拥有者希望爬虫看到的地址清单的文件(通常是xml格式)。sitemap中还可以包括针对每个URL的附加信息,例如页面的更新时间、更新频率,以及相对于网站上其他内容的重要度(例如,首页要比“联系我们”页面更为重要)。

    sitemap所提供的信息可以帮助搜索引擎爬虫更智能地抓取网站。目前几呼所有搜索引擎都接受网站管理者提交sitemap的请求。然而需要注意的是,没有任何一家搜索引擎公司保证sitemap上的所有URL都会被抓取或者被索引。

    sitemap对于那些提供不容易被直接浏览到的信息的网站来说十分有用,例如有些站点存储了大量的档案或者信息数据库,这些信息是通过用户检索才能看到的。请记住,爬虫只是根据链接来抓取信息,而通常情况下,这样的信息是缺乏链接指向的。

    原文出自:https://www.seoihao.com/seobook/10/2.html
    搜索引擎蜘蛛爬虫 人阅读