太原深度理解搜索引擎工作原理

阅读  ·  发布日期 2018-10-31 08:50  ·  admin

通过前面的学习,相信各位也已经了解了SEO的一些基本理论知识。那么今天继续由广州新川教育的SEO专家庞洪老师为大家深入地分析搜素引擎的工作原理,这对于更深层地理解SEO非常重要,知己知彼才能百战百胜。一些SEO从业者总是喜欢讲眼光放得非常高,认为这些基本理论没有什么值得研究的价值,成天幻想着获得SEO的秘籍,让网站一夜成名。这是不现实的,也脱离不SEO的本质。



搜索引擎蜘蛛spider,一个很形象的名字。把互联网比喻成一个蜘蛛网,那么spider就是在网上爬来爬去的蜘蛛。搜索引擎蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循坏下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么搜索引擎蜘蛛就用这样方法把互联网上所有的网页都抓取下来。



搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是天),搜索引擎主动派出“蜘蛛”程序。对一定IP地址范围内的互联网网站进行检索。一旦发现发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。



另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址。它在一定时间内(天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。随着搜索引擎索引规则发生很大变化,主动提交网址并不能不保证你的网站进入搜索引擎数据库,最好的办法是多获得一些外部链接,让搜索引擎有更多的机会找到你并自动将你的网站收录。



当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻。如果找到与用户要求内容相符的网站,便采特殊的算法---通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量--计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些链接返回给用户。这种引擎的特定是搜全率比较高。



目录索引也称为“分类检索”,是因特网上最早提供www资源查询的服务。它主要通过搜集和整理因特网的资源,根据搜索到网页的内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。目录索引无须输入如何文字,只要根据网站提供的主题分类目录,层层点击进入,便可查到所需的网络信息资源。



它虽然有搜索功能,但在严格意义上,不能被称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不需依靠关键词进行查询。



首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功;而目录索引对网站的要求则高得多,有时登录多次也不不一定成功。尤其像Yahoo这样的超级索引,登录更是困难。



此外,在登录搜索引擎时,一般不用考虑网站废分类的问题,而登录目录搜索引时则必须将网站放在一个最合适的目录。



最后,搜索引擎中个网站的有关信息都是从用户网页自动提取的,所以从用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写的网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,她可以随时对其进行调整,当然事先是不会和你商量的。



注:搜索引擎与目录索引有相互融洽参透的趋势。一些纯粹的全文搜索引擎也提供目录搜索,如Google就借用open directory提供分类查询,而像Yahoo这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围,在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如中国的搜狐、新浪、网易等;而另一些则默认的是网页搜索,如Yahoo,这种引擎的特点是找的准确率比较高。



元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有infospace、dogpile、vivisimo等,中文元搜索引擎中具有代表性的是搜索引擎,在搜索结果排列方面,有的直接按来源排列搜索结果,如dogpile;有的则按自定的规则将结果重新排列组合,如vivisimo。