搜索引擎中每个网站的相关信息都是主动从用户的网页中提取的,所以从用户的角度来说,我们有更多的自主权;但是,目录索引要求必须填写网站信息,并且有各种限制。更何况,如果工作人员认为你提交的目录和网站信息不合适,他可以随时调整,但当然不会提前和你商量。
搜索引擎分类
搜索引擎根据工作方式可以分为三种:
它们是全文搜索引擎。
目录索引搜索引擎(搜索索引/目录)
元搜索引擎(Meta Search Engine)。
全文搜索引擎
全文搜索引擎是当之无愧的搜索引擎,以Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等为代表。在国外和中国的。都是从互联网上各种网站(主要是网页)提取信息,检索与用户查询条件匹配的相关记录,然后按照一定的顺序将结果返回给用户而建立的数据库,所以是真正的搜索引擎。
从搜索结果的来源来看,全文搜索引擎可以细分为两种类型。一是要有自己的索引器,俗称“蜘蛛”程序或“机器人”程序,建立自己的web数据库。搜索结果直接从自己的数据库调用,比如上面提到的七个引擎;另一种是租用其他引擎的数据库,按照自己的模式显示搜索结果。
当用户通过关键字搜索信息时,搜索引擎会在数据库中进行搜索。如果找到了与用户请求的内容相匹配的网站,则使用特殊算法——,根据网页中关键词的匹配度、位置、频率和链接质量,计算每个网页的相关性和排名等级,然后根据相关性的不均匀性,将这些网页按顺序链接回用户。这类引擎的特点是搜索召回率高。搜索索引/目录
虽然有搜索功能,但严格意义上不能称之为真正的搜索引擎,只是按目录分类的网站链接列表。(更简单的说是网站导航网站)
用户可以完全按照分类目录找到需要的信息,不需要依靠关键词进行查询。最有代表性的目录索引是著名的雅虎和新浪分类目录搜索。
目录索引,顾名思义,就是将网站存储在不同类别对应的目录中。因此,用户在查询信息时,可以选择关键词进行搜索,也可以按照分类目录逐层搜索。如果按关键词搜索的话,结果会和搜索引擎一样,网站会根据信息的相关程度进行排名,但是会有更多的人为因素。如果您按层次目录搜索,目录中网站的排名由标题字母的顺序决定(有例外)。
元搜索引擎在接受用户的查询请求时,会在其他引擎上一起搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。(元搜索引擎列表),中文有代表性的元搜索引擎是搜星搜索引擎。在放置搜索结果方面,有的直接按照原点引擎放置搜索结果,比如Dogpile,有的按照自定义规则从头放置结果,比如Vivisimo。
搜索引擎的技能架构
优秀的搜索引擎需要杂乱的架构和算法来支持海量数据的获取和存储,以及对用户查询的准确响应。从架构层面来说,搜索引擎需要获取、存储和处理数十亿个网页的能力,同时保证搜索结果的质量。这么庞大的数据怎么获取、存储、计算?如何回复用户的查询?如何让搜索结果满足用户的信息需求?
搜索引擎架构
爬行网页搜索引擎:的信息源来自互联网网页,互联网信息通过web爬虫在本地获取。由于互联网网页中相当大比例的内容完全相同或近似重复,因此“网页重复删除”模块将检测到这一点并删除重复的内容。
建立索引:抓取网页后,搜索引擎会对网页进行分析,提取网页的主要内容和相关信息(包括网页位置的URL、编码类型、网页内容中包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等。).根据一定的相关性算法,我们做了大量的随机核算,得到每个网页对于页面内容和超链接中每个关键词的相关性(或重要性),然后利用相关信息建立网页索引。为了加快对用户查询的响应速度,通过高效的“倒排索引”查询数据结构保存网页内容,同时保存网页之间的链接。
之所以要保存链接关系,是因为这个关系可以用在Web F的相关性排序阶段,可以通过‘链接分析’来判断页面的相对重要性,对于用户提供准确的搜索结果非常有帮助。由于网页太多,搜索引擎不仅需要保存网页的原始信息,还需要保存一些中心的处理结果。用单台机器或者少量机器显然是不现实的。以上是搜索引擎如何获取和存储海量网页相关信息。这些功能可以看作是搜索引擎的后台计费系统,因为它们不需要实时计费。
查询词分析
搜索引擎最重要的目的是为用户提供准确、全面的搜索结果。如何实时响应用户的查询并提供准确的结果,构成了搜索引擎的前台计费系统。搜索引擎在接收到用户的查询词时,首先要求的是对查询词进行分析,希望通过将查询词与用户信息结合起来,正确推导出用户真正的搜索目的。之后首先在缓存中搜索。搜索引擎的缓存系统存储对应于不同查询目的的搜索结果。如果能在缓存系统中找到满足用户需求的信息,就可以直接将搜索结果返回给用户,既节省了重复核算的资源成本,又加快了响应速度;
搜索结果排序
如果缓存中存储的信息不能满足用户的需求,搜索引擎需要调用“网页排序”的功能,根据用户的查询实时检查哪些网页满足用户的信息需求,并将输出排序为搜索结果。在网页排名中最重要的两个参考因素中,一个是内容相似性因素,即哪些网页与用户查询密切相关;另一个因素是网页的重要性,也就是哪些网页质量好,可能比较重要,往往可以从链接分析的结果中得到。结合以上两方面的考虑,我们可以将网页排序为用户查询的搜索结果。
本文链接地址: 网站搜索引擎的分类和技能结构http://www.021hy.net/yy/202103123815.html