什么是搜索引擎及搜索引擎的工作原理

来源: 网络编辑: 跨境电商 2024-03-16 09:18:01 用户投稿

答案搜索引擎（Search Engine）是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免

什么是搜索引擎及搜索引擎的工作原理

搜索引擎（Search Engine）是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

工作原理

第一步：爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。

第二步：抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。

第三步：预处理

搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。

⒈提取文字

⒉中文分词

⒊去停止词

5.正向索引

6.倒排索引

7.链接关系计算

8.特殊文件处理

除了HTML 文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如

PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理、视频、Flash

这类非文字内容，也不能执行脚本和程序。

第四步：排名

用户在搜索框输入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程与用户直接互动的。但是，由于搜索引擎的数据量庞大，虽然能达到每日都有小的更新，但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

选择

与网站内容相关

搜索次数多，竞争小

主关键词，不可太宽泛

主关键词，不太特殊

商业价值

提取文字

中文分词

去停止词

消除噪声

去重

正向索引

倒排索引

链接关系计算

特殊文件处理

搜索引擎并不真正搜索互联网，它搜索的实际上是预先整理好的网页索引数据库。

真正意义上的搜索引擎，通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依次排列。

现在的搜索引擎已普遍使用超链分析技术，除了分析索引网页本身的内容，还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以，有时候，即使某个网页A中并没有某个词比如“恶魔撒旦”，但如果有别的网页B用链接“恶魔撒旦”指向这个网页A，那么用户搜索“恶魔撒旦”时也能找到网页A。而且，如果有越多网页（C、D、E、F……）用名为“恶魔撒旦”的链接指向这个网页A，或者给出这个链接的源网页（B、C、D、E、F……）越优秀，那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关，排序也会越靠前。

搜索引擎的原理，可以看做三步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。

建立索引数据库

由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序

当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。

最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引，数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库，也只能占到互联网上普通网页的不到30%，不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念：搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念：如果搜索引擎的网页索引数据库里应该有而你没有搜出来，那是你的能力问题，学习搜索技巧可以大幅度提高你的搜索能力。

回答者：漠北剑侠 - 童生一级 10-14 14:38

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理，本文部分文字与图片资源来自于网络，转载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益，请立即通知我们，情况属实，我们会第一时间予以删除，并同时向您表示歉意,谢谢!
图片声明：本站部分配图来自人工智能系统AI生成,国外stocksnap摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明：本文中引用的各种信息及资料（包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主体（包括但不限于公司、媒体、协会等机构）的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理！本站为非盈利性质站点,本着为中国外贸事业出一份力,发布内容不收取任何费用也不接任何广告!

热门焦点

江苏省泰州市泰兴市过船镇仁寿村邮编是多少
邮编查询为您提供江苏省泰州市泰兴市过船镇仁寿村邮编,江苏省泰州市泰兴市过船镇仁寿村的邮编,江苏省泰州市泰兴市过船镇仁寿村的邮政编码,江苏省泰州市泰兴市过船镇仁寿村的邮政编码是多少,江苏省泰州市泰兴市过船镇仁寿村的邮政编码查询,江苏省泰州市泰兴市过船镇仁寿村的邮政编码快速查询。
01-09
江苏省泰州市泰兴市宁界镇龙王村邮编是多少
邮编查询为您提供江苏省泰州市泰兴市宁界镇龙王村邮编,江苏省泰州市泰兴市宁界镇龙王村的邮编,江苏省泰州市泰兴市宁界镇龙王村的邮政编码,江苏省泰州市泰兴市宁界镇龙王村的邮政编码是多少,江苏省泰州市泰兴市宁界镇龙王村的邮政编码查询,江苏省泰州市泰兴市宁界镇龙王村的邮政编码快速查询。
01-09
江苏省泰州市泰兴市黄桥镇文明南村邮编是多少
邮编查询为您提供江苏省泰州市泰兴市黄桥镇文明南村邮编,江苏省泰州市泰兴市黄桥镇文明南村的邮编,江苏省泰州市泰兴市黄桥镇文明南村的邮政编码,江苏省泰州市泰兴市黄桥镇文明南村的邮政编码是多少,江苏省泰州市泰兴市黄桥镇文明南村的邮政编码查询,江苏省泰州市泰兴市黄桥镇文明南村的邮政编码快速查询。
01-09
江苏省泰州市泰兴市古溪镇宝塔路邮编是多少
邮编查询为您提供江苏省泰州市泰兴市古溪镇宝塔路邮编,江苏省泰州市泰兴市古溪镇宝塔路的邮编,江苏省泰州市泰兴市古溪镇宝塔路的邮政编码,江苏省泰州市泰兴市古溪镇宝塔路的邮政编码是多少,江苏省泰州市泰兴市古溪镇宝塔路的邮政编码查询,江苏省泰州市泰兴市古溪镇宝塔路的邮政编码快速查询。
01-09
江苏省泰州市泰兴市横垛镇横垛村邮编是多少
邮编查询为您提供江苏省泰州市泰兴市横垛镇横垛村邮编,江苏省泰州市泰兴市横垛镇横垛村的邮编,江苏省泰州市泰兴市横垛镇横垛村的邮政编码,江苏省泰州市泰兴市横垛镇横垛村的邮政编码是多少,江苏省泰州市泰兴市横垛镇横垛村的邮政编码查询,江苏省泰州市泰兴市横垛镇横垛村的邮政编码快速查询。
01-09
江苏省泰州市泰兴市横垛镇育才路邮编是多少
邮编查询为您提供江苏省泰州市泰兴市横垛镇育才路邮编,江苏省泰州市泰兴市横垛镇育才路的邮编,江苏省泰州市泰兴市横垛镇育才路的邮政编码,江苏省泰州市泰兴市横垛镇育才路的邮政编码是多少,江苏省泰州市泰兴市横垛镇育才路的邮政编码查询,江苏省泰州市泰兴市横垛镇育才路的邮政编码快速查询。
01-09
江苏省泰州市泰兴市黄桥镇永丰后园邮编是多少
邮编查询为您提供江苏省泰州市泰兴市黄桥镇永丰后园邮编,江苏省泰州市泰兴市黄桥镇永丰后园的邮编,江苏省泰州市泰兴市黄桥镇永丰后园的邮政编码,江苏省泰州市泰兴市黄桥镇永丰后园的邮政编码是多少,江苏省泰州市泰兴市黄桥镇永丰后园的邮政编码查询,江苏省泰州市泰兴市黄桥镇永丰后园的邮政编码快速查询。
01-09
江苏省泰州市泰兴市泰兴镇羌溪花园邮编是多少
邮编查询为您提供江苏省泰州市泰兴市泰兴镇羌溪花园邮编,江苏省泰州市泰兴市泰兴镇羌溪花园的邮编,江苏省泰州市泰兴市泰兴镇羌溪花园的邮政编码,江苏省泰州市泰兴市泰兴镇羌溪花园的邮政编码是多少,江苏省泰州市泰兴市泰兴镇羌溪花园的邮政编码查询,江苏省泰州市泰兴市泰兴镇羌溪花园的邮政编码快速查询。
01-09
江苏省泰州市泰兴市古溪镇邮编是多少
邮编查询为您提供江苏省泰州市泰兴市古溪镇邮编,江苏省泰州市泰兴市古溪镇的邮编,江苏省泰州市泰兴市古溪镇的邮政编码,江苏省泰州市泰兴市古溪镇的邮政编码是多少,江苏省泰州市泰兴市古溪镇的邮政编码查询,江苏省泰州市泰兴市古溪镇的邮政编码快速查询。
01-09
江苏省泰州市泰兴市泰兴镇保健巷邮编是多少
邮编查询为您提供江苏省泰州市泰兴市泰兴镇保健巷邮编,江苏省泰州市泰兴市泰兴镇保健巷的邮编,江苏省泰州市泰兴市泰兴镇保健巷的邮政编码,江苏省泰州市泰兴市泰兴镇保健巷的邮政编码是多少,江苏省泰州市泰兴市泰兴镇保健巷的邮政编码查询,江苏省泰州市泰兴市泰兴镇保健巷的邮政编码快速查询。
01-09
江苏省泰州市泰兴市泰兴镇华泰公寓邮编是多少
邮编查询为您提供江苏省泰州市泰兴市泰兴镇华泰公寓邮编,江苏省泰州市泰兴市泰兴镇华泰公寓的邮编,江苏省泰州市泰兴市泰兴镇华泰公寓的邮政编码,江苏省泰州市泰兴市泰兴镇华泰公寓的邮政编码是多少,江苏省泰州市泰兴市泰兴镇华泰公寓的邮政编码查询,江苏省泰州市泰兴市泰兴镇华泰公寓的邮政编码快速查询。
01-09
江苏省泰州市泰兴市泰兴镇中华巷邮编是多少
邮编查询为您提供江苏省泰州市泰兴市泰兴镇中华巷邮编,江苏省泰州市泰兴市泰兴镇中华巷的邮编,江苏省泰州市泰兴市泰兴镇中华巷的邮政编码,江苏省泰州市泰兴市泰兴镇中华巷的邮政编码是多少,江苏省泰州市泰兴市泰兴镇中华巷的邮政编码查询,江苏省泰州市泰兴市泰兴镇中华巷的邮政编码快速查询。
01-09
江苏省泰州市泰兴市泰兴镇西鞠家巷邮编是多少
邮编查询为您提供江苏省泰州市泰兴市泰兴镇西鞠家巷邮编,江苏省泰州市泰兴市泰兴镇西鞠家巷的邮编,江苏省泰州市泰兴市泰兴镇西鞠家巷的邮政编码,江苏省泰州市泰兴市泰兴镇西鞠家巷的邮政编码是多少,江苏省泰州市泰兴市泰兴镇西鞠家巷的邮政编码查询,江苏省泰州市泰兴市泰兴镇西鞠家巷的邮政编码快速查询。
01-09
江苏省泰州市泰兴市泰兴镇三泰新村邮编是多少
邮编查询为您提供江苏省泰州市泰兴市泰兴镇三泰新村邮编,江苏省泰州市泰兴市泰兴镇三泰新村的邮编,江苏省泰州市泰兴市泰兴镇三泰新村的邮政编码,江苏省泰州市泰兴市泰兴镇三泰新村的邮政编码是多少,江苏省泰州市泰兴市泰兴镇三泰新村的邮政编码查询,江苏省泰州市泰兴市泰兴镇三泰新村的邮政编码快速查询。
01-09
江苏省泰州市泰兴市南沙镇唐港村邮编是多少
邮编查询为您提供江苏省泰州市泰兴市南沙镇唐港村邮编,江苏省泰州市泰兴市南沙镇唐港村的邮编,江苏省泰州市泰兴市南沙镇唐港村的邮政编码,江苏省泰州市泰兴市南沙镇唐港村的邮政编码是多少,江苏省泰州市泰兴市南沙镇唐港村的邮政编码查询,江苏省泰州市泰兴市南沙镇唐港村的邮政编码快速查询。
01-09