搜索引擎
搜索引擎这个庞大的系统如何运作,搜索引擎有三个主要工作环节:
抓取:在互联网上搜索内容,查看他们找到的每个网址的代码/内容。
索引:存储和组织在爬网过程中找到的内容。一旦页面在索引中,它就会在运行中显示为相关查询的结果。
排名:提供最能回答搜索者查询的内容,这意味着结果按最相关的顺序排列。
什么是搜索引擎抓取?
抓取是搜索引擎发送一组机器人(称为爬虫或蜘蛛)以查找新的和更新的内容的发现过程。内容可能会有所不同 - 可能是网页,图片,视频,PDF等 - 但无论格式如何,内容都是通过链接发现的。
搜索引擎漫游器(也称为蜘蛛)会在页面之间爬行以查找新的和更新的内容。Googlebot首先提取几个网页,然后按照这些网页上的链接查找新网址。通过沿着这条链路跳过,爬虫能够找到新的内容并将其添加到名为Caffeine的索引中- 这是一个发现的URL的大型数据库 - 以便在搜索者查找该URL上的内容的信息时进行检索。很好的匹配。
什么是搜索引擎索引?
搜索引擎处理并存储他们在索引中找到的信息,索引是他们发现并认为足以为搜索者提供服务的所有内容的庞大数据库。
搜索引擎排名
当某人执行搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对该内容进行排序,以期解决搜索者的查询问题。搜索结果按相关性排序称为排名。通常,您可以假设网站排名越高,搜索引擎认为该网站对查询的相关性就越高。SEO优化的目的就在于获取更好的排名、展现给用户最佳的信息。
可以阻止部分或全部站点的搜索引擎抓取工具,或指示搜索引擎避免在索引中存储某些页面。虽然可能有理由这样做,但如果您希望搜索者找到您的内容,则必须首先确保爬虫可以访问它并且可以编制索引。否则,它就像看不见一样好。