页面抓取
网站制作需要注意搜索爬虫能否抓取到重要页面,对于网站建设而言大多数信息都是直接展示给用户的,同时也是对搜索引擎开放的。
搜索引擎可以通过抓取来查找您网站的某些部分,但其他网页或部分可能会因某种原因而无法发现进行抓取。需要确保搜索引擎能够发现你想要被抓取收录的全部信息,而不仅仅是网站的首页,这一点非常重要。
自查:搜索机器人能否顺利的抓取网站的所有页面,通常会有以下情况导致搜索引擎无法抓取到部分页面。
需要抓取的部分内容是否需要登录后才能看到?
如果您要求用户在访问某些内容之前登录,那么这些能搜索引擎是无法抓取并索引的,页面搜索引擎将无法看到这些受保护的页面,搜索引擎爬虫绝对不会登录。解决这个问题的办法是要么对所有用户开放浏览,包括搜索引擎;要么是判断访问者是普通用户,还是搜索引擎,是普通用户就需要登录才能浏览,是搜索引擎则直接开放无需登录。
内容是否依赖搜索表单才能展现出来?
搜索机器人(蜘蛛)无法使用搜索表单。有些人认为,如果在自己的网站上放置搜索框,搜索引擎就能找到访问者搜索的所有内容。这一点大错特错。
重要内容文本是否隐藏在非文本内容中?
非文本媒体包括(图像,视频,GIF等)不应用于希望搜索引擎抓取收录的信息。虽然搜索引擎在识别图像方面越来越好,但仍无法保证他们能够阅读和理解图像。最好在网页的<HTML>标记中添加文本。
搜索引擎可以正常爬取网站导航吗?
搜索引擎的抓取工具需要通过其他网站的链接发现您的网站一样,它需要您自己网站上的链接路径,以便在页面之间引导抓取。如果你有一个页面,你希望搜索引擎找到它,但它没有链接到任何其他页面,它就像看不见一样好。许多网站都以搜索引擎无法访问的方式构建导航,从而阻碍了他们在搜索结果中列出的可能。
网站建设设计环节对网站的结构设计时一定要多从网站优化的角度多考虑。避免诸多搜索引擎无法抓取的问题发生。