郑州seo:网站SEO优化必知搜索引擎工作原理
发布时间:2023-07-16 00:00:00 | 发布者:关键点seo搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
一、抓取:百度抓取网页的工具叫做蜘蛛Spider,这个比喻十分形象,百度蜘蛛或者叫做百度爬虫,在互联网上这张大网上爬行,顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。然后过滤掉低质量、重复甚至是同质化内容,即石榴算法。
过滤:2013年5月,百度推出“石榴算法”,过滤掉采集,同质化以及低质量页面。稀缺度越高越容易被抓取。
石榴算法是百度针对低质量网站的进一步打击的升级版,与之前百度绿萝算法相对应,这正是百度搜索引擎提高用户体验,提高搜索质量的有力手段。
二、收录:搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。然后通过比对去重步骤,(将重复或者没有更新的网页从数据库删除,然后通过先进先出的规则),分词(通过将页面拆分成一个一个词语,去掉形容词、动词、助词等无用内容,然后将剩下的词从互联网中找出出现频率,将中频词与数据库中其他类似页面词语进行比对,从而保留新页面或者更新后的旧页面。
三、排序:排序就是关键词排名。这也是SEO从业者以及企业老板们最为看重的因素,也是SEO从业者的终极目标。(对于老板而言,转化率中的订单量才是对电商 部门的终极要求)。百度根据每个页面的标题,判断内页相关度以后,通过大约一百四十项因素评分以后,会列出某一关键词的排序。
搜索引擎的数据库分为高质量、中质量与低质量三种。高质量索引库的页面也符合二八原则,大约占整个互联网页面的20%,却能够满足80%的搜索引擎用户需求。中低质量索引库里的页面,在一般情况下,是不会参与关键词排名的,或者排名在三十或者百名以后。但是,在某些冷门关键词,在高质量索引库中没有找到结果的,则会从中低索引库中提取关键词并展示出来。
影响百度收录的因素:
1.百度对于老域名网站,收录较快对于新域名网站,以及老域名却被K过的网站收录较慢。
2.主页比内页收录快,新网站刚上线情况下,一般主页会在半个月内实现收录,而内页最迟则会一个半月到两个月才被收录。就要检查未被收录的页面的质量,去丰富这些页面的内容。
3.当内容质量特别高,特别稀缺,理论上是可以实现秒收录的。
4.新闻资讯类网站,通常原创首发的稀缺类网页,尤其是热点新闻,通常都是接近于秒收。相应的,企业站产品页面由于不是热点,收录速度比热门资讯类更慢。
5.网站权重影响收录。权重是搜索引擎对于网站的评级,百度的权重对应的是谷歌的PR值,PR全称page rank,即网页等级的意思。网站权重通常是由0-10,11个评分等级构成,而网站权重又由主页权重和每个页面权重共同组成,某种意义上讲,网站权重可以大致理解为网站所有页面权重的平均值。因此,网站整体权重高的内页,收录比权重低的网站要快的多。所以,企业类网站内页页面的收录通常会受类型不是热门事件以及网站整体权重比资讯类页面低的双重因素作用下,收录要慢得多。
《战国策四》中记载着一个有名的故事,叫做南辕北辙。意思就是说,一个人在努力,准备再充分,选择错了方向就会南辕北辙,有付出却没有收获。每个SEO从业者,以及想要了解SEO的人们,只有先了解了搜索引擎的工作原理,才能保证所有的努力都作对了方向。
关键点SEOhttp://www.keyseo.cn/