SEO基础教程,百度搜索引擎如何鉴别网页内容意义

首页-SEO学院-SEO教程-当前页面

发布日期:2018-08-07阅读:27

  搜索引擎每一天处理着几十亿的查询需求,每一个查询需求都意味了一个用户对某些信息的特殊需要。不同的阶段,通过查询返回的网站结果,这需要被满足了,咱们能觉得结果中的某些页相对特殊用户的特殊需要产生了价值。

SEO基础教程.jpg

  那对搜索引擎而言,页面的价值指的是什么,咱们为何要研究内容意义,手法上应该如何鉴别内容的意义呢?此文将慢慢解析这疑问。


一、什么内容意义以上咱们说了,某个页面满足了某一用户的特殊需要,就显现了这种页相对用户的价值。

  那对搜索引擎而言,价值体眼下哪些层面呢?一个简单的推论,全部可能会对用户产生意义的内容都是对于搜索引擎有意义的,将这页面建入搜索引擎的索引中可以满足最终查找到它们用户的需要,咱们称这种意义为查找价值。如果是能解决某个用户内容需要的,而且是可以通过某些普通查找需要到达的,那那便是有查找价值的。


  同学小红经常在空间上写日记,写他前天吃了什么,今天玩了什么。这信息,是有价值的。它们对小红的家长、同学、老师,和别同学,和对同学日记感兴趣的人来说,全是有价值的。


  对这种内容体来说,“小红”这种名字是查找的“关键词”。有一些内容单元,只有“查看”价值,而没有到达该内容的查找方法,那该信息可能是有价值的,但查找价值就很少。如一个百度大楼周围的电子地图,从查看角度,是有价值的;但是要是没有其它周边文字说明(还有link的anchortext),只有一个光溜溜的电子地图,就没有查找价值。


  当然,要是图的信息识别手法,有一天能自动识别出这种是“百度大楼周围电子地图”,还有可以自行剖析出电子地图内的各种大楼、街道、餐馆等的商家,那这个图一样变成有查找意义了。

  故而一个页面是否有查找价值,该取决于两点:

  1)是否能解决某个特殊的需要(意义)

  2)是否可以通过某个普通的搜索方式取得该内容(检索)那,没有查找意义的内容,是否对搜索引擎就没有意义了呢?细细想想,回答是否定的。索引是搜索引擎的一个环节,对于别环节而言,没有检索价值的内容可能对我们更加好的收录那一些检索价值高的页面有协助。


  如对负责抓取网上信息的spider而言,有一些内容,原本没有检索价值,但通过这内容的抓取和剖析,能够更快的协助我们清楚这类内容没有查找意义这一主要内容,进而省了很多的流量实行更有效的抓取。考虑这种意义能做为一种“间接性”检索价值,最终还立足于索引价值的,在此文中就不再展开赘述,咱们只重视“检索价值”这一根本问题。

  下文中讲到的“内容意义”独有页面的“检索价值”。为什么要研究页面价值


第一,网上上的页面是无穷无尽的,而搜索引擎的硬件资源是有限的,想用有限的资源去覆盖无穷无尽的互联网,我们就要对页面价值做出判断,不收录那一些无检索价值的页面,少收录那一些检索价值低的页面。

  这是页面价值在收录管控方面的使用。


第二,搜索引擎spider的抓取技术是有限的,处于阅览友好性的考虑,对于一个网页或一个IP抓取速率需有一个抓取速率的上限。在这一范围下,抓取或页面更新就需有一个先后顺序,而这一排序的主要参照根据那便是页面价值,或者对页面价值的估算(未抓取时)。

  这是页面价值在spider调动方面的使用。


第三,对某些内容,页面内容出现变换,导致它的检索意义从好到差,典型的就是变成“死链”,或者“降权”。对于这内容,好的搜索引擎会在快速让其排除出索引,或者是检索时对其实行防止,以确保返回给用户的结果是更多检索价值高的“优质页面”。


  对于另一些内容,它不限于具有高的检索价值,而且有很强的“时效性”,能够快速让用户查找到这内容对搜索体验有很大的增加。

  对搜索引擎而言,越快的收录和索引页面意味着更多的另外资源开支,以多快的速度收录和以多短的时间段更新索引,要通过内容意义的剖析来指导。这两方面是页面价值在死链率和时效性两大搜索引擎指标增加上的使用。


  最后,常见意义上的页面价值高下对搜索引擎返回给用户的结果排序上也存于着重要依据。理想状况下搜索引擎的结果是遵循与查询请求的相关度进行排序的,在相关度产不多的状况下,用户更偏向与浏览常见意义上页面价值高的网站。这是内容意义在ranking层面的使用。

  能够讲,内容查找意义的研究是搜索引擎中的一种较为基础的事务,对内容意义的认识和鉴别的精准水准立刻影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。

SEO基础教程.jpg

  三、如何判断页面价值前文中提到过一个同学小红空间日记的实例。咱们觉得这种内容是有意义的,对小红的同学,朋友,家人都有意义。

  与这种类似的,百度执行官李彦宏在i贴吧上发布一篇十几个字的i贴,也是有意义的,对李彦宏的上千万粉丝都有意义。尽管李彦宏的i贴数量可能远小于张三的日记,但就这两个内容的意义来说,咱们都有一个同样的认识,从常见意义上讲,李彦宏的i贴价值远超过小红的日记。


  当然,对于小红的妈妈来说可能这个意义的关系是不同的)再说个实例,搜索某自己的电话号码,搜索引擎返回了一个结果,是这自己在某个BBS上的一个回。

  尽管这个电话号码关注的人小部分,但因为信息是绝对稀有的,对于关注这个电话号码的查询需求,这个内容是几乎无法替代的,具有很高的价值。除此,内容查找意义,还受到页面质量的影响。


  相似的内容,对满足用户需要来说,常常会有很大相差,比如资源下载速度,内容的结构,广告的多少。这部分相差,暂且叫他页面质量。

  最后,一些内容具有常见的普遍话题特性,且这信息常常在才开始产生时有特别高的关注度,由着精力的推移热度显著降下,会有“事件”的特质。


  典型的像各种“门”新闻,地质灾害、水灾等大规模的自然灾害。我们认为这部分信息具有“时效性”特质。

故而,一个内容的检索意义,大多受以下四种关键的影响:

1、感兴趣的受众群大小

2、该内容的稀有水准(可复制性)

3、该内容的质量高下

4、该内容的时效性特质高低这四个关键,统称受众,稀缺,质量和时效性。


  1. 受众受众人群的大小,即意味了用户检索需求的大小。评判受众的大小主要根据内容撰写源的受众和信息内容本身受众两大层面。

  详细原因涵概但不限于:网页铁杆用户群大小通常来讲,拥有自己铁杆用户群的知名网页,他们成就,原因他们信息和服务,比人家更能诱惑和满足用户。从这种角度来说,咱们能推论,拥有更多铁杆用户群的网页上的信息,会比铁杆用户群少的网站上的内容,有更多的有和隐含受众群。这样一来,铁杆用户群大小,即可变成对网页内信息检索意义的一种权衡指标。

  铁杆用户群的作用原因,它是变动的。


  如果一个网站变差了,那么用户就会用脚投票。超链有超期问题,参假问题,而虚假用户群参假难。

  普遍所讲的网站知名度,会和铁杆用户群多少密切相关。资源设置规律我们再考虑一个网页内在的资源设置所体现的受众群大小问题。

  比如腾讯事件主页的那些推介内容。腾讯主编为什么要推这些内容?因为他们认为这些是用户最感兴趣的。


  那么从索引价值角度而言,相当于有一个庞大的主编部门,已是对这些内容打上了“符合大众口味”的代码。搜索引擎只需要乐享其成就行了。这样一来,资源相对于某些结构性主要页面(主页、栏目页等)的超链深度,也成为权衡一个资源受众群大小的指标了。访问热门度我们再从访问热门度角度来考虑受众群大小问题。这个是最直接的,当然,它需要第三方的软件来找到关键数据。


  通过这个途径,找到的不应仅仅是需要入库的页面,还有用户访问一个网站的访问理念。超链超链某种程度上也是受众群大小的反映。

  某个资源的质量越高,接触的受众群越大,那么获得正常链接的数量往往也越大。内容特征A:我写博客blog:“传言郭德纲要上春晚了。”

B:我写博客blog:“我今天吃早饭了。”一样的来源,前者的受众必然高于后者。

  即:当在发布源相同的情况下,具有公众属性的内容分值会更加高。

  2.稀缺稀缺主要是介绍页面在互联网中的独特性。

  说到稀缺往往会想到重复,稀缺是否等同于无重复,我们应该怎样解答这一概念呢?

  可以看一个例子:某人发表了一篇针对某新闻事件的原创博客blog,随后被新浪转发到了新闻频道。

  从介绍的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转发带来了访问速度、稳定性等方面的增益,并且以后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。

  这可以被称之为站点增益。另一方面,它在转发过程中可能会改变页面的TITLE,而且依托其受众,在转发页面上,还有可能发生很多的有意义评论和回复等,还有可能存在指向其它相干新闻的事件超链。这些能被叫他信息增益。因此即使话题内容没有任何变化,新浪的这次转发也是有价值的,其稀有度也是较高的。


  同样,反过来说,如果转发的网页相当不知名,则其无法带来网页名/稳定性/速度的增益。更有甚者,转载以后在内容上加入大批广告妨碍浏览,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。综上所述,对于主体信息重复的页面,我们应该评判其是否存在站点增益和内容增益,只有对于大批完全无增益的重复页面,我们才应该认为其稀缺度较低。


  3.质量页面的质量是它对需求的满足程度的一种体现。判断页面质量的高低,应该是从最基础的需求依次递进的。首先,不可是死链、网站要有一定的稳定性、访问速度要令人满意。其次,主体内容是否完整、版式和字体是否易读、各类广告会不会过多。


  最后,信息是否丰富、延伸出的次级需求是否满足。典型的低质量页面存在以下一些特征:主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)死链虚假信息/诈骗等空页面站点不稳定影响主需求的权限问题(下载/浏览需要注册会员/积分等)信息不完整(转载不全等)浏览体验差(广告/字体/页面布局等)典型的高质量页面存在以下一些特征:访问速度快(页面加载快/资源下载速度快)页面整洁干净,主体内容在显著位置页面信息完整页面元素丰富(文字、图片、评论、相关推荐等)


  4.时效性“时效性”是内容意义的一个属性,它普遍显现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。

  这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种“新闻”性。对于具有上述两种属性的页面,如果搜索引擎spider发现页面的时间正处于该事物的“爆发期”或“爆发期”之前,我们认为该页面具有时效性。需要证明的是,搜索引擎的广义“时效性”是指对所有有价值新资源的准时收录提供检索,而所有的有价值新资源中,有一大部分其收录速度的提升对用户的搜索体验改善意义是不大的,比如介绍如何瘦身的知识性文章标题,张三的日记。


  页面价值中的“时效性”指得是一种突发时效性,也就是所有有价值页面中最需要准时收录的那些。对页面时效性的判断是为指导我们将搜索引擎有限的资源投入到最关键的地方,产生应该的性价比。

  鉴别页面的时效性价值,主要通过以下一些途径:页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。


  描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报...依照一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常...四、页面价值的研究重点前文已经介绍了页面价值的意义,研究的意义与价值判断的经验。


  最后我们再看一下,从技术角度上,这一定位的研究中的重点定位。对页面价值的研究工作主要致力于三方面:对页面价值体系的认识。

  我们现在对页面价值的认识是来源于前文所述的四个方面,这个认识是否全面,对于连续变化的互联网环境与用户需求,这些方面应该如何扩展与变化才能更好的服务于每一种的搜索体验提升,是一个很重要问题。


  对于反映页面价值的页面特征提取。巧妇难为无米之炊,挖掘更多的页面特征,更准确合理的特征提取是页面价值判定准确率提升的基础。对各种页面特征的组合方法(机器研习)。针对不必的应用定位,需要应用对应的特征通过合理且高效的方法拟合出页面价值的最终评价结果。

  

 

如果您有什么问题,欢迎咨询OSEO技术团队 QQ:957929390
微信:oseocc