网站SEO优化链接分析和内容相关性计算!整个互联网上的网页因为有了链接,才被织成了一张网。网页之间的链接关系在一定程度上反映了每个网页各自的重要程度,理论上重要的网页获得的链接数量会比较多。同时链接的属性中还有锚文本,用来描述被链接页面的内容,对搜索引擎的排名也会有很大影响。如图2-19所示,为搜索某关键词时找到的京东商城的快照,由于页面上不包含搜索词,快照提示“你查询的关键词仅在网页标题或指
向此网页的链接中出现”,由此可见链接锚文本的作用。当用户在搜索引擎进行搜索时,肯定想得到和自己搜索的关键词最相关、最重要的结果,因此链接分析也就成了搜索引擎排名中的一个非常重要的因素。
百度快照在搜索引擎中有很多链接分析算法,比如PageRank算法、HITS算法、SALSA算法、PHITS算法、Hilltop算法等。其中最受关注的链接分析方法是PageRank算法,自从Google获得空前的成功后,PageRank算法也受到了主流搜索引擎的关注。由于Google推出了网页PR值查询,所以广大站长和SEO人员在很长一段时间内都把网站PR值等价成了网页或网站权重。其实PR值只是谷歌使用PageRank算法得出的一个权值而已,真正的网页权重还参考了其他很多因素。有兴趣的朋友可以百度或Google一下,了解一下这些算法更详细的介绍。
诸多链接分析算法的目的其实只有一个,为用户找到最重要、最相关的网页。而在正常的SEO工作中,链接层面上的操作并不能像这些算法一样做到这么精细的匹配。站长和SEO人员只要对搜索引擎链接分的知识稍加了解就好。搜索引擎的链接分析算法宏观指导站长和SEO人员的工作:链接会被分为站内链接和站外链接,为自己网站不同类型的页面设计一个权值,然后按照网站运营目的和SEO方向调整站内链
接布局方式,为不同目的、不同竞争强度、不同数量的页面依据设定的权值进行内部链接导向布局,这也是宏观顺应搜索引擎链接分析的一种做法;关于外部链接,只需要未被处罚、权重高、内容相关的高质量链接即可,后续外链建设部分会进行详细介绍。
网站SEO优化-内容相关性计算
内容相关性计算相关性是指内容和关键词的相关程度。现在搜索引擎其实并没有真正解决相关性计算的问题,只是通过关键词分词匹配、关键词在内容中的频率密度、关键词字体位置和页面外链等表面特征来进行内容相关度的计算。当下搜索引擎还不能真正理解搜索词和文章所表达的含义,所以也就使得部分内容应该有排名但实际上却没有的现象。现在搜索引擎判断相关性一般会采用关键词匹配和语义分析两种判断方法。
关键词匹配
搜索引擎对索引库的检索过程可以简单描述如下:
(1)把用户提交的搜索词分成词A和词B。
(2)同时使用词A和词B在索引库中进行检索,并提出所有包含词A或者词B的文件,组成文件集合L。
(3)在文件集合L中把同时包含词A和词B的文件优先提出来组成文件集合M排在前面,把只包含词A或词B的文件排在后面。
(4)继续对文件集合M进行分析,把完全包含用户搜索词的文档出来组成文件集合N,并排在前面,把内容中没有完全匹配搜索词的文件排在后面。
(5)再根据搜索词在网页中出现的次数、位置、密度和形式等对文件集合N中的文件进行排序。
(6)搜索引擎还会分析文件的外链数量、质量和锚文本,根据锚文本辅助分析文件和关键词的相关度、外链的数量和质量来确定文件的重要程度,以进行排序调整。
以上只是简单模拟搜索引擎的检索排序过程,为了描述方便,引入了“文件集合”。在整个检索和排名过程中,关键词匹配程度、密度、频率、位置、形式和外链情况会应用到所有文件上,而不仅仅是上文所提到的文件集合上。由以上检索排序模拟过程可以看出,搜索引擎判断一个网页或者文件与搜索词的相关度,主要根据文件中关键词出现的频率(次数)、密度(占全部内容的比例)、最终分词后关键词之间的距离(是否完全匹配)、位置和形式(是否在标题、内容比较靠前的位置以及是否黑体、变色、H标签等突出显示)、文件外链、锚文本(是否和内容有统一的文本描述)等,外链的数量和质量并不是判断内容相关性的因素,只是判断文件重要程度、内容质量或可信任程度的标准。
同时在关键词匹配中,搜索引擎为了使返回的结果都是用户真正需要的,会分析判断搜索词分词后的词语,哪些是用户主要关心的,哪些是次要关心的。比如,搜索引擎会弱化搜索词中的常用或者意义不大的定语,在百度搜索“我们的航母”,搜索结果中前几页的网页内容都会完全匹配“我们的航母”这个关键词。多向后翻几页,当没有能完全匹配该搜索词的网页时,会明显感觉到后面的网页都是以“航母”为主要关键词的。
语义分析
只根据关键词匹配和外部链接对网页的描述(锚文本),搜索引擎还不能真正理解网页的内容。比如,一篇介绍iPhone的新闻,通篇都没有提到“苹果”两个字,这个网页的外链也没有“苹果”锚文本,此时搜索引擎如果只使用关键词匹配的方法,就不能把“苹果”和“iPhone”联系起来。搜索引擎为了解决这个问题,提升内容相关性的计算强度,就引入了语义分析技术。
语义分析技术其实就是通过对海量内容的分析找出词汇之间的关系。当两个词或一组词经常出现在同一个文档中时,就可以认为这些词之间是语义相关的。最典型的例子就是“电脑”和“计算机”,还有上面提到的“苹果”和“iPhone”,搜索引擎根据对大量信息的分析,就可以判断出两个关键词在某种程度上相关或者是同义词,这样在检索索引文件时,同义词也会被适当加入检索。
总结
内容相关性的高低会直接体现搜索引擎搜索结果质量的好坏,因此内容相关性计算一直是搜索引擎重点研究的方向。所以,增加内容和目标关键词的相关度也成了SEO人员研究的重要方向。SEO人员顺着搜索引擎判断内容相关性的思路,设计了很多让搜索引擎认为某个关键词和自己内容相关的做法,这些做法有的过分地凑“相关度”而到达了欺骗搜索引擎的程度。搜索引擎也针对这种情况推出了一系列的反作弊策略。