SEO个性化网页权重研究之二
发布日期:2017-03-23 作者: 点击:
对于第一篇中的研究方法要求全面获取Web资源的使用情况,对于设计真正的Web搜索引擎而言,它是不可行的,所以只是适用于网站内部的信息检索系统中。
与此相反,对于Web搜索引擎,通过添加修正参数的个性化PageRank方法相对较为可行。该方法无需过多地在遍历网页结构时重新定义不同超链的权重分配关系,只需在得到全部网页的简单超链结构关系后,直接通过引入修正参数来体现用户的某种个性化信息。
通过添加修正参数引入个性化信息的网页权重算法在以Kleinberg等设计的HITS算法中就有体现,不像PageRank方法,这个算法对每个网页都分配两个权重值:一个为authority值;另一个为hub值。它们具有一种迭代的定义,即一个好的authority网页是被好的hub网页指向,一个好的hub网页也指向好的authority网页。这种算法主要应用于使用主题爬虫的网页排序方法,还有在受限条件下的Web社区分析等方面这个算法的最初版本没有像PageRank算法那样具有很好的缩放性,而且对于较多网页节点的处理还存在收敛的问题。
这种方法最早在PageRank算法中的用途主要是用于计算主题化PageRank,通过引人代表一定主题的参数向量就可以使PageRank产生主题化倾向。例如,Richardson等通过预处理方法,对不同主题所涉及的网页集合生成不同的PageRank向量,但查询包含上述的一个或者多个主题时,与那些主题有关的预处理PageRank值就可以直接用于运算另外,Haveliwala等使用了另外一种完全不同的方法,他提出了主题相关PageRank(topic-sensitive PageRank),这个方法先从Open Directory项目获取主题信息,然而对Open Directory项目的每个类别计算不同的PageRank值,这个PageRank值偏重于该类别内的相关网页。当用户发出查询时,通过识别查询的上下文,相关类别的PageRank值都用于计算结果网页的权重值口引。
相关文章:SEO个性化网页权重研究之一:http://www.nchq.cc/