计算机工程与应用

2009, v.45;No.643(12) 141-143+183

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

网页去重方法研究
Research on elimination of similar web pages

樊勇;郑家恒;

摘要(Abstract):

搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。

关键词(KeyWords): 组块;主题句向量;网页去重

Abstract:

Keywords:

基金项目(Foundation): 国家自然科学基金No.60775041~~

作者(Author): 樊勇;郑家恒;

Email:

DOI:

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享