网页去重方法研究Research on elimination of similar web pages
樊勇;郑家恒;
摘要(Abstract):
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。
关键词(KeyWords): 组块;主题句向量;网页去重
基金项目(Foundation): 国家自然科学基金No.60775041~~
作者(Author): 樊勇;郑家恒;
Email:
DOI:
参考文献(References):
- [1]Shivakumar N.Finding near-replicas of documents on the web[C]//International Workshop on the Web and Databases,Valencia,Spain,WebDB,1998:204-212.http://dbpubs.stanford.edu/pub/1998-31.
- [2]Cho J,Shivakumar N,Garcia-Molina H.Finding replicated Web col-lections[C]//Proceedings of2000ACM International Conference on Management of Data(SIGMOD),May2000.
- [3]李盛韬.基于主题的Web信息采集技术研究[D].北京:中国科学院,2002:41-43.
- [4]李素建,刘群.汉语组块的定义和获取[C]//孙茂松,陈群秀.语言计算与基于内容的文本处理:全国计算语言学联合学术会议(SWCL2003)论文集.北京:清华大学出版社,2003:110-115.
- [5]索红光,曹淑英.基于组块的中文自动文摘系统研究[J].计算机系统应用,2007(3):97-100.
- [6]王永成,王继才.论中文文献文摘自动编制[M]//智能计算机接口与应用进展.北京:清华大学出版社,1995:513-519.
- [7]李立燕.中文科技文献自动摘要系统[D].北京科技大学,2006:35-37.
- [8]王萌,何婷婷,张伟.基于概念向量空间模型的中文自动文摘系统[J].计算机工程与应用,2005,41(1):107-110.