1. 研究目的与意义
互联网的飞速发展使得人类进入了信息大爆炸的时代,根据数据显示,在1分钟内Youtube用户会上传400小时的新视频,Netflix用户则每分钟观看86805小时的视频。与此同时,苹果用户每分钟下载51000个应用。谷歌一分钟翻译69500000个单词。在社交网站方面,Facebook用户每分钟分享216302张照片。
我们既身处一个大数据时代,也处于一个信息过载的时代。所以用户如何从如此海量的数据中找到想要的信息就显得将极其重要。搜索引擎是用户常用的一种检索信息的方式。所谓信息检索就是从大规模非结构化的数据(通常是文本)的集合中找出满足用户信息需求的资料(通常是文档)的过程。
Lucene是一个强大的开源全文检索工具包,目的是为各种中小型应用软件加入全文检索功能,使用户能够更快的找到想要的信息。Lucene的优点主要有3点:1.稳定,索引性能高;2.高效,准确,高性能的搜索算法;跨平台解决方案。通过Lucene可以快速构建出一个全文检索的接口,使用户快速找到自己想要的信息.
2. 研究内容和预期目标
一、研究内容:
1. 服务端的设计
2. 网络爬虫
3. 国内外研究现状
垂直搜索是针对某些特定应用、特定任务或者特定领域的结构化内容的搜索技术,是对Web信息中的某类专门的信息进行整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户的搜索方式.垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,针对某一特定领域、某一特定人群或某一特定需求,提供有一定价值的信息和相关服务.相比较通用搜索引擎的海量信息无序化,垂直搜索引擎更加专注、具体和深入。
垂直搜索搜索引擎的应用领域很多。 比如SkyScanner是一个领先的航班搜索引擎,可以为你提供最好的航班交易信息;
IceRocket可以针对博客、Twitter、Facebook等站点进行专业化的搜索;
4. 计划与进度安排
1.首先确定系统的系统开发和运行环境
Windows 7或以上版本和Mac操作系统10以上版本
chrome浏览器
5. 参考文献
[1] (美)Otis Gospodnetic Erik Hatcher 编著,谭鸿 黎俊鸿 周鹏 高承山译,.Lucene in Action中文版.电子工业出版社. 2007-01
[2]张思民,Java开发技术与工程实践.清华大学出版社.2010-11
[3]邱哲 符滔滔 王学松 编著.开发自己的搜索引擎---Lucene Heritrix(第2版). 人民邮电出版社.2010-1-1
以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。