基于Jsoup的网络爬虫实现与数据可视化开题报告

 2022-10-27 22:43:44

1. 研究目的与意义

互联网这个庞大的数据库中存储着海量的数据,是一个巨大的人类文明库。但是这些数据是非结构化的,大量有价值的信息隐藏在这个非结构化数据库中,难以被索引和利用。因此,在互联网中检索出有效的数据并通过分析和组织将它们呈现出来,有着巨大的应用前景。 搜索引擎作为多数人获取网络信息的入口可以很方便地帮助人们在互连网中检索他们所需要想信息。但是搜素引擎作为一种通用的检索器存在着一定的局限性:搜索引擎返回了大量的冗余信息。 当用户需求进一步细化时,需要用人工的方法将搜索引擎返回的高冗余信息进行筛选和处理,效率极低。为了解决上述问题,在研究了现有优秀的开源网络爬虫的基础上,设计实现针对特定需求的网络爬虫,并将爬虫收集的信息进行可视化,呈现给用户。

2. 课题关键问题和重难点

许多网站只有在用户登录的情况下才有权限进行操作。

因此,不可避免地要对网页中的http数据包进行分析,在爬虫中模拟账号登录的行为。

为了降低服务器压力,提升服务器稳定性,多数网站都有反机器人机制,其中一种广泛使用的技术就是验证码技术,因此验证码的识别也是程序需要解决的一大难题,由于优秀的验证码识别技术实现难度太高,本程序拟采用人眼识别的方式识别验证码。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

网络爬虫的定义:网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。

网络爬虫是一个自动提取网页的程序,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。

在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

HTMLUnit为程序提供HTTP通讯的接口;使用Jsoup方便地实现HTML的解析;利用广度优先搜索算法可以有效地检索互联网中的有向图数据节点并获取数据;使用MySQL可以轻松地实现数据存储;利用D3.js能够完美实现数据可视化。

因此本设计方案是完全可行的。

5. 工作计划

起止时间工作内容1-08 1-15检索、阅读相关技术资料,写开题报告1-16 3-12检索、阅读、学习相关技术资料3-13 4-01完成数据采集模块4-02 4-05完成数据存储模块4-05 4-15完成数据显示模块4-16 5-11完成设计报告5-12 5-12提交材料5-13 5-21准备进行答辩

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。