python的农产品价格信息获取及分析(附件)

1当今社会,互联网正在以爆炸式的速度飞速发展,人们对于网络信息的依赖越来越大。作为获取这些信息工具的搜索引擎,人们对它的要求也越来越高。而农产品具有种类多,分布地区广,价格不稳定等特点。这些特点使得传统的搜索引擎不能很好地满足用户的需求,用户无法全面、准确地得到自己需要的信息。针对传统搜索引擎的不足,本文的内容主要是利用网络爬虫,对农产品信息网站中鸡蛋的信息进行抓取,提取其日期、价格、产地信息,并存入数据库。根据所爬取的这些数据,运用基于ARIMA(Autoregressive Integrated Moving Average Mode)模型的时间序列算法对鸡蛋的价格进行预测以及分析,得到预测误差率,并将以上结果以图表和web地图的形式展现出来。
目录
引言
引言
1 绪论
1.1 研究背景
21世纪是一个信息资源丰富的时代,在这个时代,互联网得到了真正意义上的普及,人们的生活越来越依赖网络中的信息数据,而web上的信息量又特别丰富,并且在以飞快的速度不断膨胀,在农业方面,面对如此庞大浩瀚的信息数据,如何从中准确而又快速的获得自己所需要的信息就显得尤为重要。在这种对信息获取的需求下,搜索引擎便应运而生了,并且取得了迅速的发展,成为了人们获取互联网资源的一种重要途径,输入几个关键词便可得到与之相关的信息,这给利用互联网来获取只是信息的人提供了极大便利。
而随着互联网的不断发展,很多用户以及计算机工作者已经越来越不满足于这种目标结果不是很明确的搜索引擎,而是想要获得更能贴合自身需求的信息数据,因此,网络爬虫就随之出现了。网络爬虫的可定义性很强,设计使用者可以根据自己的需求和习惯制定规则,网络爬虫会根据这种规则抓取网页信息,这就为使用者能够有效获得所需信息,剔除其他无关信息提供了更大的可能。因此,网络爬虫目前被广泛应用于互联网搜索引擎等其他类似网站。
1.2 国内外研究现状
近年来,由于搜索引擎性能大大幅度提高,爬虫的研究愈加活跃。网络爬虫中比较广为人知的就是Google Crawle、Mercator以及Internet Archive Crawler。其中,谷歌从1997年就已经利用爬虫像外界展示了他们的爬虫技术,并且2年后还对爬虫进行了升级, *好棒文|www.hbsrm.com +Q: ¥351916072$ 
从Alphn升级到Beta[1]。谷歌爬虫是由五个爬虫模块组合而成的分布式系统,分别为URL Frontier、HTTP Connection、DNS Resolve、Link Extractor与URL Filter。每一个模块都是通过单线程或者异步I/O传输的方式进行爬取,并被布置到不同地点,通过对网络的不断深入,不断搜索,逐渐延伸至世界各地。
从爬虫概念诞生以来,互联网的发展突飞猛进,网页的数量呈几何的速度增长,原先的爬虫已经不足以处理如此大的信息量,也不足以满足当今更加精确化的搜索需求。关键词的单一,反馈结果的非系统化,都对后期的数据处理产生了难度[2]。因此,随着时代的发展,可以满足更精确,更个性化,更庞大的搜索需求的爬虫技术“主题爬虫”应运而生。
1999年,S. Chakrabarti在环球信息网(World Wide Web)大会上第一次提出了“主题爬虫”的概念。随后,第一代主题爬虫逐渐变成现实,第一个主题爬虫由IBM推出,名为IBM Focused Crawler[3]。除此之外还有Context Graphs Focused Crawler以及WTMS。自此爬虫技术在原有的基础发生了巨大的变化。
2001年,Aggarwal等人提出“智能爬虫概念”。
2002年,Chakrabarti提出了“加速主题爬虫”,这也是第二代主题爬虫。
随着爬虫概念的不断提出,爬虫的性能问题逐渐变得越来越好,但离理想中效率高,精确度高,更加贴近想要信息的程度还有着比较大的差距[4]。所以如何更加智能的爬取成为了近年来的研究方向。
“线增量学习能力”是傅向华等人提出的一种聚焦爬行方法[5]。这种爬行方法可以智能的选择需要爬取的特征文件进行新的样本。首先从网页中抽取特征文本,利用特征文本与我们所要进行爬取的要求进行比较,计算出二者的相关度。根据快速Q学习和半监督贝叶斯分类器,得到刚刚爬取的URL的Q值,如果相关度过小则抛弃。并且据此更新所有连接的Q值。
IFWC是李卫等人实现的一个智能化信息采集系统,可以根据主题对传统向量空间进行拓展。通过向量空间模,以全信息理论扩展元语义,并根据相关性判定算法,得到相关性,判断是否符合主题[6]。
1.3 本论文主要工作
(1)利用基于python的网络爬虫对“全国农产品信息服务平台”网站进行爬取。
(2)选取农产品“鸡蛋”作为爬取对象,通过对相关网页url的提取,获取以三个月信息为单位的信息数据,而后通过寻找最大页的方式获得所有信息,解析url,得到静态的HTML,解析HTML,获取其相关的产地、价格、日期等信息,并将信息储存到数据库中。
(3)利用ARIMA(自回归滑动平均)模型对爬取得到的鸡蛋价格进行预测,通过对训练集及算法的设计与实验,在传统的模型预测基础上进行优化,对不同序列选用不同模型进行分析预测,找到适合该序列的最优预测模型。将预测后的价格数值与实际的价格数值进行对比,并计算误差率。
(4)将爬取结果和预测结果可视化展现出来。
2 Python语言及爬取分析技术
2.1 Python语言概述及优点
2.1.1 语言概述
Python语言是一种面向对象的计算机程序设计语言。它不仅语法简洁,还具有很庞大的标准库及可定义的第三方库[7]。因此,python语言具有很强大的功能性,可以用最少的代码实现编译的目的。
2.1.2 Python语言优点
(1)简洁易学

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/429.html

好棒文