网络爬虫的芡实市场的需求分析
本文使用网络爬虫技术获取在淘宝等电商网上芡实及其相关产品销售相关信息,利用python语言编写爬虫程序,得到芡实与其相关产品的信息,如产地、销量、商品价格等,并对其进行数据分析,得到价格曲线,产地分布信息,以及每个产地的销量信息。得到传统的芡实产品更受人们欢迎,但其保健效用还没有得到大多数人们的认可。关键词芡实、爬虫、市场分析
目录
1 引言 1
2 淘宝数据爬取 2
2.1 分析网页 2
2.2 爬取信息 3
2.2 数据提取 3
2.2.1 正则表达式提取数据 4
2.2.2 数据格式化 4
2.2.3 筛选数据 5
2.2.4 得到翻页信息 6
2.2.5 数据持久化 7
3 芡实产品评论的采集 7
3.1 创建淘宝商品评论采集任务 8
3.2 创建淘宝评论翻页循环 8
3.3 淘宝商品评论采集 8
3.4 淘宝商品评论数据采集及导出 9
4 数据分析 9
4.1 芡实产品信息的处理 9
4.1.1 不同芡实产品的均价与其购买人数 9
4.1.2 芡实糕的销量分析 10
4.1.3 干货芡实的销量分析 11
4.2.1 评论分词 12
4.2.2 评论分析 13
结 论 13
致 谢 15
参 考 文 献 16
附录: 18
引言
芡实在我国是一种传统的中药材,是一种水生作物[1]。根据历史上医书《神农本草经》记载,其具有相当大的药用价值,干燥的芡实种仁成分以淀粉为主,且含有丰富的蛋白质、维生素、氨基酸等多种营养成分,具有益肾固精、补脾止泻、祛湿止带的功效,素有“水中人参”和“水中桂圆”的美称[2][4]。因为芡实的主要入药部分在其成熟的种仁,所以在古时候寻常百姓家里就有用芡实煮粥的习惯,以此来达到补脾固肾的养生功能,因此芡实也可以称为是“药食两用”的天然补品[5]。随着近年来人们消费观念的转变,以及对营养、健康的重视,具有保健功能的芡实越来越受到人们的青睐 *好棒文|www.hbsrm.com +Q: *351916072*
,以芡实为原料的商品越来越多,例如糕点,饼干、饮品等在淘宝等电商网站上也是可以找得到的。
网络爬虫又称网络蜘蛛,是一种按照一定规则,模拟浏览器浏览网页,自动批量爬取我们需要的网络资源例如图片,视频,文档,数据的一个程序[6]。本文中使用python软件爬取电商平台上芡实的销售信息。Python是一种面向对象的解释型计算机程序设计语言,在设计中注重代码的可读性,是一种功能强大的通用型语言。它功能强大,易学易用,编码迅速,是目前在机器学习及人工智能等领域应用比较多的一门语言[7]。据统计,目前Python语言已经称为当今社会网络编程中最受欢迎的语言之一。
随着互联网的快速发展,例如阿里巴巴,京东等电商平台层出不穷,人们越来越喜欢在这些电商平台上购买自己所需。使用网络爬虫技术从电商平台上爬取芡实及其相关产品的销售状况,可以很直观地了解芡实这一传统中药材在当今的市场需求情况,并运用爬虫软件里的数据分析系统,分析以芡实为原材料的新型食品开发现状[8]。
在充分了解芡实药理、零食市场现状的情况下,利用网络爬虫技术搜集各种电商平台的芡实或类似功能性膨化食品的消费数据,分析判明市民对这一类产品的消费情况、现有产品的加工包装、消费需求和购买心理,并分析提出有效的保健零食产品的营销策略。
淘宝数据爬取
本文使用python爬取所需要的数据信息,具体步骤如下:
2.1 分析网页
打开淘宝网站,搜索芡实,得到芡实所在的页面,按F12打开开发者调试工具,选中其中的Network选项卡,得到当前页面下每一个产品的网页信息(图1),点击第一条,得到第一个产品的详细URL。(图2)
图 1 网页信息
图 2 第一个产品的URL
2.2 爬取信息
在pycharm里输入代码,导入requests模块,使用get方法从URL获取资源。使用response得到返回来的信息,再用print取出response.text文本信息[9]。得到第一个产品的HTML源码。
图 3 获取url信息
得到的结果如图4:
图 4 HTML源码(部分)
2.2 数据提取
2.2.1 正则表达式提取数据
为了提取response.text里的数据,使用re模块的正则表达式来实现。
正则表达是是对字符串进行操作的公式,使用正则表达式时,能以复杂方式搜索和转换字符串。正则表达式使用它们自己特殊的语法来描述要匹配的字符串[10][12]。如(图5)
图 5 正则表达式
运用正则表达式得到的信息就是以g_page_config为开头,以g_srp_loadCss为结尾的字符串,其中(.*?)就是匹配的需要的相关信息。
本文中需要的信息如商品价格、付款人数、商品名称、发货位置等信息就可以通过函数匹配出来。(图6)接着使用content函数得到其文本信息。
图 6 匹配信息
2.2.2 数据格式化
要将数据转换为文本形式,就要将前面的数据进行格式化处理,这时候就要用到JSON。
目录
1 引言 1
2 淘宝数据爬取 2
2.1 分析网页 2
2.2 爬取信息 3
2.2 数据提取 3
2.2.1 正则表达式提取数据 4
2.2.2 数据格式化 4
2.2.3 筛选数据 5
2.2.4 得到翻页信息 6
2.2.5 数据持久化 7
3 芡实产品评论的采集 7
3.1 创建淘宝商品评论采集任务 8
3.2 创建淘宝评论翻页循环 8
3.3 淘宝商品评论采集 8
3.4 淘宝商品评论数据采集及导出 9
4 数据分析 9
4.1 芡实产品信息的处理 9
4.1.1 不同芡实产品的均价与其购买人数 9
4.1.2 芡实糕的销量分析 10
4.1.3 干货芡实的销量分析 11
4.2.1 评论分词 12
4.2.2 评论分析 13
结 论 13
致 谢 15
参 考 文 献 16
附录: 18
引言
芡实在我国是一种传统的中药材,是一种水生作物[1]。根据历史上医书《神农本草经》记载,其具有相当大的药用价值,干燥的芡实种仁成分以淀粉为主,且含有丰富的蛋白质、维生素、氨基酸等多种营养成分,具有益肾固精、补脾止泻、祛湿止带的功效,素有“水中人参”和“水中桂圆”的美称[2][4]。因为芡实的主要入药部分在其成熟的种仁,所以在古时候寻常百姓家里就有用芡实煮粥的习惯,以此来达到补脾固肾的养生功能,因此芡实也可以称为是“药食两用”的天然补品[5]。随着近年来人们消费观念的转变,以及对营养、健康的重视,具有保健功能的芡实越来越受到人们的青睐 *好棒文|www.hbsrm.com +Q: *351916072*
,以芡实为原料的商品越来越多,例如糕点,饼干、饮品等在淘宝等电商网站上也是可以找得到的。
网络爬虫又称网络蜘蛛,是一种按照一定规则,模拟浏览器浏览网页,自动批量爬取我们需要的网络资源例如图片,视频,文档,数据的一个程序[6]。本文中使用python软件爬取电商平台上芡实的销售信息。Python是一种面向对象的解释型计算机程序设计语言,在设计中注重代码的可读性,是一种功能强大的通用型语言。它功能强大,易学易用,编码迅速,是目前在机器学习及人工智能等领域应用比较多的一门语言[7]。据统计,目前Python语言已经称为当今社会网络编程中最受欢迎的语言之一。
随着互联网的快速发展,例如阿里巴巴,京东等电商平台层出不穷,人们越来越喜欢在这些电商平台上购买自己所需。使用网络爬虫技术从电商平台上爬取芡实及其相关产品的销售状况,可以很直观地了解芡实这一传统中药材在当今的市场需求情况,并运用爬虫软件里的数据分析系统,分析以芡实为原材料的新型食品开发现状[8]。
在充分了解芡实药理、零食市场现状的情况下,利用网络爬虫技术搜集各种电商平台的芡实或类似功能性膨化食品的消费数据,分析判明市民对这一类产品的消费情况、现有产品的加工包装、消费需求和购买心理,并分析提出有效的保健零食产品的营销策略。
淘宝数据爬取
本文使用python爬取所需要的数据信息,具体步骤如下:
2.1 分析网页
打开淘宝网站,搜索芡实,得到芡实所在的页面,按F12打开开发者调试工具,选中其中的Network选项卡,得到当前页面下每一个产品的网页信息(图1),点击第一条,得到第一个产品的详细URL。(图2)
图 1 网页信息
图 2 第一个产品的URL
2.2 爬取信息
在pycharm里输入代码,导入requests模块,使用get方法从URL获取资源。使用response得到返回来的信息,再用print取出response.text文本信息[9]。得到第一个产品的HTML源码。
图 3 获取url信息
得到的结果如图4:
图 4 HTML源码(部分)
2.2 数据提取
2.2.1 正则表达式提取数据
为了提取response.text里的数据,使用re模块的正则表达式来实现。
正则表达是是对字符串进行操作的公式,使用正则表达式时,能以复杂方式搜索和转换字符串。正则表达式使用它们自己特殊的语法来描述要匹配的字符串[10][12]。如(图5)
图 5 正则表达式
运用正则表达式得到的信息就是以g_page_config为开头,以g_srp_loadCss为结尾的字符串,其中(.*?)就是匹配的需要的相关信息。
本文中需要的信息如商品价格、付款人数、商品名称、发货位置等信息就可以通过函数匹配出来。(图6)接着使用content函数得到其文本信息。
图 6 匹配信息
2.2.2 数据格式化
要将数据转换为文本形式,就要将前面的数据进行格式化处理,这时候就要用到JSON。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/nongxue/zwbh/4.html