主题爬虫和词频统计的新闻内容相似度研究(源码)

当下正处于人工智能蓬勃发展的互联网时代,2017年字节跳动公司的崛起让众人迅速把焦点移到了正在利用人工智能技术进行改革的新闻行业。本文着眼于接近底端的分词和文本相似度算法,通过了解现有的开源成熟算法和结合本科阶段所学的数理知识,尝试基于实体关联和矩阵设计并实现新的文本相似度算法。同时,以基于B/S模式和SSM框架的网站作为平台完成主题爬虫、词频统计等数据预处理模块的开发和展示。最终,通过训练集和测试集与成熟的余弦、共有词和编辑距离算法相比较,完成了算法的评价,并进一步优化了算法。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
1. 绪论 1
1.1 研究背景 1
1.2 国内外研究现状 2
1.2.1 国内研究现状 2
1.2.2 国外研究现状 2
1.3 研究目标和内容 2
1.3.1 研究目标 2
1.3.2 研究内容 2
1.3.3 关键问题 3
2. 相关技术与理论 3
2.1 开发工具 3
2.1.1 Git版本控制工具 3
2.1.2 SSM后台框架 4
2.1.3 Echarts图表库 4
2.2 开源框架 5
2.2.1 ScriptSpider爬虫框架 5
2.2.2 Word分词器 5
2.2.3 Sematch语义分析器 5
3. 算法研究与分析 6
3.1 算法原理 6
3.2 算法流程 7
3.3 算法需求 7
4. 数据预处理网站的分析、设计与实现 7
4.1 网站分析 7
4.1.1 可行性分析 7
4.1.2 系统分析 8
4.2 网站设计 8
4.2.1 总体设计 8
4.2.2 数据库设计 9
4.3 网站实现 9
4.3.1 项目控制模块 9
4.3.2 个人信息模块 11
4.3. *好棒文|www.hbsrm.com +Q: &351916072& 
3 爬虫模块 14
4.3.4 原始数据管理模块 15
4.3.5 数据总览模块 16
4.3.6 数据处理模块 17
4.3.7 系统日志模块 18
5. 算法实现 19
5.1 训练集构造 19
5.1.1 新闻抽离 19
5.1.2 相似度数据集构建 20
5.2 新算法实现 21
5.2.1 新闻词频统计 21
5.2.2 新算法建模 22
5.3 分析与迭代开发 23
5.3.1 对比成熟算法数据 23
5.3.2 对比数据分布图 23
5.3.3 模型调整和调参 24
6. 算法评价 26
7. 总结与展望 26
7.1 总结 26
7.2 展望 26
致谢 26
参考文献 27
基于主题爬虫和词频统计的新闻内容相似度研究
引言
引言:自2005年起以新兴互联网势力三巨头BAT(百度、阿里巴巴和腾讯)纷纷上市为标志,传统的互联网三大门户(新浪、搜狐和网易)开始逐渐走出群众视野[1],新闻行业也开始脱离互联网世界。幸运的是,由于硬件性能的提升和大数据流量的不断增长,提倡基于数学统计的人工智能学者终于彻底使坚持立足语法研究算法的团队信服,人工智能迎来了黄金发展时期。上世纪90年代美国众多名校研究的分词和文本相似度算法,以及20世纪初中国一流高校开始研究的中文文本的分词算法[2],都直接应用在新闻的自动标注、分类、聚类和智能推荐等诸多方面。直至今天,正如中国人民大学新闻方向的研究员方洁所言,当下计算机的运用已经介入到新闻业的各个环节[3]。
绪论
研究背景
虽然分词和文本相似度算法发展已经十分成熟,在市场上也已经有搜狗输入法、今日头条这样优秀的产品,但没有哪一个算法能完全适用于所有的环境。因此,对这些底层算法的优化和创新仍在继续,gitHub、码云这些仓库也一直在不断地更新代码库。对于本科生而言,一方面需要不断了解和尝试当下优秀的算法,另一方面也要保持创新,尝试去优化甚至提出新算法。总而言之,算法没有严格的优劣之分,而是要根据实际环境择优而用。
国内外研究现状
国内研究现状
分词方面,国内由于语言优势,目前主要在中文分词上取得了很多研究成果。中文分词发展到目前为止,大致有词典、理解、统计和组合分词四个方面。
1、词典分词中,比较成熟的如:正向最大匹配法、逆向最大匹配法、正逆向最小匹配法等等。孙茂松[4]、姚兴山[5]、陈桂林[6]等人基于Hash的分词算法使得查询效率大幅度进步,但带来了空间开销问题;
2、理解分词主要利用了一定的语义理解方面的算法,更加接近学习算法。王彩荣[7]、林亚平[8]和尹锋[9]等人均从神经网络的方向上提高了分词效果;
3、统计和组合分词方法则相对而言近年来重大突破较少。
文本相似度算法上由于国内起步较晚,届时譬如TFIDF这样成熟的算法已经诞生,因此比较少有研究,不过也有像王振振[10]、熊大平[11]等人基于LDA进行算法优化。
国外研究现状
相比于使用中文而言,外语一般都是空格作为单词间隔,因此分词要容易得多。当然也存在一些英文词组的情况,所以基于最大分词法做优化便能取得不错的结果;文本相似度上国外则是做出了卓越的成就,如图1所示,文本相似度计算方法目前总体分为基于字符串、基于语料库、基于语义三大类,也有少数属于其他方法。

图1 文本相似度计算方法分类
VSM[12]和LDA[13]等并不全然只适用于文本相似度,更多时候这两种模型是以辅助的方式去优化算法。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1676.html

好棒文