一、Web文本挖掘中的一种中文分词算法研究及其实现(论文文献综述)
瞿娟[1](2020)在《基于文本挖掘的家具用户潜在需求可视化研究》文中研究说明家具行业作为支柱性产业关乎国民生活,传统家具行业的萧条使得家具电商崛起。家具电商受限于家具产品自身的特殊性,在激烈的竞争环境下面临着诸多挑战和困境。大数据时代和电商平台蓬勃发展的背景下,用户在电商平台购买家具后,会在该平台上发布网购评论,评论的内容包括产品属性、服务、物流等方面,里面都暗含着用户对产品的改进需求。家具电商如果能快速掌握网购评论中的用户需求,就能及时改进现有的产品和服务,并找到产品的未来发展方向,为快速迭代找到灵感,从而牢牢把握用户黏性,提高核心竞争力。本文在文本挖掘和用户需求等理论与关键技术研究的基础上,提出了一套适用于线上家具网购评论的文本挖掘的流程,初步构建了家具网购评论的评价指标,并通过实际案例来验证了本文方法的可用性且得到了有价值的结论。通过实证分析,结合网购行为过程的分析及用户群体研究对线上家具产品的网购评论进行深入挖掘,分析得出用户的潜在需求并提出改进建议,验证了线上家具用户需求分析的可行性。本文主要研究工作具体如下:第一,构建基于家具网购评论的评价指标。通过对家具的行业背景和产品种类及特点进行相关调研来确定研究对象,构建二级评价指标体系,提出评论内容、评论者两个一级指标,据此提出了网购评论涉及产品客观属性且为正面评论可能对网购评论的有用性程正向影响等相关假设,以便后面进行验证。第二,提出适用于家具网购评论的文本挖掘的流程。从定义、发展进程、主要研究领域及相关应用等方面对文本挖掘做学术研究和行业应用现状梳理,初步建立了一套适用于家具网购评论的文本挖掘的流程,最后罗列出现有的文本挖掘工具,进行优缺点分析,从而确定本文选用的Python作为文本挖掘工具,借助PyCharm编译器编写相关程序。第三,对家具的网购评论进行深度挖掘,得出有效的用户需求信息。采用数据获取及预处理、特征词提取、情感分析等方法和技术。具体而言,首先研究了数据获取的相关方法和流程,通过选取在线上销售家具的购物平台为数据来源,以家具产品的近期网购评论为样本数据,使用MongoDB数据库将爬取到的数据存储至并使用Jieba分词工具进行网购评论的预处理;其次研究了文本特征抽取以及文本特征评价方法,利用TF-IDF算法对采集到的家具网购评论进行关键词抽取,得出相关高频次关键词,通过对关键词抽取进行共现分析,借助DataFrame获取共词矩阵表格,进一步提高准确性,并借助Worldcloud生成词云图、Networkx构建语义网络图进行可视化呈现;然后研究了情感分析的相关理论并罗列了现有的情感分析技术,选取SnowNLP作为本文研究的情感分析工具,计算出相关家具产品的每条网购评论的情感值,了解用户的态度和意见,并借助ECharts做出动态的交互图表;最后研究用户需求、网购行为的过程,从而得出线上家具用户需求分析的步骤,并结合线上家具用户群体研究,进一步分析家具用户需求的潜在需求,初步验证了网购评论的评价指标以及线上家具用户需求分析方法的可行性。
陆青梅[2](2019)在《基于语义分析的网络舆情研究》文中提出近年来中国互联网用户数量逐年增加,互联网用户通过网络平台宣泄情绪、表达诉求,使得政府、商业参与的热情和频率越来越高。然而社会转型时期出现的各种社会矛盾往往首先集中在网络平台上,形成强大的舆论压力。而Web2.0的快速发展,使互联网成为文化思想和各种言论观点的主要传播渠道。同时,每天不断大规模增长的舆情数据也为相关部门对网络舆情的管理和态势研判带来了很大困难。因此,本文在国内外学者研究成果的基础上,结合机器学习、信息处理、新闻传播学、自然语言处理、数据挖掘等多学科理论和技术,从网络舆情分析的方法理论、技术和应用以及演化等方面进行了多角度的研究。本文的主要研究内容和创新点包括以下几个部分:第一部分(对应第二章)构建并阐释了网络舆情分析方法理论体系,即以基础方法为参考、常用分析方法为支撑、现代智能信息处理方法为导向的网络舆情分析方法体系。重点对文本内容挖掘法、智能分析法、网络测量分析法等方法进行了分析,并以网络舆情传播中的热点事件“长生疫苗”事件为例,利用内容分析法对该事件相关报导进行实验分析研究。在智能分析方面,本部分详细分析文本内容挖掘和主题结构挖掘的相关概念和算法思想以及其在网络舆情中的应用,并对Single-pass增量聚类算法在文本聚类方面的不足提出通过引入种子话题,新加入的文档只需要与聚类中的种子话题进行比较,并且在比较的过程中不断的更新种子话题来进行改进。第二部分(对应第三章)在第二章的基础上进一步完善网络舆情分析方法体系里的智能分析法。本部分重点探讨了基于外部语义知识的语义分析和潜在语义分析(LSA)。首先,基于外部语义知识的语义分析,本部分以知网为例,利用其作为系统的语义知识资源,分析了基于Hownet语义词典的相似度计算方法并针对词语间相似度计算方法只考虑义原间的距离因素,没有考虑义原深度等对相似度计算的影响,通过引入义原相对位置的影响因子和深度影响因子进行改进,并将其应用到句子相似度和段落相似度的计算过程中,通过相关实验验证改进后的方法计算结果更加准确,符合实际。其次,本部分通过研究潜在语义分析(LSA)的原理和奇异值分解法(SVD)的计算思想,针对SVD中奇异值k数量过大,生成的语义空间和原始向量空间模型高度相似,奇异值k数量过小,则会丢失有用的信息生成的语义空间中有用的结构太少的问题,给出奇异值k数量取值的两种方法,一是在实验过程中可将奇异值降幅最大的点作为临界点,此点对应的奇异值序号则是k值,二是在参考因子分析理论的基础上设定阈值选取前k个文本最大主因子,并给出了具体的降维步骤。最后,本部分针对LSA方法在文本表示和文本类别信息考虑上的不足,通过分析局部区域生成方法,提出了基于文本对类别相关度的大小作为局部区域生成的方法R-LLSA,并通过SVM分类器获取文本类别的相关度参数,同时将其用于局部空间生成过程。最后通过模拟实验将R-LLSA和LLSA-C、LSA-GL分类结果进行对比分析后发现,LLSA-R是一种效率更高的文本分类表示方法,且所需要的特征维度数最小,进一步优化了SVD过程。第三部分(对应第四章)将情感倾向性分析按照处理文本的粒度不同分为词语级、句子级、段落级以及篇章级并加以分析,重点探讨了最小粒度—词语的情感倾向性分析的两种方法:基于词典和基于语料。并且因为情感倾向性判断问题实际可以转化为序列标注问题,本部分参考相关标注模型---CRFs模型,并针对该模型在处理序回归问题时的不足提出了扩展式CRFs模型并得到良好的实验效果。第四部分(对应第五章)分析了网络舆情事件的内涵与特征,并对网络舆情事件的发生频度、趋势、网民群体行为以及演化特点进行了梳理和分析,以“长生疫苗”事件为例利用趋势分析法中的回归分析探讨舆情事件关注度。本部分主要通过选取新浪微博上2018年7月2229日的10万条数据并将其作为训练数据,在进行数据噪声过滤、消歧去重等一系列处理后获得了活跃期内(50个小时)的1200条数据,以此为样本,构建了关于舆情关注度的两个指标(微博数和微博用户数量)的回归模型,并拟合其变化趋势生成相应的趋势线,得到合适的回归函数和最大拟合值,因此可以利用该模型预测出整个舆情事件中微博用户关注度的变化趋势情况。本部分通过参考Weisbuch-Deffuant模型的建模思想,结合网络舆情生成的特殊性以及个体观点接受度的异质性提出网络舆情演化过程中的个体观点交互规则并构建模型。并针对提出的交互规则通过三个仿真实验分别分析了个体观点接受度δ的分布状况、信任阈值θ以及意见领袖对网络舆情演化过程的影响。实验结果表明,相较于δ随机分布这一情况来讲,若δ服从均值为0.5的正态分布,那么网络舆情会快速收敛。而信任阈值θ体现的是群体的特征,若信任阈值θ值偏小,即意味着群体成员基本上不和其他个体产生观点交互,若信任阈值θ取值偏大,即意味着群体成员容易产生观点交互并在交互的过程中调整个人观点。最后一个结论是如果存在意见领袖对网络舆情演化过程有群体极化的影响。
陈晨[3](2017)在《面向Web文本挖掘的主题网络爬虫研究》文中进行了进一步梳理随着Web3.0时代的到来,互联网中Web页面的数量和复杂性呈现出爆炸性增长趋势,伴随的是包含在Web页面中的信息也呈几何数量级增长。Web页面信息通常是由Web页面中的文本体现出来的,因此Web文本数据中隐藏着丰富的,对用户有价值的知识和规则。但是由于Web文本数据半结构化、实时性和离散性等特点,用户很难直接从如此复杂的数据集中获取到自己需要的知识。因此如何有效的从海量的Web本文数据中挖掘出用户真正关心的信息和知识,并以用户能够理解的方式呈现出来,是当下非常热门的研究课题。本文主要从获取Web文本数据和对Web文本数据的分析两方面着手,对如何准确且高效的获取用户所需要的Web文本信息,并挖掘其中有价值的知识展开研究。本文具体的研究工作如下:主题网络爬虫:首先综合分析了现有的主题网络爬虫实现的原理及结构,然后对主题网络爬虫的分类进行介绍,选择功能型主题网络爬虫为本文研究的重点。最后分析了网络爬虫实现语言,选择Node.js这门新兴语言来实现针对主题网络社区的主题网络爬虫。Web文本表示模型:首先综合分析了现有的文本表示模型,然后从本文所面对的Web文本数据以短文本为主的实际情况出发,结合自然语言处理中关键词提取和词向量表示的相关技术,提出一种基于关键词向量的文本表示模型。Web文本聚类算法:首先介绍了Web文本挖掘技术的定义。其次详细介绍了Web文本挖掘中的聚类挖掘技术。在分析了Web文本聚类算法分类的基础上,选取BIRCH算法为本文的Web文本聚类算法,然后在分析了BIRCH算法缺点和不足,并提出一种新的Web文本聚类算法。在以上研究内容的基础上,将Web文本挖掘技术和主题网络爬虫技术的研究成果相结合,设计并实现了面向主题网络社区的信息获取与分析系统。
李晓笛[4](2015)在《Web文本挖掘技术研究及应用》文中指出随着网络的发展,每天都有大量的网站出现。大量的网站产生了海量的Web网页,这些Web网页包含的信息非常广泛,内容也千差万别。因此如何从海量的Web网页中精准的获取到所需要的信息就成为提高人们学习和工作效率的关键。在这种情况下,Web文本分类就显示了极其重要的作用。本文结合了中文文本分类的流程,从网页的获取、中文分词、特征提取、分类算法的改进及实现五个方面做了详细的研究和实现。主要工作包括如下:(1)论文说明了网页获取的过程,介绍了常见的分词算法和特征提取算法。论文分析了Web文本挖掘中常见的分类算法的原理,并且总结了各种分类算法的优势和劣势,以及在现实应用中存在的问题。(2)论文针对待分类的数据,从分类精确度和效率方面综合考虑,选择了朴素贝叶斯分类器并对其进行了改进。重点分析了贝叶斯分类算法的原理及存在的不足,即:属性之间独立型的假设。然后结合实际情况提出了改进算法。改进算法在不改变其属性独立假设的前提下充分考虑了特征项在整个数据集中出现的频次,然后引入了一个加权系数作用在各个特征项的条件概率上,这样就使得分类算法更加准确,并且基本没有增加计算强度。另外,改进算法召回率方面也有不错的性能。(3)论文对改进朴素贝叶斯分类器算法的并行计算进行了可行性的分析,结合目前常见的大数据处理框架MapReduce,对改进的朴素贝叶斯分类器设计了具体的流程,并且做出了实现方案。设计方案在伪分布模式下搭建实验环境进行实验。从网页的获取、分词和分类三个方面进行了实验和探索。(4)最后,论文结合实验获得的结果对改进算法的分类效果进行了评价,实验达到了预期的结果。总之,论文分析了Web文本分类的各个环节,研究并改进了朴素贝叶斯分类算法,并在大数据的环境下对其做了具体的实现。论文最后对改进朴素贝叶斯分类算法和朴素贝叶斯的分类效果进行了比较,证明了改进算法的效果确实有了提高。
陈美秋[5](2014)在《基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究》文中指出现如今,医疗器械成为医院正常运行的重要组成部分,各类医疗器械成为医生的得力助手。然而,医疗器械的故障是经常发生的事情,给医院带来了巨大的损失,给病人带来了不便。面对这样一个困难,作者希望有智能化的过程对医疗器械故障进行处理。因此本文将文本自动分类技术引入医疗器械故障诊断领域,实现对文本的自动分类。论文以短文本的特点,短文本分类的特点、应用前景为切入点展开叙述,引入本文研究的重点—医疗器械故障的维修记录短文本,对此类短文本基于已有的故障类别进行文本自动分类实现。在文本挖掘中有关文本分类的算法很多,本文选择以贝叶斯算法为基础的朴素贝叶斯分类算法来实现。在短文本自动分类器的实现过程中,历经数据的采集、短文本预处理、特征词选择和提取、朴素贝叶斯算法实现,在四个不同阶段,一一克服难题,为短文本分类器的最终实现打下了坚实的数据基础。生产分类器后,利用查全率和查准率指标对生成的短文本分类器的分类效果进行测试和评估。这是文本挖掘技术在医疗器械领域的一大应用。论文进一步在故障分类基础上采用GRI关联算法对不同类别之间的关联性进行分析,这也是本论文的创新之处,通过此关联性分析结果中的置信度和支持度来挖掘、分析不同故障类别的故障之间的关联性强弱问题,期望通过此能给出一套合理的预警机制。
张彦[6](2011)在《web中文文本的数据挖掘技术研究》文中认为随着Web信息的急剧增长,人们迫切需要一种技术来对信息进行组织和管理,帮助用户快速、准确地找到需要的信息,数据挖掘和web技术相结合的web挖掘应运而生。文本作为web上信息的主要形式,文本挖掘近年来成为研究的热点。中文文本挖掘起步较晚,在理论研究和应用方面都落后于英文文本挖掘,因此本文以web中文文本挖掘作为研究重点。本文主要研究的是文本挖掘中web中文文本的聚类和分类问题。文本分类和聚类是文本挖掘中的关键技术,通过对文本进行归档整理,可以在很大程度上解决信息爆炸和信息杂乱的问题。同时作为信息检索、信息过滤、搜索引擎、电子图书馆、文本数据库等领域的技术基础,文本分类和聚类应用领域非常广泛。文章首先对相关的理论知识进行了介绍,概念从大到小包括数据挖掘、web挖掘、文本挖掘以及文本分类和聚类;对文本进行分类和聚类首先要把文本转化为计算机可以处理的形式,所以接下来我们对web文档矩阵化形式转化的预处理过程进行了研究;最后将我们提出的聚类和分类算法应用到中文文本的聚类和分类中。文章介绍和实现了常用的聚类算法:K-means算法和模糊c均值(FCM)算法。将web文档矩阵化首先要从网页中去掉HTML标记,滤掉无关信息,解析出纯文本;中文文本和英文文本不同,词与词之间没有间隔,所以要进行分词处理;然后采用权重计算公式计算出特征词项的权重,基本思想是若某特征词在本篇文档中出现的次数多,而在其他文档中出现的次数少,该词被赋予更高的权重来代表本文档,并与其他文档进行区分。这样web文档就转化为词项-文档的向量空间,以便后面的聚类和分类算法的执行。文章分析了文本挖掘过程中文本矩阵的高维性和稀疏性的特点,并针对此特点提出将基于子空间的聚类算法和基于语义的奇异值分解的聚类算法两种方法应用于中文文本的聚类。某个主题的文本会有特定的主题词子集,存在着特征子空间的结构。采用子空间聚类可以忽略掉对分类不重要的维,给重要的维赋予更高的权重,凸显主题词子集对分类的作用,解决高维性和稀疏性问题,所以基于子空间的聚类可以提高聚类的准确率和效率,对文档数据的实验结果证明,该算法聚类效果令人满意。奇异值分解对数据集的特征值按重要性排序,一方面把不重要的维看做“噪声”忽略掉,凸显词项和文章之间的语义关系,另一方面使得文档矩阵维数大大缩减,从而提高文档聚类的准确性。我们先用奇异值分解对文档矩阵降维,后用人工鱼群优化算法对文本聚类,对文档数据的实验结果证明这种方法在保证准确率的情况下提高了效率。本文还实现了改进的支持向量机的文本分类。因为支持向量机的惩罚因子和核函数参数的选择对分类的效果有很大影响,所以本文首先用粒子群优化算法优化惩罚因子和核函数参数,后用支持向量机进行文本分类,仿真结果证明支持向量机分类的有效性。
陈烨[7](2011)在《基于REIE的Web信息抽取技术研究》文中研究说明近年来,随着Web信息抽取技术研究的深入和快速的发展,基于正则表达式的信息抽取技术已成为现阶段数据挖掘领域的一个研究热点。本文对这项技术进行深入研究,通过比较和分析当前Web信息抽取领域中的经典方法,改进了一些已有的算法并提出了基于REIE(Regular Expression Information Extraction)算法的信息抽取技术。本文首先介绍了Web信息抽取技术的相关理论知识以及体系结构,通过分析和比较几种经典的信息抽取方法,提出了一种基于REIE的信息抽取技术,同时给出了信息抽取系统的评价标准。然后,通过分析Web文本,介绍基于Web文本挖掘的方法,利用Web文本挖掘的相关性,详细地分析了HTMLParser的信息解析方式和抽取原理,并且给出了HTMLParser的数据结构。最后根据正则表达式的抽取规则,提出了本系统的核心算法,即REIE抽取算法。本文最后实现了一个基于REIE的网页内容抽取系统,主要抽取网页新闻的标题,超链接,正文内容等相关信息。该系统能实时的进行网页内容抽取,并将抽取结果以可视化的方式呈现给用户,同时,系统从实验角度验证本文方法的有效性。实验表明,对于基本的新闻相关信息,本文提出的方法具有较高的抽全率和抽准率,并且在一定程度上提高了Web信息抽取的实时性和准确性。
沙有闯[8](2010)在《基于Web文本挖掘的网络口碑监测系统研究》文中研究说明网络口碑是指网民通过论坛、博客等网络渠道和其他网民共同分享的关于公司、产品或服务的文字及各类多媒体信息。随着互联网的快速发展,网络口碑将直接影响到企业和政府的信誉度。在日益复杂的网络环境下,网络口碑监测成为政府和企业必须重视的工作。构建网络口碑监测系统可以有效地协助企业掌控网络口碑及其发展趋势,有效应对网络口碑危机。本文基于文本挖掘技术研究了网络口碑信息监测相关技术,并给出了网络口碑监测系统的设计及原型实现。在网络口碑监测系统中,通过元搜索技术采集互联网上各种形式的口碑信息,从而全面地获取网民对企业或产品的评价;同时通过网页解析、中文分词及特征提取,构建向量空间模型;最后通过文本挖掘技术将其自动聚类,提取出信息中包含的情感倾向。本文首先讨论了网络口碑信息采集技术,回顾了搜索引擎技术的发展及分类,介绍了网络爬虫相关技术和元搜索技术。结合网络口碑信息监测的需求,选择了元搜索技术来采集网络口碑信息。在完成对数据采集技术的讨论后,本文讨论了网页信息预处理的相关技术,包括网页解析技术、中文分词技术及特征提取技术。网页解析方面,主要介绍了HTML与XML语言的解析方法及元数据提取方法。中文分词方面,主要介绍了中文分词算法及ICTCLAS分词系统。特征提取方面,主要介绍了文本特征的表示方法及特征提取的方法。结合网络口碑监测系统的需求,本文使用正则表达式提取网页文档的内容,并结合ICTCLAS分词系统实现中文分词,最后通过计算词语的相对词频来提取文档特征构建向量空间模型。接着,本文重点研究了文本聚类技术和倾向性分析技术。聚类技术方面,回顾了聚类的常见算法并结合知网语义模型和多次采样的方法给出了一种K-Means算法的改进。文本倾向性方面,本文基于知网构建情感词典,来测度特征词和文本的情感倾向性。结合对文本挖掘相关技术的研究,本文最后给出了网络口碑信息监测系统的设计模型和原型实现。
姚继伟[9](2010)在《基于XML的Web文本挖掘的研究》文中认为Web上的信息资源不但极其丰富,而且无时无刻不在更新,为了能够及时、准确地从Web上获取到我们需要的信息,需要对Web上的各种数据资源进行挖掘分析,以期能够发现其中蕴含的知识或规律。本文主要通过研究Web数据挖掘和XML的相关技术,设计并实现了一个简要的Web文本挖掘模型。首先,该模型采用元搜索引擎技术能够快速、全面地搜集用户需要的各种资源,并将搜集到的文本数据采用XML技术进行存储,实现了Web文本数据的半结构化。其次,该模型选择目前最有效的向量空间模型进行文本的表示和最优的卡方统计法进行文本特征的选择。接着,该模型主要采用了文本分类的方法对文本内容进行挖掘分析。在基于距离分类算法的基础上,设计并实验了各种不同参数的设置对分类结果的影响,并选取了当前条件下最优分类结果所对应的分类器作为挖掘得到的知识。最后,该模型提供了可视化的界面对文本数据资源进行分类显示,并提供每类文本的简要信息和不同查看方式,使之能够清晰准确的浏览到各种有用的信息。
程博[10](2010)在《Web文本分类方法研究与系统实现》文中进行了进一步梳理近年来,Web已经飞速发展成为了世界上数据量最大的公共信息源。如何使Web用户能够在浩瀚的信息资源中方便、快捷的定位到所需要的信息,已经成为迫切需要解决的问题。Web文本的正确分类正是其中的核心问题。Web文本分类源自于自动分类技术,是Web文本挖掘的重要组成部分。它不仅可以有效提高用户的搜索效率,帮助用户快速、准确的定位到目标知识,而且还可以获取到不同用户的类别兴趣特征,为满足用户的个性化服务要求提供参考。目前的分类研究多把文档类别看成是平面化的、不相交的,没有考虑到类别间的层次关系。当类别数目较多时,平面分类学习得到分类器的时间开销大,而且在对未知文档分类时,需要与全部类模型进行比较,这显然很不恰当。本文在对Web文本挖掘及自动分类技术进行深入研究的基础上,结合类别间的层次关系,实现了一个多层次的Web文本分类系统。本文创新点和关键技术如下:1.建立了层次化的训练和分类模型:本文针对网页内容丰富、涉及多领域的多个类别的特征,分析了平面分类方法在多类别情况下存在的问题,提出了层次分类的思想,建立了层次化的训练和分类模型。2.设计并实现了Web文本的自动抽取器:Web网页中掺杂的广告、超链接等噪声给Web文本分类带来了极大困扰。本文实现了一个Web文本自动抽取器,使Web页面经过处理变为较纯净的包含标题和正文内容的纯文本。3.提出了一种适合于Web网页的关键词提取方法:网页中不同位置和不同词性的词语对表达网页内容所起的作用也有所不同,针对这一特点,本文提出了基于词性、位置和词频信息加权的关键词提取方法来进一步过滤掉网页噪声词,取得了较好的效果。4.提出了一种基于χ2统计量加权的分类方法:χ2统计量能够很好的反映特征和类别间的相关性。本文创新性的将χ2统计量应用于文本分类,不但简化了分类过程,而且在实际应用中得到了较好的分类速度和准确度。本论文根据Web文本的特点提出了一套针对大规模、多类别的Web文本进行分类的实施方案,设计了一个Web文本的多层次分类系统。结果表明,本系统在实践中的分类性能优于一般的平面分类器。
二、Web文本挖掘中的一种中文分词算法研究及其实现(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、Web文本挖掘中的一种中文分词算法研究及其实现(论文提纲范文)
(1)基于文本挖掘的家具用户潜在需求可视化研究(论文提纲范文)
致谢 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景、目的及意义 |
1.1.1 研究背景 |
1.1.2 研究目的 |
1.1.3 研究意义 |
1.2 研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 研究内容及方法 |
1.3.1 研究内容 |
1.3.2 研究方法 |
1.4 本文的创新之处 |
1.5 研究框架 |
第二章 文本挖掘概述 |
2.1 文本挖掘 |
2.1.1 文本挖掘的发展进程 |
2.1.2 文本挖掘的主要研究领域 |
2.1.3 文本挖掘的相关应用 |
2.2 文本挖掘的一般流程 |
2.3 文本挖掘工具 |
2.4 本课题的文本挖掘工具及流程 |
2.5 本章小结 |
第三章 基于网购评论的评价指标建立 |
3.1 家具概述 |
3.2 家具调研与研究对象确定 |
3.3 评价指标构建标准 |
3.4 基于家具网购评论评价指标体系构建 |
3.4.1 家具网购评论的评价指标体系的构建 |
3.4.2 研究假设 |
3.5 本章小结 |
第四章 数据获取及预处理 |
4.1 数据获取方法 |
4.1.1 网络爬虫 |
4.1.2 爬虫工具 |
4.2 数据来源及选择 |
4.2.1 线上家具购物网站的选择 |
4.2.2 家具产品的选择 |
4.3 爬取过程 |
4.4 文本预处理 |
4.4.1 数据清洗 |
4.4.2 中文分词 |
4.4.3 去停用词 |
4.5 本章小结 |
第五章 文本特征词提取 |
5.1 文本特征提取 |
5.2 文本特征评价的方法 |
5.3 文本特征词提取过程 |
5.3.1 基于词云图的词频统计 |
5.3.2 基于TF-IDF算法的关键词提取 |
5.3.3 建立共词矩阵 |
5.4 可视化呈现 |
5.4.1 基于词频的可视化 |
5.4.2 基于词频的可视化过程 |
5.4.3 基于语义的可视化 |
5.4.4 基于语义的可视化过程 |
5.5 本章小结 |
第六章 情感分析 |
6.1 文本情感分析 |
6.2 文本情感分析技术 |
6.3 文本情感分析过程 |
6.4 可视化呈现 |
6.4.1 基于情感的可视化 |
6.4.2 基于情感的可视化过程 |
6.5 本章小结 |
第七章 基于家具用户潜在需求的分析 |
7.1 基于网购评论的家具用户需求分析 |
7.1.1 用户需求 |
7.1.2 网购的行为过程分析 |
7.1.3 线上家具用户需求分析步骤 |
7.1.4 线上家具用户群体的研究 |
7.2 基于评价指标的相关分析 |
7.2.1 基于评价指标的产品关键词分析 |
7.2.2 基于评价指标的产品情感值分析 |
7.3 关于折叠桌的研究结论 |
7.4 本章小结 |
第八章 总结与展望 |
攻读学位期间发表的学术论文 |
参考文献 |
附录 |
(2)基于语义分析的网络舆情研究(论文提纲范文)
论文创新点 |
中文摘要 |
ABSTRACT |
第一章 引言 |
1.1 课题研究的背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 网络舆情的研究现状 |
1.2.2 基于语义分析的网络舆情研究现状 |
1.2.3 网络舆情演化研究现状 |
1.3 研究思路、研究路线及方法 |
1.3.1 研究思路 |
1.3.2 技术路线 |
1.3.3 研究方法 |
1.4 研究框架和主要内容 |
第二章 网络舆情分析方法 |
2.1 网络舆情分析方法体系的构建 |
2.2 网络计量法 |
2.3 内容分析法 |
2.4 网络舆情智能分析法 |
2.4.1 网络舆情文本内容挖掘 |
2.4.2 网络舆情主题结构挖掘 |
2.4.3 基于主题挖掘的话题发现 |
2.5 本章小结 |
第三章 基于语义分析的智能分析 |
3.1 语义分析基本理论 |
3.2 基于外部语义知识的语义分析 |
3.2.1 词语相似度计算 |
3.2.2 句子相似度计算 |
3.2.3 段落相似度计算 |
3.3 潜在语义分析 |
3.3.1 潜在语义分析的原理 |
3.3.2 奇异值分解 |
3.3.3 潜在语义分析的应用 |
3.3.4 潜在语义分析的局限性 |
3.3.5 潜在语义分析的改进 |
3.3.6 实验及结果分析 |
3.4 本章小结 |
第四章 网络舆情的情感倾向性分析 |
4.1 情感倾向的特征分析 |
4.2 情感倾向分析的应用 |
4.3 不同粒度的情感倾向性分析 |
4.4 CRFs模型构建及改进 |
4.5 语料词典资源及相关评测 |
4.6 本章小结 |
第五章 网络舆情演化分析 |
5.1 网络舆情的相关理论 |
5.1.1 网络舆情事件的内涵与特征--以公共卫生事件为例 |
5.1.2 网络舆情的发生频度与趋势--以公共卫生事件为例 |
5.1.3 突发公共卫生事件网络舆情演化特点 |
5.2 网络舆情中的群体行为分析 |
5.2.1 网络舆情中的网民构成及情绪分析 |
5.2.2 网络舆情中的群体行为识别和特征分析 |
5.2.3 网络舆情中的群体行为趋势分析 |
5.3 网络舆情演化机制分析 |
5.3.1 网络舆情因素分析 |
5.3.2 网络舆情演化的三个阶段 |
5.3.3 网络舆情演化模型 |
5.3.4 Weisbuch-Deffuant模型构建 |
5.3.5 实验仿真 |
5.4 本章小结 |
第六章 全文总结及展望 |
6.1 全文总结 |
6.2 研究展望 |
参考文献 |
攻读博士学位期间的主要科研成果 |
致谢 |
(3)面向Web文本挖掘的主题网络爬虫研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 背景与意义 |
1.2 国内外研究综述 |
1.3 本文研究内容 |
1.4 本文结构安排 |
第二章 论文相关技术研究 |
2.1 网络爬虫技术研究 |
2.1.1 通用网络爬虫概述 |
2.1.2 网络爬虫爬行策略 |
2.1.3 主题网络爬虫概述 |
2.1.4 主题网络爬虫分类 |
2.2 WEB文本挖掘技术研究 |
2.2.1 Web文本挖掘概述 |
2.2.2 Web文本挖掘技术 |
2.2.3 Web文本聚类挖掘 |
2.3 本章小结 |
第三章 面向主题社区的主题网络爬虫研究 |
3.1 主题社区网站数据获取方案 |
3.1.1 基于第三方应用程序编程接口(API)获取数据 |
3.1.2 基于主题网络爬虫获取数据 |
3.2 网络爬虫编写语言 |
3.3 基于NODE.JS的主题网络爬虫设计与实现 |
3.3.1 网络爬虫总体设计 |
3.3.2 初始URL模块设计与实现 |
3.3.3 网页下载模块设计与实现 |
3.3.4 网页解析模块设计与实现 |
3.3.5 数据存储模块设计与实现 |
3.4 本章小结 |
第四章 基于BIRCH算法的WEB文本聚类研究 |
4.1 WEB文本聚类流程 |
4.2 基于特征词向量的短文本表示模型 |
4.2.1 基于TF-IDF算法的特征提取 |
4.2.2 基于Word2vec的词向量表征 |
4.2.3 基于特征词向量的文本表征 |
4.3 文本聚类算法——BIRCH算法研究 |
4.3.1 聚类特征 |
4.3.2 聚类特征树 |
4.4 面向文本聚类的BIRCH算法改进 |
4.5 本章小结 |
第五章 面向主题网络社区的信息采集和分析系统设计与实现 |
5.1 系统总体设计 |
5.2 前端模块设计与实现 |
5.2.1 前端模块总体设计 |
5.2.2 路由模块设计与实现 |
5.2.3 前端模板设计与实现 |
5.3 爬虫模块设计 |
5.4 文本分析模块设计 |
5.4.1 中文分词模块设计 |
5.4.2 文本表示模块设计 |
5.4.3 文本聚类模块设计 |
5.5 数据库设计 |
5.6 系统结果分析 |
5.6.1 当前热点 |
5.6.2 典型意见 |
5.7 系统功能测试 |
5.7.1 爬取功能测试 |
5.7.2 分析功能测试 |
5.8 本章小结 |
第六章 全文总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(4)Web文本挖掘技术研究及应用(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
目录 |
1 引言 |
1.1 论文背景及意义 |
1.2 国内外研究现状 |
1.2.1 中文文本挖掘技术 |
1.2.2 大数据处理技术 |
1.3 论文所做的工作 |
2 Web文本挖掘技术及流程 |
2.1 Web挖掘的分类 |
2.2 文本预处理 |
2.2.1 Web网页的获取 |
2.2.2 中文分词 |
2.3 文本表示 |
2.3.1 向量空间模型 |
2.3.2 权值计算公式 |
2.3.3 相似度计算公式 |
2.4 特征提取 |
2.4.1 特征词的文档频率(DF) |
2.4.2 信息增益方法(IG) |
2.4.3 互信息方法(MI) |
2.4.4 x2统计量(CHI) |
2.5 经典的分类算法 |
2.5.1 KNN分类器 |
2.5.2 支持向量机 |
2.5.3 决策树算法 |
2.6 Web文本挖掘的一般流程 |
3 朴素贝叶斯分类器及其改进算法 |
3.1 贝叶斯分类器的种类及其特点 |
3.2 几种贝叶斯分类器的原理 |
3.2.1 朴素贝叶斯文本分类器 |
3.2.2 贝叶斯网络分类器 |
3.2.3 TAN分类器 |
3.3 基于特征加权的朴素贝叶斯分类器的改进 |
3.4 分类器的评价标准 |
3.5 总结 |
4 Web文本挖掘关键技术在大数据下的研究 |
4.1 Hadoop框架 |
4.1.1 Hadoop平台概述 |
4.1.2 HDFS |
4.2. MapReduce工作原理分析 |
4.3 分布式爬虫Nutch |
4.3.1 Nutch爬虫 |
4.3.2 Nutch中的MapReuce算法 |
4.4 特征提取的分布式实现 |
4.5 总结 |
5 Hadoop环境下改进朴素贝叶斯分类器的实现 |
5.1 Hadoop平台的搭建 |
5.2 数据的获取 |
5.3 中文的分词 |
5.4 改进朴素贝叶斯分类的实现 |
5.5 实验结果分析 |
6 总结和展望 |
6.1 论文总结 |
6.2 展望 |
参考文献 |
作者简历及攻读硕士学位期间取得的研究成果 |
学位论文数据集 |
(5)基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
一、研究背景与意义 |
(一) 研究背景 |
(二) 研究意义 |
二、国内外相关研究现状 |
(一) 故障诊断的国内外研究现状 |
(二) 基于文本挖掘的设备故障诊断的研究现状 |
(三) 医疗器械的故障诊断现状 |
(四) 文本分类的国内外研究现状 |
(五) 短文本自动分类国内外研究现状 |
(六) 研究评价 |
三、研究框架 |
(一) 研究目的 |
(二) 研究内容 |
(三) 研究方法 |
(四) 技术路线 |
(五) 研究创新 |
四、本文的组织结构 |
第二章 医疗设备故障诊断技术与文本分类技术 |
一、医疗设备故障诊断技术简介 |
(一) 医疗器械系统故障及故障诊断 |
二、短文本分类简介 |
(一) 短文本分类概述 |
(二) 短文本分类特点 |
(三) 短文本分类的应用前景 |
(四) 短文本分类的流程 |
三、本章小结 |
第三章 基于贝叶斯的医疗设备故障诊断分类方法 |
一、朴素贝叶斯方法在故障诊断中的应用 |
(一) 贝叶斯算法简介 |
(二) 朴素贝叶斯分类方法 |
二、医疗设备故障诊断分类系统的设计 |
(一) 文本的预处理 |
(二) 特征词的选择 |
(三) 分类器的构建 |
三、本章小结 |
第四章 医疗器械故障诊断分类的使用和测评 |
一、医疗器械故障诊断自动分类的实验环境和数据 |
(一) 实验环境 |
(二) 实验数据与实验界面 |
二、短文本分类试验效果评估 |
三、实验结果与分析 |
四、本章小结 |
第五章 基于分类的故障关联性分析 |
一、关联规则的相关概念 |
二、基于分类情况下关联性分析 |
(一) 故障分类数据的表示 |
(二) 分类基础上关联算法GRI |
(三) 分类基础上关联实现与分析 |
三、本章小结 |
第六章 结论与展望 |
一、总结 |
二、进一步展望 |
参考文献 |
致谢 |
(6)web中文文本的数据挖掘技术研究(论文提纲范文)
目录 |
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究状况 |
1.3 文本挖掘的主要研究领域和难点 |
1.4 论文的研究内容和结构 |
第二章 相关理论基础 |
2.1 数据挖掘综述 |
2.1.1 数据挖掘的功能和内容 |
2.1.2 数据挖掘的关键技术 |
2.2 Web挖掘概述 |
2.2.1 Web数据的特点 |
2.2.2 Web挖掘分类 |
2.3 web文本挖掘 |
2.3.1 web文本挖掘的过程 |
2.3.2 web文本挖掘的主要内容 |
2.4 文本分类和聚类 |
2.4.1 文本分类聚类概述 |
2.4.2 文本分类 |
2.4.3 文本聚类 |
2.4.4 文本分类和聚类性能评估 |
2.5 本章小结 |
第三章 文本预处理中的关键技术 |
3.1 web文本去噪 |
3.2 中文文本分词 |
3.3 去停用词 |
3.4 向量空间模型 |
3.5 特征项权重 |
3.6 特征选择 |
3.7 几种相似度计算公式 |
3.8 本章小结 |
第四章 基于向量空间模型的中文文本聚类 |
4.1 几种聚类算法 |
4.1.1 k-means算法 |
4.1.2 模糊c均值算法 |
4.2 中文文本聚类 |
4.3 基于子空间的中文文本聚类 |
4.3.1 TCPSO的评价函数 |
4.3.2 TCPSO的寻优策略:PSO |
4.3.3 参数设置和实验结果 |
4.3.4 小结 |
4.4 基于奇异值分解的中文文档聚类 |
4.4.1 奇异值分解提取特征项 |
4.4.2 人工鱼群算法聚类 |
4.4.3 实验及结果 |
4.5 本章小结 |
第五章 基于支持向量机的文本分类 |
5.1 SVM核心思想及优点 |
5.1.1 线性可分情形与最优分类超平面 |
5.1.2 线性不可分情形与松弛变量 |
5.1.3 非线性情形与核函数 |
5.1.4 支持向量机的优点 |
5.2 多类支持向量机 |
5.2.1 一对多方法 |
5.2.2 一对一方法 |
5.2.3 决策导向非循环图 |
5.3 基于SVM的中文文本分类系统结构 |
5.4 基于SVM的中文文本分类实现 |
5.4.1 核函数的选择 |
5.4.2 实验过程及结果 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 本文的主要工作 |
6.2 工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间发表的论文 |
学位论文评阅及答辩情况表 |
(7)基于REIE的Web信息抽取技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 引言 |
1.2 课题背景及意义 |
1.3 Web 信息抽取技术的发展与现状 |
1.4 本文的研究工作 |
1.5 论文的组织结构 |
第二章 Web 文本分析与挖掘 |
2.1 Web 文本分析 |
2.1.1 网页预处理 |
2.1.2 页内链接抽取 |
2.1.3 正文文本抽取 |
2.1.4 中文分词技术 |
2.1.5 特征向量的项权重 |
2.2 Web 文本挖掘 |
2.2.1 Web 文本挖掘的定义 |
2.2.2 文本特征项提取 |
2.2.3 文本关联 |
2.2.4 文本分类 |
2.2.5 文本聚类 |
2.3 本章小结 |
第三章 Web 信息抽取技术 |
3.1 Web 信息抽取技术概述 |
3.2 Web 信息抽取体系结构 |
3.2.1 Web 页面的特点 |
3.2.2 Web 网页格式分析 |
3.3 Web 信息抽取的典型方法 |
3.3.1 基于自然语言处理方式的信息抽取 |
3.3.2 基于 HTML 结构的信息抽取 |
3.3.3 基于本体(Ontology)的信息抽取 |
3.4 信息抽取系统的评价标准 |
3.5 本章小结 |
第四章 基于 REIE 的信息抽取 |
4.1 HTMLParser 包 |
4.1.1 DOM、SAX 解析方式 |
4.1.2 HTMLParser 包解析方式 |
4.1.3 HTMLParser 的抽取原理 |
4.1.4 HTMLParser 的数据结构 |
4.2 正则表达式 |
4.2.1 正则表达式的定义 |
4.2.2 正则表达式的常用举例 |
4.3 REIE 算法 |
4.4 本章小结 |
第五章 网页内容抽取系统的实现 |
5.1 网页预处理模块 |
5.1.1 boost 正则表达式库 |
5.1.2 过滤网页的无用标记 |
5.2 网页信息抽取模块 |
5.3 系统的实现与功能分析 |
5.3.1 系统的设计与理论 |
5.3.2 系统的基本功能演示 |
5.3.3 系统的性能分析 |
5.4 本章小结 |
第六章 总结和展望 |
6.1 本论文工作总结 |
6.2 工作展望 |
致谢 |
参考文献 |
硕士在读期间的研究成果 |
(8)基于Web文本挖掘的网络口碑监测系统研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 网络口碑监测系统的研究背景 |
1.1.1 网络口碑概述 |
1.1.2 网络口碑监测系统概述 |
1.1.3 国内外相关研究现状 |
1.2 Web文本挖掘概述 |
1.2.1 Web数据挖掘 |
1.2.2 Web文本挖掘 |
1.3 本文研究的主要内容 |
1.4 本文的编写与组织 |
第2章 网络口碑信息采集 |
2.1 搜索引擎技术 |
2.2 网络爬虫技术 |
2.2.1 网络爬虫的概念及工作原理 |
2.2.2 网络爬虫的网页搜索策略 |
2.3 元搜索技术 |
2.3.1 元搜索技术概述 |
2.3.2 元搜索引擎结构 |
2.3.3 元搜索数学模型 |
2.4 本章小结 |
第3章 网络口碑信息的预处理 |
3.1 网页解析技术 |
3.1.1 HTML/XML语言 |
3.1.2 HTML解析方法与信息提取 |
3.1.3 XML文档提取 |
3.2 中文分词技术 |
3.2.1 中文分词技术概述 |
3.2.2 中文分词的常用算法 |
3.3 向量空间模型与特征提取 |
3.3.1 文本特征的表示 |
3.3.2 文本特征提取 |
3.4 本章小结 |
第4章 网络口碑信息的挖掘 |
4.1 网络口碑自动聚类技术 |
4.1.1 聚类技术概述 |
4.1.2 文本的相似度衡量 |
4.1.3 聚类分析的常用算法 |
4.1.4 K-Means算法 |
4.1.5 一种基于知网改进的聚类算法 |
4.2 文本倾向性分析 |
4.2.1 文本倾向性分析概述 |
4.2.2 基于知网的情感词典构建 |
4.2.3 文本倾向性度量 |
4.3 本章小结 |
第5章 网络口碑监测系统设计与原型实现 |
5.1 网络口碑监测系统设计 |
5.1.1 系统设计目标及总体架构 |
5.1.2 系统功能描述 |
5.2 数据采集模块 |
5.2.1 数据采集模块功能设计 |
5.2.2 采集模块配置文件说明 |
5.2.3 数据采集模块程序设计 |
5.3 信息预处理模块 |
5.3.1 预处理模块功能设计 |
5.3.2 HTML解析与内容提取 |
5.3.3 中文分词与词性标注 |
5.3.4 特征提取 |
5.4 口碑信息挖掘与分析模块 |
5.4.1 挖掘与分析模块功能设计 |
5.4.2 文本聚类 |
5.4.3 倾向性分析 |
5.5 本系统的特色 |
第6章 总结与展望 |
6.1 总结 |
6.2 下一步工作的方向 |
参考文献 |
致谢 |
攻读硕士学位期间发表的学术成果 |
(9)基于XML的Web文本挖掘的研究(论文提纲范文)
提要 |
第1章 绪论 |
1.1 问题的提出 |
1.2 论文研究的意义 |
1.3 本文的内容和组织 |
第2章 WEB 文本挖掘相关知识 |
2.1 WEB数据挖掘的含义及分类 |
2.2 WEB文本挖掘的常用技术 |
2.2.1 文本摘要 |
2.2.2 文本分类 |
2.2.3 文本聚类 |
2.2.4 关联规则 |
2.3 WEB文本挖掘流程 |
第3章 XML 相关知识 |
3.1 XML 的结构和特点 |
3.2 XML 文档的解析方式 |
3.3 XML 在 WEB文本挖掘中的应用 |
第4章 WEB 文本挖掘的关键技术 |
4.1 元搜索引擎 |
4.2 中文分词 |
4.3 文本表示 |
4.4 特征选择 |
第5章 WEB 文本挖掘中的分类技术 |
5.1 WEB文本分类的主要方法 |
5.1.1 决策树方法 |
5.1.2 朴素贝叶斯分类方法 |
5.1.3 支持向量机 |
5.1.4 基于距离的分类 |
5.2 WEB文本分类结果的评价 |
5.3 WEB文本分类的实验 |
第6章 系统模型的设计及实现 |
6.1 WEB文本数据获取 |
6.2 WEB文本数据预处理 |
6.3 文本的特征表示与选择 |
6.4 文本分类 |
6.5 用户界面 |
第7章 总结 |
7.1 本文内容总结 |
7.2 下一步工作展望 |
参考文献 |
致谢 |
摘要 |
ABSTRACT |
(10)Web文本分类方法研究与系统实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 引言 |
1.1 研究背景和意义 |
1.1.1 研究背景 |
1.1.2 Web 挖掘意义 |
1.1.3 Web 文本分类意义 |
1.2 文本分类技术的研究现状 |
1.2.1 国外文本分类研究现状 |
1.2.2 国内文本分类研究现状 |
1.2.3 Web 文本分类研究现状 |
1.3 课题研究难点及突出问题 |
1.4 本文所作主要工作 |
1.5 论文章节安排 |
第二章 Web 文本分类简介 |
2.1 Web 挖掘简介 |
2.1.1 什么是数据挖掘 |
2.1.2 什么是Web 挖掘 |
2.2 Web 文本挖掘 |
2.2.1 Web 文本挖掘定义 |
2.2.2 Web 文本挖掘的功能 |
2.3 Web 文本分类 |
2.3.1 Web 文本分类的定义 |
2.3.2 Web 文本分类的关键技术 |
2.3.3 Web 文本分类方法 |
2.4 本章小结 |
第三章 系统设计原理及总体框架 |
3.1 系统设计原理 |
3.2 系统总体框架 |
3.2.1 逻辑架构模型概览 |
3.2.2 系统用例图 |
3.3 系统评估方法 |
3.3.1 评估方法 |
3.3.2 查准率、查全率、F-score |
3.4 本章小结 |
第四章 Web 文本自动抽取器的实现及分类训练集的建立 |
4.1 Web 文本自动抽取器的实现 |
4.1.1 网页爬取 |
4.1.2 网页解析 |
4.1.3 Web 文本自动抽取器实现 |
4.1.4 自动抽取器抽取结果 |
4.2 层次化训练集的建立 |
4.3 本章小结 |
第五章 Web 文本分类的预处理研究与实现 |
5.1 中文分词 |
5.1.1 中文分词难点 |
5.1.2 中文分词算法比较 |
5.1.3 中文分词实现 |
5.2 文本表示 |
5.3 特征权重计算 |
5.4 特征提取 |
5.4.1 常用的特征提取方法比较 |
5.4.2 基于改进的CHI 的特征提取方法 |
5.4.3 特征提取实现 |
5.4.4 特征提取算法测试 |
5.5 本章小结 |
第六章 Web 文本的多层次分类器实现 |
6.1 决策树和贝叶斯分类算法介绍 |
6.1.1 决策树分类算法 |
6.1.2 贝叶斯分类算法 |
6.2 一种基于χ~2 值加权的层次分类方法 |
6.2.1 Web 文本关键词提取 |
6.2.2 一种基于 χ~2值加权的层次分类方法实现 |
6.3 分类测试结果与分析 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 全文总结 |
7.2 展望 |
致谢 |
参考文献 |
在学期间的研究成果 |
附录一 |
四、Web文本挖掘中的一种中文分词算法研究及其实现(论文参考文献)
- [1]基于文本挖掘的家具用户潜在需求可视化研究[D]. 瞿娟. 南京林业大学, 2020(02)
- [2]基于语义分析的网络舆情研究[D]. 陆青梅. 武汉大学, 2019(08)
- [3]面向Web文本挖掘的主题网络爬虫研究[D]. 陈晨. 电子科技大学, 2017(02)
- [4]Web文本挖掘技术研究及应用[D]. 李晓笛. 北京交通大学, 2015(09)
- [5]基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究[D]. 陈美秋. 华东师范大学, 2014(05)
- [6]web中文文本的数据挖掘技术研究[D]. 张彦. 山东大学, 2011(04)
- [7]基于REIE的Web信息抽取技术研究[D]. 陈烨. 西安电子科技大学, 2011(04)
- [8]基于Web文本挖掘的网络口碑监测系统研究[D]. 沙有闯. 安徽大学, 2010(02)
- [9]基于XML的Web文本挖掘的研究[D]. 姚继伟. 吉林大学, 2010(09)
- [10]Web文本分类方法研究与系统实现[D]. 程博. 电子科技大学, 2010(04)