一、面向化学领域网络资源的文本自动分类算法(论文文献综述)
王颖[1](2021)在《学术资源挖掘方法研究综述》文中指出[目的/意义]全面系统地对学术资源挖掘方法进行梳理,对比和分析不同挖掘方法,探讨应用和未来发展方向。[方法/过程]通过国内外文献数据库获取学术资源挖掘相关文献,对研究主题进行分析,从研究对象、挖掘维度、采用技术等角度对学术资源挖掘方法进行分类对比和分析,将现有挖掘方法分为纵向挖掘和横向挖掘两个维度,并进一步,探讨学术资源挖掘在学术检索、学术推荐、科技前沿识别与预测等方面的应用情况。[结果/结论]目前学术资源挖掘的主要研究对象仍为学术论文和专利,有待于加强不同类型资源的综合挖掘和跨领域挖掘,并且知识图谱、深度学习、大数据等技术在学术资源挖掘的应用研究还需要进一步突破。
李娇,黄永文,罗婷婷,赵瑞雪,鲜国建[2](2020)在《基于多因子算法的自动分类研究》文中研究说明【目的】从实用角度出发,研制领域适用性广、人力投入少的分类标引方法,支撑海量信息资源分类管理与学科领域地图揭示。【方法】基于文献中代表主题概念的术语、概念等关键词和分类号的兼容关系,研究设计多因子加权分类算法,在此基础上提出全流程自动分类标引方案。【结果】以权威的多领域标注语料库和标准集为数据来源进行分类标引实验,单类号文献标引准确率84.1%,召回率79.8%,F值81.9%;双类号文献标引准确率83.4%,召回率78.8%,F值81.0%。【局限】学科分类标引的准确率及完整性依赖高质量标注语料库,且在多类号资源的标引上有待提升。【结论】本文提出的多因子算法自动分类标引具有较高的可操作性和实践应用价值。
于思淼[3](2020)在《主题词匹配的收藏文档标题分类研究》文中指出在信息爆炸的背景下,信息泛滥、信息超载、信息浪费问题日益严重。对高价值信息进行规范化管理与自动分类,对于完善团队文档管理体系、构建个人知识体系具有重要意义。针对收藏文档标题短文本分类这一问题,提出一种无监督主题词抽取算法,并定义主题词表示,然后基于主题词表示对文档标题进行标注,进而解决自动分类问题。为消除分类目标的模糊性与不同用户的差异性,首先定义了主题词选取规范,对主题词选取范围以及主题词粒度进行合理限定;又提出一种基于自定义富标签的文档分类规范。此外,定义了共现项集、共现项关系类型概念,与候选主题词判别条件作为主题词抽取算法的基础研究条件。主题词抽取算法可分为4个步骤:文档集预处理、候选主题词选择、主题词集精简优化与主题词表示。在文档集预处理阶段,设计了一种多元短语提取算法,能够高效地提取二元短语及高元短语。随后设计了候选主题词选择算法,获取候选主题词集与主题词的共现项集。在主题词集精简优化阶段,先后采取精简等价特征项、消除完全构成词冗余构成项、消除双向构成关系、消除短语构成词策略,精简主题词集与共现项集,筛选出高质量的主题词,消除共现项集的冗余。在主题词表示阶段,将共现项集分解为4个集合作为主题词的集合特征,同时将主题词分为4种类型,区分了主题词的重要程度。最后基于主题词表示设计标题文本分类算法,分类算法为文档标注<主题词,构成词>二元标签,体现了文档主题的层次关系,可解释性较好。在实验阶段,由于短语、主题词、文档分类标签的人工标注结果,受数据集以及主观因素影响较大,无法保证标注结果合理性与准确性,未采用准确率等评价指标说明算法的优越性。实验对算法步骤的效果进行验证,并与传统算法进行定性对比分析,验证结果表明:在爬取的网络收藏夹标题短文本数据集上,主题词抽取算法在3493个特征项中抽取出253个Ⅰ类型主题词,数量适中,且主题词意义合理。分类算法为文档创建了标签索引,共获得4174对二元标签。对比分析结果表明,相比于传统算法,本文算法在易用性、可解释性、稳定性、性能等方面均有良好表现。该论文有图6幅,表14个,参考文献65篇。
杜杏叶[4](2019)在《学术论文关键指标智能化评价研究》文中提出以学术论文为载体的科研成果是国家知识创新的重要组成部分,对学术论文进行科学评价是进行知识创新绩效评价的前提。目前,科研成果评价主要以专家匿名的方式进行评审,这种方式受专家自身学术知识水平和学科领域范围等限制,其评审的结果有一定的局限性,可能使得一些优质科研成果被遗漏或迟滞发表,也可能使另一些学术价值相对不高的成果发表在重要的学术期刊上。这将给科学研究的发展带来比较严重的后果,对国家创新能力发展带来负向作用。当前,学术界科研作假等学术不端现象屡有出现,催生了全社会对科研成果尤其是学术论文进行科学评价的迫切需求。因此本研究以人工智能等理论与技术为基础,并结合学术论文评价理论与实践,构建了学术论文智能评价的关键指标,提出智能化评价方法,以期将学术成果评价从主要依靠人工评价转向智能化评价,克服纯粹依靠专家匿名评审的不足。在对当前学术论文评价相关研究进行梳理和分析的基础之上,本文将主要从以下五个方面进行深入研究。(1)构建学术论文评价关键指标体系。在对学术论文深入分析的基础上,采用扎根理论方法对专家评价意见进行编码分析,通过对五个主范畴的研究和比较分析,系统梳理了主范畴与学术论文评审因素之间的关系,构建出结构层次清晰的学术论文评价关键指标。采用主成分分析方法确定指标权重,进一步完善了学术论文评价关键指标体系。(2)建立学术论文智能化评价框架。在传统学术论文评审流程基础上,将大数据、人工智能和其他信息技术融入到学术论文智能化评价的过程,将智能化框架分为三个主要模块:一是自动规范性检查模块;二是专家评价系统模块;三是编辑部处理模块。该智能化评价框架有望将基于智能化评价的学术论文评价理论与方法形成可供学术界实际应用的流程,在实施科学评价的同时,推动学术论文的规范化写作,提高学术论文的写作质量,并最终促进科学研究成果更好地传播与交流。(3)提出学术论文选题新颖性智能化评价方法。构建了学术论文选题新颖度识别与评价流程。进而提出了选题新颖性智能化评价过程,通过构建研究热点地图、特征向量分析及新颖性判断实现选题新颖性指标的智能化评价。最后采用实证研究的方法验证了该方法的可行性。(4)提出学术论文内容创新性智能化评价方法。在学术论文内容分析的基础上,构建了学术论文知识元本体模型,提出了知识元抽取规则,利用Word2Vec和朴素贝叶斯(Naive Bayes)方法对学术论文理论与方法创新进行分类,采用SVM模型构建知识元抽取规则库。在学术论文知识元库构建基础上,提出学术论文研究问题创新性、理论创新性、方法创新性、结论创新性智能化评价的基本方法,构建学术论文创新性智能化评价过程,最后采用实证验证了方法的可行性。(5)提出学术论文引文科学性智能化评价方法。分析引文层次,构建引文评价维度。提出基于引文的学术论文智能化评价思路和步骤,包括高相关学术论文识别、目标文章引用类型识别等内容,构建引文评价模型。通过实证研究验证评价模型和方法的可行性,并对引文评价模型进行修正。本文基于智能化评价的研究视角,运用人工智能的相关理论与方法,构建学术论文评价框架,突破了传统学术论文基于有限同行的评价模式,克服了专家评议的主观性弊端,同时提升了学术论文评价的效率和质量。在理论层面,通过建立学术论文关键指标及其智能化评价框架,将人工智能理论、技术和方法融入了学术论文评价体系,完善和深化了学术论文智能化评价的理论与方法体系。在实践层面,构建了学术论文智能化评价框架,通过实证研究探讨了选题新颖度、内容创新性和引文科学性三个主要指标的智能化评价过程。本研究建立了可供学术界实际应用的论文智能化评价流程,能够引导学术论文写作规范化,促进科学研究成果高效传播与交流,提升科学成果评价的质量和效率,进而推动国家科技创新成果评价的发展。未来将建立智能化综合评价系统,实现学术论文的创新性、科学性、价值性等的评价和自动评审意见的撰写,以推动大数据与人工智能技术在学术评价领域的深度应用。
李华欣[5](2019)在《面向新闻网页的主题识别及自动分类系统的设计与实现》文中提出随着互联网技术的迅速发展与普及,网络资源正在呈现爆炸式增长,其主要表现形式则是以网页这一载体而存在的。虽然互联网丰富的信息资源带来了一定的便利性,但是用户无法在海量的信息资源中快速定位到自己所需的信息,因此网页分类这个问题就应运而生。随着分类技术的发展,网页分类对准确率和效率提出了更高的要求;此外新闻网页作为日常获取信息的媒介,大多数新闻网站的分类标准并不统一,采用分类技术可以有效地对不同新闻网站的网页进行统一标准化分类与管理。首先,本文为明确系统的需求,对系统的整体任务概述、功能需求和业务整体过程进行了分析,阐明了设计新闻网页主题识别及自动分类系统的必要性。其次,针对新闻网页特性表示问题,对网页分类特征进行分析,完成网页内容特征选择工作;研究分析了LDA主题模型,完成新闻网页文本的主题识别,获取主题词,将得到的内容特征和主题词共同作为文本特征;提出一种特征项、特征向量和标签结构位置三元组的方式对网页特征集进行表示。通过对每一个文本特征引入对应的结构特征,并将其转化为结构向量,完成联合特征向量构建。再次,针对网页分类模型问题,分析与研究了机器学习分类模型和卷积神经网络分类模型。基于改进的文本和结构联合特征向量,提出一种网页文本和结构联合特征的卷积神经网络分类模型,使用该模型对新闻网页语料库进行分类。同时,将从语义空间上进行改进的关键词提取算法用于网页文本关键词的获取,完成网页文本概要展示。基于上述的研究与分析,本文明确了分类系统的整体架构和逻辑功能模块,其中包括数据获取、新闻网页分类特征分析和构建分类模型三个核心功能模块。针对系统的工作要求,重点设计基于联合特征的卷积神经网络分类模型,对数据集网页进行分类测试,同时与机器学习分类模型进行对比验证分析,准确度提高3%~4%左右,进一步验证了模型的性能。最后,利用本文的设计方案,设计并完成了面向新闻网页的主题识别及自动分类系统。系统可以应用于面向新闻网页的统一标准化分类管理,具有广泛的应用价值。
马非[6](2019)在《基于HD-MSCNN的煤矿安全隐患信息自动分类方法研究》文中提出我国多位中科院和工程院院士在《中国可持续能源发展战略》中指出,到2050年,煤炭所占能源结构比例仍然不会低于50%。在未来相当长的时间内,煤炭作为主要的能源将在我国经济发展和社会完善等多个进程中发挥突出作用。“安全第一,预防为主”是我国为煤矿领域所确立的安全生产方针,但随着煤矿开采量逐年增加,科学采矿技术以及信息技术的发展,又带来了一系列新的问题,煤矿安全管理工作略显落后,一方面,煤矿安全管理仍然习惯于事后管理,缺少对隐患的事前预防以及安全预测,仅仅将“预防为主”当作形式;另一方面,安全隐患标准化不够,在隐患的识别和处理上不够科学和及时,从而造成隐患监控不到位,事故发生风险较大。针对以上问题,本文着眼于煤矿安全隐患信息的自动处理分析,以深度学习为解决方案,给出了短文本自动分类方法,并将其应用于安全隐患信息的自动分类分级任务中。首先人为构建面向煤矿安全隐患信息领域的专业词库,接着使用Word2vec模型来训练面向煤矿安全隐患信息领域的词向量,将语言信息转换成计算机可识别的向量信息;然后对煤矿安全隐患信息做分词、去停用词等预处理;接着应用深度学习技术来实现安全隐患信息的分类任务,使用深度学习开发框架Pytorch搭建MSCNN网络,并使用预训练好的数据及Word2vec词向量模型进行粗粒度级别的分类模型训练调优;紧接着构建了HD-MSCNN框架并训练,以实现煤矿安全隐患信息细粒度级别分类及安全隐患风险分级。最后将该分类分级模型与煤矿安全隐患信息管理系统进行整合,实现煤矿安全隐患信息的自动分类分级的实际应用。本文实现的煤矿安全隐患信息自动分类框架具有如下优势:第一,相较于其它深度学习文本分类模型,本文提出的基于深度学习的层次结构分类框架HD-MSCNN具有更高的精确度、召回率及1F值;第二,本模型采用了扩展槽机制,具有较强的可扩展性,当新增类别时可更快的实现分类模型的完善而不需要再重新进行训练。
李湘东,高凡,李悠海[7](2018)在《共通语义空间下的跨文献类型文本自动分类研究》文中指出【目的】解决不同文献类型文本之间因写作风格和用词习惯不同而产生的语义差异问题。【方法】选取同时出现在两个不同文献类型文本集合中的领域无关特征和只在其中某一个集合中出现的领域相关特征,利用领域无关特征,对分属两个集合的领域相关特征构建双向图并进行谱聚类,关联表达类似语义的领域相关特征,产生由聚类特征定义的共通语义空间。【结果】实验结果表明,与传统的文本自动分类方法相比,本文方法的分类性能提高了3.0%-6.9%。【局限】构建共通语义空间时,需要大量与待分类文本属于同领域的语料。【结论】共通语义空间能够对不同文献类型的数字资源进行有效整合。
朱乔利[8](2015)在《面向本体的地理信息语义自动分类研究》文中研究指明随着社会信息化程度的不断提高,GIS从传统意义上单一理解为地理信息系统逐步拓展出地理信息科学和地理信息服务等多个方面,其理论技术和应用均得到了蓬勃的发展,向着可运行的、开放的、分布式和网络化的全球GIS的方向发展。全球GIS催生出对地理信息共享与互操作的迫切需求,地理本体研究得到快速发展,地理信息语义研究体现出重要的现实意义,但同时也容易忽视以下几个值得深入研究的问题:其一,欠缺对地理信息分类自身合理性和现实性的研究;其二,缺少对地理概念复杂语义关系的分析;其三,地理本体构建自动化与开放程度较低。针对上述问题,本文以基于本体论的地理信息语义分类研究为出发点,提出通过地理概念本体属性自动抽取来进行形式概念分析以实现地理信息语义自动分类。基于地理本体、形式概念分析以及自然语言处理等理论,深入展开相关研究,着重研究了地理概念的本体属性来源和地理信息语义分类的形式概念分析方法,以及顾及地理信息领域的中文分词方法和本体属性自动标注与抽取方法。总结全文,文章主要的研究内容分为以下方面:首先,全面分析了地理信息语义分类的方法研究与实际应用的研究现状,指出本文研究所要解决的主要问题:地理信息分类的合理性与现实性问题、地理概念语义关系的丰富性问题、以及地理本体构建的开放性与自动化问题。针对这些问题,提出通过地理概念本体属性自动抽取与形式概念分析实现地理信息语义自动分类的构想。其次,针对传统地理信息分类体系随着计算机技术发展逐渐出现的不足之处,对现行的各类地理信息分类标准进行了比较分析,探讨了基于本体论的地理信息语义分类来完善现行分类体系的方法,并提出通过形式概念分析的方法形成地理信息语义分类体系。针对GB/T 13923-2006中的居民地要素和陆地水系要素进行实例研究,从理论和实践方面验证了面向本体的地理信息语义分类方法的可行性,并对该方法得到的分类结果进行了分析以及与传统分类的比较。然后,针对以往研究对地理概念本体属性的确定需要通过人工判断的问题,提出对地理概念定义的描述语句进行中文分词与自动标注来实现本体属性的自动抽取。研究了顾及GIS领域专业的分词方法,为本体属性标注打下了坚实的基础。同时提出采用更丰富的语义关系类型对分词结果进行分析,丰富语义关系内容以辅助地理信息语义分类。接着,分析了从地理概念描述语句中提取本体属性的基本方法,提出地理概念描述语句中的词汇与地理概念本体属性的映射关系,将信息抽取方法中的命名实体识别机制应用于地理信息概念描述语句中表达本体属性的词语识别,实现非结构化自然语言语句到本体属性标注的结构化文本的转换。针对地理概念描述语句的中文分词结果,通过构建地理本体属性词表和JAPE规则,借助GATE语义标注插件实现了陆地水系概念本体属性自动抽取并生成形式概念表,与人工判断结果进行了比较分析。最后,在本文的理论与方法研究基础上,提出了地理信息语义自动分类实验系统的总体架构,集成了中文分词、本体属性标注以及形式概念语义分类等各项功能,对部分地理信息概念进行实验操作得出语义分类层次结构,使地理信息语义自动分类由理论研究向实际应用迈出了重要的一步。面向本体的地理信息语义自动分类研究,旨在从基础的地理信息分类层面进一步丰富地理本体构建的理论体系。借助于地理本体和自然语言处理相关理论与方法,在一定程度上对解决地理信息分类的合理性与现实性问题、复杂语义关系分析以及语义分类自动化程度提升具有参考借鉴意义。
李瑞[9](2015)在《海量文本信息的Web采集与自动分类研究》文中研究说明随着近年来科学技术日新月异般高速发展,互联网中各种信息呈现井喷之势令人应接不暇。如何更好的发现、获取并使用网络文本信息也就成了一个越来越值得关注的问题。海量文本信息的采集与自动分类,是获取、组织和处理大量信息数据的关键核心技术。优秀的采集与分类系统能够快速高效地根据需求从网络中获取相关网页,分析提取网页信息,继而将得到的文本内容按照一定方法进行自动分类处理,以待更好的为人所用,这些无疑对快速发现、研究和解决问题有很大的帮助。因此本文结合网络采集、信息处理和文本自动分类技术,同时引入词池演化特征词的方法对海量文本信息的采集与自动分类问题进行了深入的研究,解决了海量网络信息时代文本数据的有效采集与自动分类问题。基于上述分析,本文主要完成了以下工作:第一,本文分析了信息采集领域与文本自动分类领域常见的关键技术和相关算法。着重阐述了信息采集过程中的源码获取、链接分析匹配和网页信息处理等技术,以及文本分类领域的文本表示、特征选择和常用的分类算法。第二,提出了基于用户定义的Web采集和处理模型。此模型在传统的采集技术基础上,实现了基于链接分析匹配等采集过程的改进,提高了海量文本信息采集的高效性和准确性。第三,在传统分类的特征词选择算法基础上,提出了基于词池演化的多级特征词改进方法,增加了特征词集的规模,并利用改进的特征词集优化分类模型,提高了文本自动分类的准确性。第四,将提出的Web采集与分类模型应用于实际的科研工作之中,实现了一套高效稳定的采集与分类系统。通过系统测试和相关性能分析可知,本文提出的相关算法模型拥有良好的采集与分类效果。
陈美秋[10](2014)在《基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究》文中指出现如今,医疗器械成为医院正常运行的重要组成部分,各类医疗器械成为医生的得力助手。然而,医疗器械的故障是经常发生的事情,给医院带来了巨大的损失,给病人带来了不便。面对这样一个困难,作者希望有智能化的过程对医疗器械故障进行处理。因此本文将文本自动分类技术引入医疗器械故障诊断领域,实现对文本的自动分类。论文以短文本的特点,短文本分类的特点、应用前景为切入点展开叙述,引入本文研究的重点—医疗器械故障的维修记录短文本,对此类短文本基于已有的故障类别进行文本自动分类实现。在文本挖掘中有关文本分类的算法很多,本文选择以贝叶斯算法为基础的朴素贝叶斯分类算法来实现。在短文本自动分类器的实现过程中,历经数据的采集、短文本预处理、特征词选择和提取、朴素贝叶斯算法实现,在四个不同阶段,一一克服难题,为短文本分类器的最终实现打下了坚实的数据基础。生产分类器后,利用查全率和查准率指标对生成的短文本分类器的分类效果进行测试和评估。这是文本挖掘技术在医疗器械领域的一大应用。论文进一步在故障分类基础上采用GRI关联算法对不同类别之间的关联性进行分析,这也是本论文的创新之处,通过此关联性分析结果中的置信度和支持度来挖掘、分析不同故障类别的故障之间的关联性强弱问题,期望通过此能给出一套合理的预警机制。
二、面向化学领域网络资源的文本自动分类算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、面向化学领域网络资源的文本自动分类算法(论文提纲范文)
(1)学术资源挖掘方法研究综述(论文提纲范文)
1 学术资源挖掘研究主题分析 |
2 学术资源挖掘方法分类分析 |
2.1 按研究对象分析 |
2.1.1 学术论文挖掘 |
2.1.2 专利文献挖掘 |
2.1.3 工具书挖掘 |
2.1.4 学术社交媒体挖掘 |
2.1.5 教育资源挖掘 |
2.1.6 综合挖掘 |
2.2 按研究维度分析 |
2.2.1 纵向挖掘 |
1)术语/实体抽取 |
2)专业领域元素识别 |
3)关系抽取 |
4)结构功能识别 |
5)语义建模 |
2.2.2 横向挖掘 |
1)分类 |
2)聚类 |
3)关联分析 |
4)知识网络构建 |
5)网络分析 |
2.3 按采用技术分析 |
3 学术资源挖掘方法应用分析 |
3.1 学术检索系统 |
3.2 学术推荐系统 |
3.3 科技前沿识别与预测 |
4 结论与展望 |
(2)基于多因子算法的自动分类研究(论文提纲范文)
1 引言 |
2 相关研究 |
3 基于多因子算法的自动分类 |
3.1 标引流程 |
(1)标准语料库构建 |
(2)待标引文献分词处理与关键词提取 |
(3)关键词对比 |
(4)多因子打分与分类号排序 |
(5)人工审核 |
3.2 多因子算法模型 |
4 实验设计与结果分析 |
4.1 数据准备 |
4.2 基于多因子算法的自动分类 |
4.3 实验结果分析 |
5 结语 |
支撑数据: |
(3)主题词匹配的收藏文档标题分类研究(论文提纲范文)
致谢 |
摘要 |
abstract |
变量注释表 |
1 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.3 论文研究内容与结构 |
2 文本关键信息抽取理论基础 |
2.1 文本挖掘任务与流程 |
2.2 中文文本预处理 |
2.3 关键信息抽取 |
2.4 关键信息抽取模型 |
2.5 本章小结 |
3 短文本主题词抽取算法研究 |
3.1 主题词选取规范 |
3.2 算法整体流程 |
3.3 数据集预处理 |
3.4 候选主题词选择 |
3.5 精简主题词集 |
3.6 主题词表示 |
3.7 本章小结 |
4 收藏文档标题分类方法研究 |
4.1 收藏文档分类规范 |
4.2 数据集采集 |
4.3 收藏文档标题分类算法 |
4.4 收藏文档标题分类结果 |
4.5 本章小结 |
5 实验结果与分析 |
5.1 实验环境与数据集描述 |
5.2 短文本主题词抽取实验 |
5.3 对比实验 |
5.4 本章小结 |
6 结论与展望 |
参考文献 |
作者简历 |
学位论文数据集 |
(4)学术论文关键指标智能化评价研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状综述 |
1.3.1 国内学术论文评价研究 |
1.3.2 国外学术论文评价研究 |
1.3.3 相关研究述评 |
1.4 研究内容与方法 |
1.5 研究创新点 |
1.6 研究技术路线 |
第2章 相关概念与理论基础 |
2.1 学术论文 |
2.1.1 学术论文的内涵、结构与要素 |
2.1.2 学术论文与知识生产 |
2.1.3 学术论文与知识创新 |
2.2 学术论文评价 |
2.2.1 学术论文评价涵义 |
2.2.2 学术论文评价方法 |
2.2.3 学术论文评价关键指标 |
2.3 学术论文智能化评价 |
2.3.1 学术论文智能化评价内涵 |
2.3.2 学术论文智能化评价过程 |
2.4 扎根理论 |
2.5 知识元理论 |
2.5.1 知识元概念 |
2.5.2 知识元分类与描述 |
2.5.3 知识元的抽取与应用 |
2.6 本章小结 |
第3章 人工智能技术及相关方法 |
3.1 机器学习 |
3.2 专家系统 |
3.3 文本分析 |
3.4 LDA主题识别模型 |
3.5 知识图谱 |
3.6 本章小结 |
第4章 学术论文关键指标分析及智能化评价框架 |
4.1 学术论文评价关键指标解析 |
4.2 专家评价意见数据分析 |
4.3 关键指标体系构建 |
4.4 学术论文智能化评价框架 |
4.5 智能化评价指标提取 |
4.6 本章小结 |
第5章 学术论文选题新颖性智能化评价 |
5.1 选题新颖性智能化评价概述 |
5.2 学术论文选题新颖度识别与判断流程 |
5.3 选题新颖性智能化评价过程 |
5.4 选题新颖性智能化评价实例研究 |
5.5 本章小结 |
第6章 学术论文内容创新性智能化评价 |
6.1 内容创新性智能化评价概述 |
6.2 学术论文知识元本体 |
6.3 学术论文知识元抽取 |
6.4 学术论文创新智能化评价过程 |
6.5 学术论文创新智能化评价实证检验 |
6.6 本章小结 |
第7章 学术论文引文科学性智能化评价 |
7.1 引文指标智能化评价概述 |
7.2 引文评价层次 |
7.2.1 引用层面 |
7.2.2 引用评价 |
7.3 基于引文的智能化评价过程 |
7.3.1 评价思路 |
7.3.2 评价步骤 |
7.4 构建引文智能化评价指标模型 |
7.5 引文指标智能化评价实例检验 |
7.5.1 数据收集 |
7.5.2 结果分析 |
7.5.3 指标验证 |
7.6 引文评价指标模型及计算的修订 |
7.7 本章小结 |
第8章 研究结论与展望 |
8.1 研究结论 |
8.2 研究局限性及展望 |
8.2.1 研究局限性 |
8.2.2 研究展望 |
参考文献 |
附录 |
作者简介与主要研究成果 |
致谢 |
(5)面向新闻网页的主题识别及自动分类系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题来源 |
1.2 课题的研究背景和意义 |
1.3 国内外研究现状 |
1.3.1 文本分类技术研究现状 |
1.3.2 网页特性研究现状 |
1.3.3 网页分类模型研究现状 |
1.3.4 目前存在的主要问题 |
1.4 研究内容及论文组织结构 |
1.4.1 论文研究内容 |
1.4.2 论文写作结构 |
第2章 新闻网页分类系统的需求分析 |
2.1 系统功能性需求分析 |
2.1.1 角色分析 |
2.1.2 系统使用者需求分析 |
2.1.3 系统管理者需求分析 |
2.2 系统的非功能性需求分析 |
2.3 新闻网页分类系统任务概述 |
2.4 新闻网页分类系统的业务过程分析 |
2.5 本章小结 |
第3章 新闻网页分类特征分析 |
3.1 新闻网页分类问题 |
3.2 新闻网页内容特征选择 |
3.2.1 中文分词 |
3.2.2 特征选择 |
3.3 基于LDA模型的主题识别 |
3.4 基于改进词嵌入的特征向量构建 |
3.4.1 词嵌入 |
3.4.2 改进的特征向量表示 |
3.5 实验与分析 |
3.6 本章小结 |
第4章 新闻网页分类模型 |
4.1 新闻网页分类模型技术分析 |
4.1.1 分类模型技术分析 |
4.1.2 分类模型技术对比 |
4.2 基于网页联合特征的分类模型设计 |
4.2.1 输入层设计 |
4.2.2 卷积层设计 |
4.2.3 池化层设计 |
4.2.4 全连接层设计 |
4.3 基于改进word2vec的关键词提取算法 |
4.3.1 余弦相似度计算 |
4.3.2 改进的W_Textrank算法 |
4.4 实验与分析 |
4.4.1 分类模型实验对比分析 |
4.4.2 关键词对比实验分析 |
4.5 本章小结 |
第5章 新闻网页分类系统的设计与实现 |
5.1 系统总体设计 |
5.1.1 系统功能结构设计 |
5.1.2 系统架构设计 |
5.1.3 系统逻辑功能设计 |
5.1.4 系统环境部署 |
5.2 新闻网页分类系统功能模块设计 |
5.2.1 数据获取子系统的设计 |
5.2.2 新闻网页分类特征分析子系统的设计 |
5.2.3 分类模型构建子系统的设计 |
5.3 系统数据库设计 |
5.4 新闻网页分类系统实现 |
5.4.1 数据获取子系统的实现 |
5.4.2 网页特征分析子系统的实现 |
5.4.3 分类模型构建子系统的实现 |
5.5 系统测试 |
5.5.1 测试目标与环境 |
5.5.2 系统功能与性能测试 |
5.6 新闻网页分类系统的应用 |
5.7 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其他成果 |
致谢 |
(6)基于HD-MSCNN的煤矿安全隐患信息自动分类方法研究(论文提纲范文)
中文摘要 |
abstract |
第一章 绪论 |
1.1 研究的背景及意义 |
1.2 国内外研究现状 |
1.2.1 煤矿安全隐患信息分析研究现状与发展趋势 |
1.2.2 短文本分类研究现状与发展趋势 |
1.2.3 层次结构化文本分类研究现状与发展趋势 |
1.3 主要研究内容 |
1.4 论文的组织结构 |
1.5 本章小结 |
第二章 相关技术介绍 |
2.1 文本特征表示 |
2.2 短文本分类技术 |
2.2.1 传统文本分类技术 |
2.2.2 基于循环神经网络的文本分类 |
2.2.3 基于卷积神经网络的文本分类 |
2.3 层次结构化文本分类技术 |
2.3.1 全局处理策略 |
2.3.2 两阶段处理策略 |
2.3.3 局部处理策略 |
2.4 本章小结 |
第三章 煤矿安全隐患信息分类器构建 |
3.1 煤矿安全隐患信息自动分类任务需求分析 |
3.2 煤矿安全隐患信息数据预处理 |
3.2.1 分词、去停用词 |
3.2.2 词向量训练 |
3.3 分类器 |
3.3.1 空洞卷积 |
3.3.2 全局特征提取层 |
3.3.3 分类特征提取层 |
3.3.4 扩展槽机制 |
3.4 本章小结 |
第四章 多层次煤矿安全隐患信息分类框架 |
4.1 HD-MSCNN框架概述 |
4.2 HD-MSCNN框架组件 |
4.2.1 局部共享层 |
4.2.2 交叉分类策略 |
4.2.3 概率加权层 |
4.2.4 数据增强 |
4.3 本章小结 |
第五章 煤矿安全隐患信息自动分类分级框架实现 |
5.1 实验数据及预处理 |
5.1.1 实验数据 |
5.1.2 预处理 |
5.1.3 词向量训练 |
5.2 分类器实现 |
5.2.1 MSCNN网络设计 |
5.2.2 MSCNN网络训练 |
5.3 HD-MSCNN分类框架实现 |
5.3.1 分类框架实现 |
5.3.2 安全隐患信息系统自动分类 |
5.4 实验验证 |
5.4.1 评价指标 |
5.4.2 实验结果分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
攻读学位期间取得的成果 |
(8)面向本体的地理信息语义自动分类研究(论文提纲范文)
本论文创新点 |
摘要 |
ABSTRACT |
图索引 |
表索引 |
1 绪论 |
1.1 研究背景 |
1.1.1 地理信息共享与互操作的发展需求 |
1.1.2 地理本体研究的兴起与快速发展 |
1.1.3 地理信息语义研究的现实意义 |
1.2 国内外研究进展 |
1.2.1 地理信息语义分类方法研究 |
1.2.2 地理信息语义分类实际应用 |
1.2.3 存在的问题 |
1.3 研究意义 |
1.4 研究内容和目标 |
1.4.1 主要研究内容 |
1.4.2 研究目标 |
1.5 论文组织结构 |
2 地理信息语义自动分类的理论与方法基础 |
2.1 地理本体理论 |
2.1.1 本体 |
2.1.2 地理本体 |
2.2 形式概念分析 |
2.2.1 格理论基础 |
2.2.2 形式背景 |
2.2.3 概念格 |
2.3 自然语言处理理论与技术 |
2.3.1 自然语言的本体承诺 |
2.3.2 中文分词 |
2.3.3 语义标注 |
2.4 构想提出 |
2.5 本章小结 |
3 基于本体论的基础地理信息语义分类研究 |
3.1 传统地理信息分类简介 |
3.1.1 地理信息分类的原理 |
3.1.2 现行的地理信息分类标准 |
3.1.3 问题分析 |
3.2 地理信息概念特性分析 |
3.2.1 地理信息的特征 |
3.2.2 概念的基本元特性 |
3.2.3 地理信息概念的本体属性 |
3.3 基于本体论的基础地理信息要素语义分类 |
3.3.1 基于概念特性的居民地要素分类 |
3.3.2 基于形式概念分析的陆地水系语义分类 |
3.3.3 分类结果比较分析 |
3.4 本章小结 |
4 地理信息概念描述分词及语义关系分析 |
4.1 地理信息领域中文分词 |
4.1.1 中文分词 |
4.1.2 分词方法分析比较 |
4.1.3 顾及地理信息概念的分词方法设计 |
4.2 地理信息概念描述语句的分词与分析 |
4.3 地理信息概念的语义关系 |
4.4 本章小结 |
5 地理信息概念本体属性自动标注 |
5.1 地理信息概念描述语料来源 |
5.2 本体属性自动标注的技术基础 |
5.2.1 本体属性自动标注机制 |
5.2.2 语义标注和信息抽取插件 |
5.3 地理信息概念本体属性自动标注方法实现 |
5.3.1 面向中文的语义标注方法 |
5.3.2 分词结果的格式 |
5.3.3 本体属性词表的创建 |
5.3.4 本体属性标注的JAPE规则 |
5.4 陆地水系形式概念表自动生成 |
5.5 本章小结 |
6 实验系统的集成与实现 |
6.1 实验系统总体架构 |
6.2 地理信息概念描述语句分词与标注 |
6.3 地理信息概念语义分类 |
6.4 本章小结 |
7 总结与展望 |
7.1 总结 |
7.2 主要创新 |
7.3 展望 |
参考文献 |
攻博期间的科研成果目录 |
致谢 |
(9)海量文本信息的Web采集与自动分类研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景 |
1.1.1 Web采集相关背景 |
1.1.2 文本自动分类相关背景 |
1.1.3 本课题提出的背景和意义 |
1.2 国内外研究现状 |
1.2.1 Web采集技术研究现状 |
1.2.2 文本自动分类技术研究现状 |
1.3 本文目标和主要工作 |
1.4 本文的组织结构 |
第二章 Web采集与自动分类关键技术分析 |
2.1 Web采集相关技术分析 |
2.1.1 网络采集技术 |
2.1.2 网页信息处理技术 |
2.2 文本自动分类相关技术分析 |
2.2.1 文本特征提取方法 |
2.2.2 文本表示方法 |
2.2.3 文本自动分类算法 |
2.3 技术难点分析 |
第三章 Web采集与自动分类系统设计 |
3.1 Web采集与自动分类系统设计目标 |
3.1.1 Web采集系统的目标 |
3.1.2 文本自动分类系统的目标 |
3.2 系统总体设计与模块划分 |
3.3 Web采集系统详细设计 |
3.3.1 Web采集系统输入 |
3.3.2 Web采集系统过程处理 |
3.3.3 Web采集文本内容处理 |
3.3.4 Web采集信息输出 |
3.4 文本自动分类系统详细设计 |
3.4.1 分类数据预处理过程 |
3.4.2 基于词池的特征词演化 |
3.4.3 构建自动分类空间 |
3.4.4 分类模型及分类流程 |
第四章 Web采集与自动分类系统实现 |
4.1 项目背景与系统环境 |
4.2 Web采集系统的实现与展示 |
4.2.1 输入控制与采集规则 |
4.2.2 采集过程与内容处理 |
4.2.3 信息规整与输出 |
4.3 自动分类系统的实现与展示 |
4.3.1 数据输入及预处理 |
4.3.2 词池演化特征词实现 |
4.3.3 分类构建与分类过程 |
4.4 系统性能分析 |
第五章 结语 |
5.1 论文工作总结 |
5.2 进一步研究工作 |
参考文献 |
致谢 |
作者攻读学位期间发表的学术论文目录 |
(10)基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
一、研究背景与意义 |
(一) 研究背景 |
(二) 研究意义 |
二、国内外相关研究现状 |
(一) 故障诊断的国内外研究现状 |
(二) 基于文本挖掘的设备故障诊断的研究现状 |
(三) 医疗器械的故障诊断现状 |
(四) 文本分类的国内外研究现状 |
(五) 短文本自动分类国内外研究现状 |
(六) 研究评价 |
三、研究框架 |
(一) 研究目的 |
(二) 研究内容 |
(三) 研究方法 |
(四) 技术路线 |
(五) 研究创新 |
四、本文的组织结构 |
第二章 医疗设备故障诊断技术与文本分类技术 |
一、医疗设备故障诊断技术简介 |
(一) 医疗器械系统故障及故障诊断 |
二、短文本分类简介 |
(一) 短文本分类概述 |
(二) 短文本分类特点 |
(三) 短文本分类的应用前景 |
(四) 短文本分类的流程 |
三、本章小结 |
第三章 基于贝叶斯的医疗设备故障诊断分类方法 |
一、朴素贝叶斯方法在故障诊断中的应用 |
(一) 贝叶斯算法简介 |
(二) 朴素贝叶斯分类方法 |
二、医疗设备故障诊断分类系统的设计 |
(一) 文本的预处理 |
(二) 特征词的选择 |
(三) 分类器的构建 |
三、本章小结 |
第四章 医疗器械故障诊断分类的使用和测评 |
一、医疗器械故障诊断自动分类的实验环境和数据 |
(一) 实验环境 |
(二) 实验数据与实验界面 |
二、短文本分类试验效果评估 |
三、实验结果与分析 |
四、本章小结 |
第五章 基于分类的故障关联性分析 |
一、关联规则的相关概念 |
二、基于分类情况下关联性分析 |
(一) 故障分类数据的表示 |
(二) 分类基础上关联算法GRI |
(三) 分类基础上关联实现与分析 |
三、本章小结 |
第六章 结论与展望 |
一、总结 |
二、进一步展望 |
参考文献 |
致谢 |
四、面向化学领域网络资源的文本自动分类算法(论文参考文献)
- [1]学术资源挖掘方法研究综述[J]. 王颖. 现代情报, 2021(12)
- [2]基于多因子算法的自动分类研究[J]. 李娇,黄永文,罗婷婷,赵瑞雪,鲜国建. 数据分析与知识发现, 2020(11)
- [3]主题词匹配的收藏文档标题分类研究[D]. 于思淼. 辽宁工程技术大学, 2020(02)
- [4]学术论文关键指标智能化评价研究[D]. 杜杏叶. 吉林大学, 2019(02)
- [5]面向新闻网页的主题识别及自动分类系统的设计与实现[D]. 李华欣. 哈尔滨工业大学, 2019(12)
- [6]基于HD-MSCNN的煤矿安全隐患信息自动分类方法研究[D]. 马非. 太原科技大学, 2019(04)
- [7]共通语义空间下的跨文献类型文本自动分类研究[J]. 李湘东,高凡,李悠海. 数据分析与知识发现, 2018(09)
- [8]面向本体的地理信息语义自动分类研究[D]. 朱乔利. 武汉大学, 2015(07)
- [9]海量文本信息的Web采集与自动分类研究[D]. 李瑞. 北京邮电大学, 2015(08)
- [10]基于贝叶斯分类算法的医疗器械故障文本挖掘技术的研究[D]. 陈美秋. 华东师范大学, 2014(05)