网络PDF中文学术文献的识别与检索——基于学术文献文体特征的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:xuhanping820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日益扩大的数字信息环境下,网络学术资源迅猛增长,其中以PDF为载体格式的学术文献具有很高的利用价值。如何有效、便捷地对网上无序分布的PDF学术文献进行组织、保存和开发利用是一个急需解决的重要问题,而学术文献的自动识别是达成这一目的的关键环节。学术文献的文体特征有助于从网络众多信息中快速、高效地识别和过滤出有价值的学术信息。本文主要探讨了学术文献的文体特征,并尝试将其用于PDF格式网络中文学术文献的自动识别。本文首先总结了网络学术文献的检索与利用状况,介绍了文体特征及其研究和应用情况;然后从文体学的角度详细说明了学术文献的文体及其文体特征,并通过构建一个小型语料库,运用语料库文体学的文体分析理论,总结出中文学术文献的文体特征。在前述理论基础上,设计和改进了一个基于学术文献文体特征的PDF文件检索系统,将学术文献文体特征的过滤、排除功能应用于网络搜索引擎。实验测试显示,该PDF文件检索系统在Google检索结果页面基础上,能有效地提高中文学术文献检索的相对查准率。
其他文献
本课题从视觉传达设计的角度出发,力求探索视觉形象设计对于川菜传承与发展的影响及作用.文章强调对传统川菜品牌进行升级,包括重新打造定位策划、视觉设计、空间设计和传播
基于社会计算的档案数字化是将档案数字化的任务由少量的专业人员完成的工作转向网络大众共同完成的一个概念,为实现真正意义上档案的全文数字化是文章研究的出发点和最终目
一、名誉理事长宋宏伟 刘经宇二、理事(70名 以汉语拼音音序排列)陈 捷 陈桂清 陈美清 陈雪梅 董克满 董绍杰高小平 高真春 过士明 韩克勤 胡国祥 黄广祯霍灿如 姜
创新教育作为一种教育思想,只有充分落实在学校教育中,衍化为自觉的教学行为,才能释放出巨大的能量,发挥出教育效益。  培养学生的创新意识和创新能力教师是关键,首先要明确时代
各位代表: 黑龙江省图书馆学会第七次会员代表大会,在省文化厅、省科协、省社科联、省图书馆等单位的关心和支持下,经过全体代表的共同努力,完成了本次会议的规定议程和任务,达到
[目的/意义]期刊耦合分析是从期刊吸收知识的共性进行期刊研究的方法,由于来源知识的分散性使得期刊耦合分析的应用效果较差.为改善其应用效果,提出一种融入引文内容信息的期
Transdermal delivery offers several advantages in drug distribution,including convenience,painless administration,avoidance of first-pass metabolism,and ease of
近年来,随着国家对保障公民基本文化权益的日益重视,公益讲座作为公共文化服务的重要形式在公共图书馆有了较大发展。为分析公益讲座在公共图书馆的具体实施情况,总结成功经
学位
Emulsion is a disperse system with two immiscible liquids,which demonstrates wide applications in diverse industries.Emulsification technology has advanced well
随着社会信息水平的不断提高,信息技术的飞速发展,数字地球与数字城市等概念的相继提出,标志着信息社会的到来,如何建设和推进数字城市建设必须经过合理和周全的战略规划,在
学位