论文部分内容阅读
在信息化社会,基于信息技术构建税务征管综合信息平台,提高税务部门工作效率,保证国家财政收入是现在税务征管发展的必然趋势。但是,目前的税务征管信息平台在建设过程中,数据来源单一,难以保障纳税人基本信息和交易活动的完整性和真实性,难以保证国家税收安全。与此同时,随着网络技术的发展,互联网上存在大量的纳税人信息和交易相关的报道,这些数据信息量大,内容丰富,且在快速增长中,采集这些互联网数据,丰富目前税务征管信息平台的数据来源和信息维度,为国家实现数据管税策略提供高质量的数据是目前亟需解决的问题。在此背景下,从实际工作需求出发,本文研究地方涉税情报集成系统的设计与实现,利用爬虫、数据匹配等技术,实现对互联网上纳税人涉税情报信息的自动采集、智能识别、数据清洗,最终形成地方管辖范围内企业的涉税情报系统,建立常态化的涉税情报主动获取机制,构建高质量的数据源,为税务机关的征管和监督提供数据支撑。在系统研发过程中,遵循软件开发基本流程,首选通过需求分析定义系统建设内容,然后,进行架构设计和详细功能的设计与实现,最后给出系统测试。在系统需求分析阶段,本文从功能性和非功能性两个方面对系统需求进行了分析和描述。在功能建模中采用UML用例图建模系统业务,涉税情报集成的主要业务包括了:系统管理,爬虫管理,过程管理和数据管理。非功能性需求从系统性能、安全性和兼容性三个方面对系统需求进行了指标化描述。此外,还给出了系统数据建模,在数据抽取过程中,系统需要从无结构化网页内抽取结构化数据,如果抽取成功,网页以源文件的形式存储在本地服务器;抽取到的结构化数据和系统运行所需要的其他数据,以关系数据库形式进行建模存储。在系统架构设计中,分别给出了网络部署架构、基于Spring MVC的开发框架以及功能架构。在功能的设计和实现过程中,首先给出了系统功能类图设计,然后基于程序流程图和序列图描述系统具体功能的实现。具体的,在爬虫功能的设计和实现中,基于正则表达式完成了聚焦爬虫中无关页面的过滤,基于广度优先策略实现了面向Surface Web的爬虫;信息抽取采用了基于HTML路径的匹配模板方法进行信息抽取;在数据清洗功能中,采用了基于启发式规则的数据清洗方法。最后,本文从功能性和非功能性两个方面给出了系统测试,功能测试基于黑盒测试方法对4个功能单元分别进行了测试和分析;在非功能测试中,设计多线程的测试用例,统计和分析系统各项性能指标,验证系统的稳定性。综合测试结果表明,论文设计和实现的地方涉税情报集成系统能够满足现在市级行政区域内税务部门的涉税情报集成的业务需求,达到了预定的设计目标。