基于概率图模型的代码库数据挖掘

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：yellow1989

【摘要】

：

源代码阅读是一项十分困难的工作,特别是对于那些有成百上千个文件的源代码工程而言,比如Linux和Gcc这样的开源代码库,我们很难能够在短时间内清楚一个源文件是在做什么。所

【作者】

：

姜凯

【出处】

：

上海交通大学

【发表日期】

：

2015年期

【关键词】

：

代码主题数据挖掘 EM推导分类系统构建

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

源代码阅读是一项十分困难的工作,特别是对于那些有成百上千个文件的源代码工程而言,比如Linux和Gcc这样的开源代码库,我们很难能够在短时间内清楚一个源文件是在做什么。所以对源代码文件进行分析的自动化工具变得十分重要,例如一些可以自动分析软件结构、功能、调用关系、开发过程甚至是开发人员与代码之间的一些联系等等。一些传统的主题模型比如LDA模型可以利用概率关系从文本中挖掘其中包含的多种主题。但是源代码数据与普通文本有着显著的区别,它们的各部分结构不是“平等”的。一个代码文件中包含的数据有接近普通文本的注释,也有受到程序语言约束的代码。另外,非监督型主题模型只能够给出主题的词分布,而无法得到确切的分类名。而且目前并没有一个针对代码分类的标准分类系统。在这篇文章中,我们提出了一个新的针对源代码库设计的概率图模型,用来对源代码库进行主题挖掘。这个模型不是将代码文件当成普通文本处理,而是将不同的部分,包括代码、注释、以及提交记录信息,进行不同的处理并通过主题将他们结合起来。因此,这个模型在模拟源代码库的生成过程中,相比于其它的传统主题挖掘方法更加贴近源代码库的真实生成过程。这使得我们得到的主题分布将更加可靠。但是,如果只有这个概率图模型,我们仍然不能得到一个源代码文件的确切分类。所以我们选择建立一个针对与源代码库的分类系统。在本文中,我们选择了对来自于著名的程序问答网站Stack over?ow的数据进行处理,建立了一个多分枝的层次化分类系统。同时,我们采用了不同的映射方法将源代码文件最终映射到相应的分类系统中。

其他文献

现代风景园林绿化植物配置

近年来,随着我国城市化脚步的高速发展,原生态的环境越来越少,大多都是人工改建成的,使得人们对绿色植物的渴望变得迫切,而现代风景园林绿化是城市建设一个重要的组成部分。

期刊

现代风景园林植物配置

关于农村水利工程的管理与思考

摘要我国是农业大国，但农村水利设施建设薄弱，制约着农业的发展。由此，就四川省营山县农田水利建设中存在的问题进行了分析并提出了相应的解决对策。　　关键词农田水利建设；基础设施；水利工程　　中图分类号：F323.213文献标志码：B文章编号：1673-890X(2014)06-053-02　　农业是粮食生产和农村经济活动的基础，是国家最重要的生命线。水利是农业的命脉，是粮食安全和乡村社会稳定的有效保障

期刊

农田水利建设基础设施水利工程

（火用）方法在典型组合能量系统热经济分析中的应用研究

随着经济的高速发展,节约能源已作为国家的一项产业政策被各行业所重视。火用分析法是以热力学第二定律为基础理论的分析方法,它是从能量质和量结合的层面上来考察能量的利用

学位

组合能量系统火用分析复合点节能

苏格拉底教学联合CBL在口腔牙周病教学中的应用

将苏格拉底教学法与案例教学法(CBL)有机地结合并且应用于口腔牙周病临床实习教学,实践证明苏格拉底教学联合CBL教学有助于提高学生的学习兴趣,培养学生自主学习以及分析和解

期刊

CBL教学法苏格拉底教学法牙周病学教学方法

基于概率图模型的代码库数据挖掘

其他学术论文