论文部分内容阅读
随着社交媒体的广泛传播和使用,Web2.0时代所集聚的社交媒体大数据使得收集和利用人类活动、言论、思想印记的能力得到前所未有的提高。对于城市规划领域而言,在政策的制定、实施及评估过程中增强公众的参与和反馈能力,能够提升规划领域专家感知社会的能力,及时发现规划中存在的具体问题,并提高规划政策的针对性和科学性。 本文结合自然语言理解、文本挖掘和语义网技术,对社交媒体文本数据进行分析挖掘以提升城市规划领域的社会感知能力。主要工作包括: 第一,构建了社交媒体语义分析框架。为实现社会感知的目的,框架对其功能模块及模块间的交互关系进行了组织定义。框架分为数据层、处理层和输出层,同时包括一个知识库模块,其中处理层集成了主要的自然语言处理技术和文本挖掘技术,前者包括分词、词性标注、依存句法分析等,后者包括话题分析、文档聚类、事件演化分析、情感分析、观点挖掘、基于本体的信息抽取等。框架中每个模块都负责一个具体的功能实现,同时功能模块之间通过灵活的组合达到不同的分析目的,满足不同的应用需求。本文实现了该框架,并针对北京城市规划领域的回龙观专题和基础教育专题相关的10万余条微博数据和10万余条微信公众号文章进行了话题挖掘、情感分类、信息抽取等相关分析,最终得到了回龙观社区热点话题、社区周边道路站点的交通状况、小区建设中存在的具体问题、和北京市172所小学的情感分布结果,对于提升城市规划社会感知能力起到了积极作用。 第二,提出了基于本体的社交媒体分析方法。领域本体为支持社交媒体语义分析在以下几个方面发挥了重要作用:(1)本体作为领域知识库,其中所包含的概念、个体、属性具有语义定义,利用这些知识进行文本的语义标注和信息提取。同时本体中的概念名称、属性名称以及个体名称构成了一个领域词典,用以提升文本分词效果。(2)本体中定义了领域概念之间的语义关联,利用概念间层次包含关系实现对领域相关的话题词汇的聚类,改善了话题分析效果。(3)利用本体包含的领域知识,对信息抽取得到的RDF图进行查询推理,得到更多的、隐含的知识。 本文构建社交媒体分析框架,集成了一系列文本分析技术以实现对数据比较全面和深入的挖掘,该框架与领域本体相结合,实现了对社交媒体的语义分析。将本文框架应用于真实社交媒体数据的分析,切实得到了能够辅助城市规划领域专家感知城市环境的有意义的结果。