面向基础教育的Web图像搜索系统的设计与实现

来源 :中小学信息技术教育 | 被引量 : 0次 | 上传用户:feng211314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着计算机技术的发展,多媒体辅助教学在教育尤其是中小学教育中的应用越来越普遍。多媒体为传统课堂注入了一股新鲜的活力。它能够营造一个逼真的教学环境,增强教学信息的表现力,提升教与学的兴趣和效率,这些都得益于它自身的特点,就是集文、图、声、像于一身。其中“图”指图像,图像具有形象、直观、具体、生动等特点,是最重要的一种多媒体形式。
  当图像教学资源量超过一定限度时,教师和学生极易在海量的资源面前迷失方向。他们需要借助图像检索系统快速、有效地寻找、指向目标教学资源。
  本文讨论了一个面向基础教育的Web图像搜索系统的设计与实现。以基础教育图像主题词集为出发点,把分散于网上的图像教学资源下载,在进行内容分析和特征提取之后,将其整合到图像索引数据库中。此前的工作统称为“图像的预搜索”。同时开发了一个“图像检索系统”,用户登录系统后发出检索请求,由系统根据请求信息计算数据库中各记录的相似度,将满足条件的记录图像作为检索结果提供给用户,为在中小学课堂上有效利用网络图像教学资源提供支持。
  
  一、图像的预搜索
  
  通过人工摘取词语和借鉴他人词典两种途径,对人教版中小学主要学科课本中出现的可能与图像相关的所有主题词进行了收集和整理,最终从学段、学科两个维度建立了基础教育图像主题词集。主题词集由15个.txt格式的主题词文件组成,它们是小学语文、小学数学、小学科学、小学社会、小学思想品德与生活、初中语文、初中数学、初中物理、初中化学、初中生物、高中语文、高中数学、高中物理、高中化学、高中生物。
  根据基础教育图像主题词集,利用通用搜索引擎Google和Baidu在Web中搜索与每个主题词相关的图像教学资源,同时把资源下载到本地硬盘。对每一幅图像进行分析并提取它的文件属性(包括文件名、文件格式、文件大小、图像URL、网页URL等)和内容特征(包括图像类别、图像大小、图像内容描述、图像主色调和图像主体等),将得到的数据和信息存储在与主题词集对应的15个图像索引数据库中。15个图像主题词文件中的主题词数和15个图像索引数据库中的记录数见表1。15个图像索引数据库在结构上是一致的,其主要字段和字段类型见表2。
  
  二、图像检索系统
  
  Web图像索引数据库检索系统由四个模块组成:登录模块、输入模块、检索模块、输出模块。
  1.登录模块
  
  在登录模块,用户需要选择“学段”、“学科”以进入特定的图像索引数据库进行检索。学段分为小学、初中、高中三个,学科包括语文、数学、物理、化学、生物、社会、科学和思想品德与生活八个。例如,如果学段选小学,学科选语文,则对“小学语文”数据库进行访问。如果所选的学段下没有所选的学科,则显示空的资源页面,如“小学生物”。
  2.输入模块
  图像检索系统的输入界面包括两部分:基本检索和高级检索。在基本输入模块里,系统共设置了五个搜索条件。图像格式、图像大小、图像类别采用下拉列表供用户选择,图像内容描述和图像主色调采用文本框供用户填写。系统的高级输入模块最多允许用户对一幅图像的四个主体进行设置,每个主体又有七个属性。主体名称、颜色、形状和纹理四个属性采用下拉列表供用户选择,主体位置、方向和大小三个属性采用文本框供用户填写。
  3.检索模块
  该模块是整个检索系统的核心模块,其主要工作是:接收用户对目标图像的条件限制和特征描述,表示成与索引数据库字段对应的形式,计算目标图像与库中记录的相似度。与输入模块的基本检索和高级检索对应,系统的检索模块分基本检索和高级检索两种。
  第一,基本检索。
  (1)对于图像类别、图像大小和文件格式,系统采用布尔检索,即在ImType、ImSize和FileFormat三个字段上,只有库中记录与目标图像严格匹配时相似度才为1,否则相似度为0。
  (2)对于图像内容描述,系统采用模糊检索。系统自动提取用户在图像内容描述文本框中输入的关键词,与库中记录的ImContent字段进行比较,本文采用简单的同义词比率作为两者的相似度。
  (3)用户在图像主色调文本框中输入的颜色词,系统将它转换成HSW颜色值,然后采用模糊检索求其与库中图像的ImMainHue字段的相似度。一幅图像的主色调可能有多个,分别计算目标图像每个主色调与资源图像每个主色调的颜色距离,根据公式将这些颜色距离转换成目标图像与库中图像的相似度。
  将图像的总相似度定义为图像各相似度之积。有了上述相似度之后,就可以得出图像总相似度。
  第二,高级检索。
  对于主体名称、形状和纹理,系统采用布尔检索。如果库中记录的ImObject字段在这些项上标记为不能识别时,相似度为0.5。对于主体颜色、位置、方向和大小,系统采用模糊检索,具体算法不再详述。当库中图像存在多个主体时,取最大的相似度作为主体的相似度,主体总相似度等于四个主体相似度的平均值。高级检索的图像总相似度在基本检索的基础上又乘上了主体总相似度,提高了图像检索的准确率。
  4.输出模块
  在输出模块,系统筛选出图像总相似度大于一定阈值(本文将阈值设为0.4)的数据库记录,并按相似度由大到小对记录进行排序,将排序后的记录作为检索结果反馈给用户。输出界面每屏显示12个图像资源,如果检索结果多于12个,则用上下翻页的方法解决。
  输出界面在显示图像缩微图的同时显示图像相似度、图像ID号、图像格式、图像大小、图像类别和图像来源。“图像缩微图”链接了图像本身的URL,点击可以显示原始图像。“图像来源”链接了关联网页的URL,点击可以打开图像所在的网页。
  面向基础教育的Web图像搜索系统,从中小学课本出发,在收集、整理基础教育图像主题词集的基础上,对Web图像教学资源进行了搜索、下载、分析和提取,并在此基础上建立了15个图像索引数据库。开发、实现了一个Web图像教学资源索引数据库检索系统,为用户有效检索网络图像教学资源服务。
  经过两年多的试运行,系统的总体效果良好,能够满足一般用户的检索需求。系统的查准率和查全率能够达到80%以上,但检索速度不尽如人意。系统检索速度慢的主要原因在于图像内容描述、主色调和部分高级检索采用的是模糊查询,增加了相似度计算的复杂度。今后的首要任务是优化相似度计算算法,扩展基础教育图像主题词集,扩大预搜索范围,更新索引数据库,不断地提高系统的实用性。
  
  参考文献
  [1]李育贤.从宏观层面探析多媒体网络教学[J].教学与管理,2008(6):94-95.
  [2]孟祥增.多媒体网络教学资源的内容特征提取与搜索研究[J].电化教育研究,2007(12):33-37.
  [3]李海霞.基于自然语言的图像数据库检索技术研究[D].济南:山东师范大学,2004.
其他文献
梁启超《读陆放翁集四首》其二曰:辜负胸中十万兵,百无聊赖以诗鸣。谁怜爱国千行泪,说到胡尘意不平。  这是对陆游悲壮浓烈的爱国情怀给予了充分的理解与高度的肯定。  清人赵翼也说:  其诗之言恢复者,十之五六。出蜀之后,犹十之三四……临殁犹有“王师北定中原日,家祭无忘告乃翁”之句,则放翁之素志可见矣。(《瓯北诗话》卷六《陆放翁诗》)  从现存作品来看,陆游表现这一“素志”的诗作,不仅数量众多,还以各种
上海博物馆藏有一部宋刻孤本《梅花喜神谱》。这部书分上下卷,将梅花从萌芽到花落结果的整个过程,分为“蓓蕾”(四种)、“小蕊”(十六种)、“大蕊”(八种)、“欲开”(八种)、“大开”(十四种)、“烂漫”(二十八种)、“欲谢”(十六种)、“就实”(六种)八个阶段,每个阶段又据低昂俯仰、分合卷舒,绘出共一百幅梅花各个时期不同样子的图案。  在宋代,俗称画像为“喜神”。《梅花喜神谱》的作者宋伯仁在序言中说,
英特尔和教育部扩大合作共推“共创未来教育计划”    [本刊讯]2006年11月1日,英特尔公司董事长贝瑞特与教育部副部长吴启迪在京共同启动了“共创未来教育计划”,郑重承诺在未来五年时间内提高中国农村和城市的教育水平。该计划的启动为之前英特尔与教育部的三年战略合作画上了圆满的句号,同时将双方的合作推向深入。  贝瑞特博士表示,“共创未来教育计划”是迄今为止英特尔公司和中国教育部最全面的合作项目,目
自打头一次听说《清华画报》后,就对这本仅出版过两期的清华内部刊物充满了好奇。在网上寻觅、追踪了大半年,终于在一家位于重庆的网上旧书店发现了一本1959年第2期《清华画报》。浏览店主展示的部分画面的过程中,一张粘在内页的油印信函吸引了我的眼球。尽管内容看不太清楚,但凭我的敏感,就觉得这封信一定有着特殊的背景和意义。于是,虽然卖价不菲,我仍然果断地下单收藏了这本难得一见的“珍品”。  迫不及待地打开快
法律是治国之重器,法治是国家治理体系和治理能力的重要依托。中国共产党在领导人民进行革命、建设和改革的进程中,日渐认识到法治在国家治理中的重要作用,在充分总结历史经验的基础上,明确提出依法治国、建设社会主义法治国家的目标。自党的十五大将依法治国确立为国家治理的基本方略以来,学界关于依法治国的论著已颇为不少,但大多是集中在依法治国的必要性或重要意义的探讨上,而从中共党史的视角,对依法治国缘起、形成与发
如果说,20世纪初问世的谢无量《中国大文学史》,是受“西学”学科分置影响未深之际的时代产物,那么,历经百年探索而中国文学史家重新标举“大文学史”理念,显然是基于中国传统学术的中国气派、中国道路的自觉理论追求。在我看来,刘怀荣、张新科、冷卫国主编的《魏晋南北朝大文学史》(全三册,164万字,高等教育出版社2019年版,以下简称“该书”)在确立研究范式、重视研究方法论探讨、遵循史学科学规范与突出文学本
[本刊讯]为使政府、学校及时掌握最先进的信息技术发展方向,使企业及时了解近年来北京市教育信息化发展的现状和成果,2006年7月21日,北京市教委、北京教育网络和信息中心在京成功举办了2006北京教育信息技术高峰论坛。北京市教委张国华副主任和北京市教委基教处张永凯副处长亲临研讨会,对北京市教育信息化的成绩给予了肯定。  北京教育网络和信息中心主任张虹波概要回顾和总结了北京中小学教育信息化工作成果,使
我在北京大学中文系读了四年本科、两年半硕士研究生,加在一起有两千三百多天。这期间,除了吃饭、上课、睡觉,其余绝大部分时间,包括星期天、节假日,甚至寒暑假,我都是在“泡”图书馆中度过的。所谓“泡”,不单单是指在那里待的时间长,更包含了对它的依赖之深,用情之专,以至于一天没去图书馆都会有一种空落落的感觉,好像这一天缺了点什么。这么说,还真不是矫情。实话实说,我肚子里的那点“货”的的确确就是在“泡”图书
《往昔之始:作家回忆录》《家庭疗法》《小小小小的火》这三部作品是美国华裔作家在新近3年所出版的最新著作。这三位华裔作家颇具代表性,一位是已经进入美国亚裔经典作家行列的谭恩美;一位则是刚刚崭露头角的千禧一代作家王轩;一位是近年来异军突起的新生代作家伍绮诗。她们三位又恰恰全部是女作家。这三位显示了,在美国华裔作家中,女性依旧占据着绝对的优势。  这三部作品,形式不同,风格各异,一部为回忆录,一部为短篇
目前,在中小学中使用的数学教学软件很多,但是怎么选择合适的数学教学软件来提高教学效率,取得教学效果的最优化呢?本文以证明勾股定理为例,对万用拼图实验室MP_Lab、平面几何实验室PG_Lab、动态数学实验室DM_Lab(以下简称Lab系列),几何画板,Z Z智能教育平台——超级画板三种教学软件进行比较,为教师在教学中选择合适的教学软件提供参考。  Lab系列是由澳门培道中学副校长韦辉梁先生开发的软