基于布局结构树的网页正文提取

来源 :2014全国文档信息处理学术会议 | 被引量 : 0次 | 上传用户:cramzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于布局结构树的网页正文提取方法.该方法首先基于文档对象模型(Document Object Model,DOM)规范将网页映射为DOM树,在DOM树的基础上建立网页布局结构树.根据网页正文通常含有大量有效文本这一直观特点,搜索布局结构树,找到包含所有正文且规模最小的子树.提取子树下所有内容并进行去噪处理,最后得到网页正文内容.实验结果显示95.7%的网页能够被该方法正确提取,表明该方法切实可行,且具有较高的效率和准确性.
其他文献
本文针对具有复杂表面形状的钠冷快堆管道超声相控阵检测采用有限差分法进行了初步的数值计算和分析。考察了声波在介质交界面处的折反射规律,在此基础上利用相控阵聚焦声源对内壁存在缺陷和矩形锯齿的情况进行了数值模拟分析。结果表明采用相控阵声源可有效提高界面处的反射回波强度,当存在缺陷时,界面处的反射回波会减弱,内壁存在矩形锯齿结构时,将使反射声场的时域波形拉长,幅度减弱。
本文借鉴柱状固体媒质间弱界面的物理模型,推导出弱界面双层圆管结构中周向超声导波的频散方程。数值分析切向界面劲度系数(以KT表示)的改变对双层圆管结构中周向超声导波的频散特性所产生的影响,给出周向超声导波相速度的相对变化率随频率的关系曲线,据此找出周向超声导波相速度的相对变化率对界面特性变化最为敏感的激励频率;计算该频率下周向超声导波模式的相速度随KT的变化关系曲线,结合实测周向超声导波的相速度值,
本文应用有限元方法研究了井孔中由于相控阵换能器偏心给声波传播带来的影响,发现无偏心时的延时法则直接应用于换能器已偏心是所得回波信号进行延时叠加会对叠加结果有明显影响;对其进行修正后再进行延时叠加可以对延时叠加结果有明显的改善。井径对于声波叠加幅值随井孔方位角的变化规律有直接影响,不同井径时应采用不同的延时修正措施。
为了检验声学材料对教室声学环境的影响,在教室内安装了吸音吊顶材料,并再次对这些教室进行了声学测量,其结果表明:改造后的教室的RT降低了44%~68%,使得RT总体上保持在0.6s左右,而这个结果为最大语言清晰度的最佳值,同时这些RT值均能符合国标关于的规定。主观感知分析主要采取问卷调查的形式进行研究。学生的问卷结果表明,大约有80%的学生认为改造后教室内的噪声降低了,有57%的学生认为在改造后的教
背向散射信号与材料内部的显微结构密切相关,本文基于材料的背向散射信号的频域分析,利用超声背向散射技术防伪辨识金属材料。对金属材料在深度p与p+Δp处对应的时域t与t+Δt间的局域背向散射信号频谱分析,以背向散射信号的幅度相关系数作为材料的防伪信息,分别研究了成份相近的金属材料和成份相差较大的金属材料的防伪辨识。
本文介绍了采用Maxwell辅助设计声波换能器激励变压器的流程,并对换能器激励波形的影响因素进行了分析和总结。激励波形受变压器初次级匝数比、换能器个数、激励电路控制脉宽和激励电压影响,设计变压器时需综合考虑。
在功率超声换能器领域中,轴向极化压电陶瓷圆管的应用非常广泛。本文基于近似解理论,应用表观弹性法,研究圆管形振子的振动,并用COMSOL软件进行仿真,用扫频仪测试。结果表明,表观弹性法在纵径耦合压电陶瓷圆管的振动测试的谐振频率更接近实际值。
本文提出了一种利用基频帧间差进行模式分类进而判断汉语普通话四个声调的方法,并且使用这种方法对连续语句进行了识别实验,总体上来看,应用了利用基频帧间差直接进行声调识别的方法后,汉语四个声调判定的准确率达到了90%以上。其中阴平和去声的识别率相对较高,这是由于去声的声调模式在连续语流中没有太多的改变。而阳平和上声的识别率却相对较低,这是由于在三字词和连续语句的情况下,阳平和上声都会出现不同与双字词时的
本文提出一种新的幅度轮廓调整方法,通过开展人工耳蜗仿真声实验和人工耳蜗植入者实验探究响度信息对人工耳蜗声调识别的贡献。结果显示,在四通道声码器仿真声实验中,响度调整对声调识别率产生了显著影响。然而在人工耳蜗植入者实验中,暂未发现响度变化对声调识别的显著影响,主要原因可能是,在安静环境下声调相关的音高轮廓信息在人工耳蜗系统中表达较为强烈(天花板效应),以至于可以排除响度轮廓的影响。实验研究还在进行当
本文主要关注CI植入者在自由声场下的纯音频率分辨能力和频率调制检测能力。结果和正常听力者进行对照,发现CI的纯音频率分辨明显较弱,而CI的频率调制检测能力在某些条件下反而较强。