【摘 要】
:
FinteX是一个功能强大、高性能、灵活的全文索引和检索平台。FinteX的主要目标是作为一个开放式的实验平台研究信息检索的各种数据结构、算法和模型,并可快速搭建实验系统。高性能和灵活的架构也使FinteX可以应甩在各种垂直搜索以及大规模搜索引擎等领域中。本文详细描述了FinteX的系统架构、相关算法、索引结构和系统实现。在426GB的GOV2数据集和271GB的搜狗互联网语料上的实验表明,Fin
【机 构】
:
中国利学院计算技术研究所 中国科学院研究生院 北京 100080 中国利学院计算技术研究所
论文部分内容阅读
FinteX是一个功能强大、高性能、灵活的全文索引和检索平台。FinteX的主要目标是作为一个开放式的实验平台研究信息检索的各种数据结构、算法和模型,并可快速搭建实验系统。高性能和灵活的架构也使FinteX可以应甩在各种垂直搜索以及大规模搜索引擎等领域中。本文详细描述了FinteX的系统架构、相关算法、索引结构和系统实现。在426GB的GOV2数据集和271GB的搜狗互联网语料上的实验表明,FinteX是一个高性能、规模可扩展的全文索引和检索平台。
其他文献
由于动力学方程存在高度非线性和强耦合,挠性机械臂的运动弹性动力学问题的建模和解析求解都非常困难.本文试图根据有限单元法思想,将挠性臂进行有限段刚体离散,通过各段之间的转角描述弯曲和扭转变形,利用凯恩方法建立了该离散系统的动力学模型,并关重给出实现其数值计算的详细分析.根据四阶龙格-库塔算法实现了C语言的编程计算.通过算例验证了多刚体模拟的可行性.
各类内燃机缸孔表面的质量均有较高的要求,缸孔精加工后不允许出现暴露出的砂眼、缩松等铸造缺陷,缸孔精加工后的表面缺陷检测始终是发动机质量控制的重要内容.采用计算机图像处理技术及相应的机械伺服系统,对各种缸孔表面缺陷进行自动检测,克服了传统检测方法的不足,是一种准确性和自动化程度较高的检测方法.本文重点分析了缸孔图像采集过程中图像畸变及缺陷面积陷标定方法.
对模糊ART网络及其特性进行了深入的研究,提出了将模式距离dis(I,R)引入到类别选择函数的改进算法,并将改性算法用于电液控制系统状态监测.试验表明,改进后的方法是可行、有效的.
讨论了线性机械结构的二次型目标泛函最优控制的基本理论以及代数Riccati方程的求解方法.以平面磨床主要原因头系统的简化模型为例,将降低其加工表面波纹度和粗糙度的性能指标归结为二次型目标泛函,采用MATLAB软件对结构简化模型进行了最优控制仿真分析.
主要通过CG305型割灌机和拆分式割灌机振动、振型的测试与对比,分析拆分式割灌机样机的机械动态性能.研究结果表明,拆分式割灌机的样机是可行的,但高速运转时的动态性能稍有下降;由于结构变得复杂了,对加工精度及同轴度的要求更高.
依据选频隔振思想对窗式空调器的压缩机进行了隔振设计,并将压缩机的管路采用软连接,使窗式空调器的振动情况得到明显改善.空调器在低冷工况的振动和噪声大幅度降低.取得了良好的减振降噪效果.
本文利用条件随机场模型实现了一个金融领域到通用新闻领域的中文命名实体识别系统领域扩展方案,并对如利用分词和词性标注信息进行了深入的研究。原系统针对金融领域,在分词阶段利用各类专名词典识别专名,然后利用独立的基于人工规则的模块识别公司名。本文利用条件随机场在领域扩展的情况下改善了中文命名实体的识别性能。在ACE命名实体识别评测数据、人民日报语料库、金融新闻语料库上进行初步实验表明,扩展后的系统在金融
本文针对评论分级的问题展开讨论,提出了一种多重冗余标记的CRF方法。在理论上,该方法为基于最大似然训练的学习算法解决序回归问题提供了一条途径。在情感分析任务中,该方法不仅能够有效地解决有序标记的分类问题,还能够在保持各任务使用不同特征的同时,将情感分析中的主客观分类、褒贬分类和褒贬分级任务统一在一个模型之中,制约分步完成时误差的传播。实验证明,该方法有效地提高了最终分级任务的准确率。
随着网络上的基于社区的问答服务平台不断增多,积累的问题和相应的答案数量迅速增长。这些问题答案对的积累为实现基于网络的自动问答技术提供了一个大规模资源库。为更好地利用互动式问答平台已经积累的大量的问题答案对,本文讨论了一种新的基于语义计算的中文相似问句抽取方法。试验结果表明,使用这种方法可以有效地在问句集中抽取出语义相似的问句,同时也为提问者快速得到解答提供有益指导。
当前统计机器翻译系统还存在很多弊端,对于一些常见的语言学现象的处理并不理想,离真正的实用化还有一定的差距。本文结合统计和规则翻译方法的优点,提出了一种将句型模板融进统计机器翻译系统的方法。实验结果表明,该方法有效地解决了统计机器翻译系统中固定句型模式的翻译问题和一些远距离的词序调整问题,提高了机器翻译系统的翻译质量。同时,句型模板的引入也为用户在统计机器翻译系统中添加语言学知识提供了一种有效的途径