颖源科技:非结构化数据探索

来源 :中国信息化 | 被引量 : 0次 | 上传用户:lkstudybitcc2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  大数据时代不仅数据量巨大,更新迅速,使用更具随机性,而且数据结构异常复杂,80% 以上都是诸如文本、视频、音频、邮件、图片等非结构化数据。并且数据格式之间互不兼容,这给数据的提取、分析、应用带来了很大困难。多音字、多义词,中文的博大精深更是给文本数据分析带来了难点。
  而深圳市颖源科技有限公司开发的股市情绪分析系统正是利用这些难以分析的文本数据,分析出投资者的情绪变化,从而洞察股市行情。
  情绪分析洞悉股市变化
  实时抓取互联网中的财经数据,找出每篇博客、微博、新闻中关于每支股票的观点和情绪,汇总数据并告诉用户此时的看涨看跌比例,这就是股市情绪分析系统。
  早在2010年10月,国际知名学术网站arXiv. org刊登的一篇研究报告称,Twitter中的“镇定度”水平能够提前2至6天预测道琼斯工业平均指数的走向,并且准确度可达到87.6%。
  投资者行为不像传统金融学认为的那样具有理性化,由于投资者的情绪和偏见经常剧烈影响着价格波动,金融行为学对这些现象提供了一些很好的诠释。股市情绪分析系统是基于金融行为学理论和客观的机器学习算法,对股市涨跌数据、社会化媒体言论数据进行采集和挖掘。该系统计算出来的结果能够帮助投资者洞察股市的情绪,从而进行市场预测。
  当忧虑指数达到最高点的时候,往往股市是比较低迷的时候,忧虑指数处于低点的时候往往预示着股市处于高涨期。
  股市情绪分析在国外已有人尝试,MarketPsych是股市情绪分析的先驱,由心理学家创立的这家公司从事股市形势分析已有七八年的时间。MarketPsych投资公司每天会对全球200万篇文章进行抽取和采集,然后进行分析,分析6000多家公司投资者的情绪,为投资者提供参考。
  而成立于1995年的颖源科技是伴随着互联网的发展而迅速发展起来的一家公司。如今,颖源科技将注意力集中到大数据上,计划未来致力于大数据的投资和发展。
  深圳市颖源科技CEO时俊杰介绍说,股市情绪分析系统是在IBM BigInsights平台上开发的系统架构,目前主要和新浪与腾讯微博进行合作,通过开放接口采集投资者对于股市的评价或对市场涨跌情绪的表达,通过情绪分析引擎进行分析。
  采集到的微博要先经过预处理,去掉重复话语和广告成分,再进行分类。经过预处理后还要进行断句才能进入半监督的机器训练(半监督机器训练是最近几年提出来的机器学习算法)。
  时俊杰说,半监督机器训练先要设定算法,需要将微博样本通过人工进行标注,建立规则库后交给计算机自动进行训练,分析出来该条微博所表达的情绪值,然后将它放到模式匹配库里存放。新采集到的微博先跟模式匹配库进行比对,如果在模式匹配库里已经存在了这样的句子,就可以计算出它的情绪值。如果在模式匹配库里没有,则需要再根据规则库进行计算。这是一个不断迭代和优化的过程。


  增加多情绪维度
  时俊杰表示,在股市情绪分析系统的研发过程中IBM BigInsights提供了非常可靠、高效的大数据处理平台,不仅加强了开源的Hadoop系统,搭建了能够支持企业级大数据的分析平台,且平台易用性和可视化管理等工具使得颖源科技在情绪分析系统研发过程中不是把精力花在平台适应上,而是花在应用研发上。
  同时,由于IBM BigInsights设计了企业级节点冗余,减少了宕机概率,通过PC Server经过节点扩展的分布式并行计算架构降低了成本,提高了运行速度。
  “Hadoop本身是一个并行架构,可以充分发挥并行架构的优势。举例来说,之前开放网站流量分析软件时我们采用的是传统架构数据库,多个进程需要用几台服务器计算一晚上才可以得出计算结果。而现在使用大数据解决方案后一个小时就可以得出计算结果。”时俊杰说。
  由于金融监管机构更为关注整个证券市场的舆情分析与监测,股市情绪分析系统分为B2B与B2C两种,未来可以和金融机构等合作伙伴一起运营。对于基金公司和证券公司等可以利用该系统为自己的客户提供增值服务,为短线投资者提供投资参考。而对于金融监管机构来说,颖源科技未来研发的舆情分析系统可以对异动股票进行监测,为监管机构提供参考。
  经过一段时间的测试,颖源科技股市情绪分析软件的预测结果与实际走势基本一致,近期将正式推出。未来,颖源科技会对数据源进行进一步扩展,将股票论坛、门户文章等纳入分析数据源中。并在功能方面为现在简单的行情分析增加更多情绪维度。
  “我们的股市情绪分析系统之所以能够成功,有两方面的原因。一是我们通过IBM的产品培训很快就掌握了BigInsights的使用,它是非常容易学习、非常容易掌握的企业级产品。二是我们自己也很坚定地看好大数据的市场前景,所以我们在大数据领域不吝投入,深圳市政府也专门拨专款支持我们进行大数据创新。未来我们对大数据还会有长期的投资策略。”时俊杰说。
其他文献
为贯彻中央战略部署,落实党的十八大提出的“坚持走中国特色军民融合式发展路子”重要精神,近日,工业和信息化部与河北省政府在石家庄市签订《关于共同推进军民融合发展的战略合作协议》。工业和信息化部副部长马兴瑞代表工业和信息化部及国家国防科技工业局签署协议,并为国家高分辨率对地观测系统河北数据与应用中心授牌。在此期间,马兴瑞还分别与河北省省委书记周本顺、省长张庆伟举行会谈。  根据合作协议,工业和信息化部
期刊
中国引入现代公司制度后,其他C-level的管理者迅速在决策层中获得了一席之位,而CIO则花费了比他们多得多的时间。  谈到CIO人群角色的变化,Gartner企业高管项目中国区总监周晓松认为中国CIO经历了四个阶段,分别是技术管理者、信息化工作管理者、业务分析和流程的管理者,并有可能最终进化为企业管理者。  最早CIO们关注技术,但与企业主营业务没有直接联系。从事的大部分工作和硬件相关,被戏称为
期刊
2010年至今,信息化逐步凸显了其在企业中的重要性。一些优秀的CIO已不满足业务流程的梳理和重构,他们将目光放到了更加长远的未来。  成为真正的CIO  谈到CIO群体的角色变迁,东莞市都市丽人实业有限公司副总裁兼CIO沙爽认为虽然有所改善,但中国目前CIO生存空间依然比较有限。他认为原因有两个,一是老板如何定位CIO角色,二是CIO对自己的定位。  因此,在决定加盟都市丽人之前,沙爽问了董事长兼
期刊
CIO一词出现在美国八十年代末九十年代初,这个C-level位置的职位可以与其他C-level高管参与董事会决议。而在中国,CIO职位在九十年代并没有真正反映角色的转换和被认可,CIO经常与IT经理或者信息系统经理处在同一位置上。直至2005年之前,很少出现有决策权的CIO,这时候信息中心主任们担任最多的职能,还是“救火”。  硬件为王  让我们先来回顾一下中国信息化建设的历史,上世纪八十年代中国
期刊
美国《CIO》杂志对CIO的定义是:CIO是负责一个公司信息技术和系统所有领域的高级官员。他们通过指导对信息技术的利用来支持公司目标。他们具备技术和业务过程两方面的知识,具有多功能的概念,常常是将组织的技术调配战略与业务战略紧密结合在一起的最佳人选。  如果说20世纪80年代,第一代 CIO是“偶然”撞进了一种新的角色,那么2005年之后的第二代CIO则开始有了自己的职位标准和方向,在这个阶段,随
期刊
近日,国家工信部在长春召开了工业和通信业经济形势座谈会,听取了吉林省有关部门相关情况汇报,部分重点企业作了发言。工信部部长苗圩出席并讲话,吉林省副省长谷春立主持会议。  苗圩指出,今年以来,我国工业经济总体处于低速运行区间,信息通信业保持平稳增长。1至5月,全国规模以上工业增加值同比增长9.4%,吉林省规模以上工业实现增加值同比增长11.3%,情况好于全国平均水平。从行业看,重工业增势相对平稳,轻
期刊
技术正在改变世界,这早已不是什么秘密。而在IT领域,大数据无疑是最耀眼的技术之一。随着商业规模的发展,所产生的每一点数据和信息都将被记录下来,并被无数企业进行分析处理。  换言之,大数据一词已经无处不在,其被用于承载所有类型的概念,包括海量数据、实时数据、社交媒体分析、下一代数据管理能力等。对于企业来说,对大数据的理解不应仅仅局限于技术领域,而应成为一项业务上需要优先考虑的任务,因为它能够带来全球
期刊
近日,经陕西省政府同意,陕西省信息化领导小组印发《“数字陕西·智慧城市”发展纲要(2013-2017)》和《“数字陕西·智慧城市”发展纲要实施意见》。《纲要》明确由陕西省测绘地理信息局作为牵头部门做好相应基础信息资源建设,并与陕西省工信厅一同作为指导部门指导“数字陕西·智慧城市”建设中的北斗卫星导航应用示范项目。  《纲要》指出,近年来,陕西省经济平稳快速发展,现正处在转变经济发展方式、调整产业结
期刊
以客户为中心、从内部数据入手、用分析手段将大数据落地。这是人人游戏的大数据探索之路。  人人游戏是人人公司旗下专业的游戏研发和运营平台,在过去的几年里,人人游戏以消费者的需求为出发点,在行业里进行了一系列技术创新和产品创新行。如今,借助大数据分析,人人游戏可以更准确地把握用户需求,更快速地做出反应。  人人公司高级副总裁、人人游戏负责人何川表示:“在当前的大数据时代,数据已成为各行各业企业的核心竞
期刊
事物之间存在着千丝万缕的因果关系,但要搞清楚每种因果关系所能产生的结果却不容易。  浏览过汽车网站之后,即便是在与汽车无关的页面上也可以看到比过去更多的汽车相关广告。在淘宝上搜索过某关键词后,在微博上也会看到类似商品推荐。  自2013年5月1日阿里巴巴集团宣布入股新浪微博以来,新浪微博就悄然出现一系列变化。譬如,新浪微博页面底端出现“从淘开始”的商品推荐框,推荐淘宝网相关热卖商品,点击后直接跳转
期刊