互联网 信息监控

怎样做互联网 信息监控

互联网 信息监控主要从下面四个方面(取简称为ECIA)进行评估:

1. 高效性(efficiency) :
舆情情报的高效性往往被人忽视,实际上,海量信息带来的信息爆炸与信息淹没,导致信息失去功效。现有舆情系统收集到的各种文章90%以上的信息是与用户无关的,大量是重复冗余的,据说美国911发生之前已经接到了预警情报,但是没有有效地过滤出来,淹没在各类情报资料当中,解读的代价太高,最终事发后才发现情报就在情报官的办公桌上。现有的舆情监测系统往往缺乏有效机制快速筛选并保存有价值信息,因此,要求舆情监测系统必须提供人工智能的方式学习各种情报样本,将有潜在价值的情报从海量信息库中挖掘过滤出来,从而提高解读的效率。

2. 全面性(Completeness) :
主要包括信息来源的全面性与内容的全面性;信息来源的全面性:是否覆盖论坛、博客、跟帖、回帖等,每类通道是否覆盖主流的网站,能否覆盖绝大部分网站或者频道,能否采集主流的网站,比如天涯、新浪博客,
现有系统的主要问题在于信息庞杂缺流于片面;

3. 及时性(Instantaneity) :
网络舆情监测与传统搜索引擎最大的区别就在于其时效性强。高效性包括两个方面采集性的高效与信息情报解读的高效性。
采集高效性要求信息从发布到舆情监测系统收录时间越短越好,传统搜索引擎的延迟往往是一周,最快的新闻资讯搜索也有几个小时的延迟,而这对舆情监测,尤其是证券以及涉及国家安全等重要领域的舆情监测往往要求延迟在分钟级,现有系统一般都在小时级别,甚至是天级别的。

4. 精准性(Accuracy) :
舆情信息往往鱼龙混杂,是非难辨;因此要求能精准的抽取舆情各类要素,如:文章的正文、摘要、作者、发表时间、以及用户的点击浏览量、回帖数、评论数等。准确地进行倾向性的识别,发现发帖人的真正态度。
根据笔者的了解,当前大多数舆情系统主要是基于严格规则的,扩展性差,只能解决部分重点网站,背后有大量的人工成本(往往在100人左右的运维队伍);已有的解决方案性能差,时效性不足,准确性差;在舆情的分析与监控方面,目前尚没有成熟的实用产品。话题的表征、提取、追踪都是重大挑战。

因此采集技术是否先进,是舆情监测的最关键因素。现在国内做舆情监测的企业很多是做系统集成、分词等业务出身的,虽然也是网络舆情监测的基本技术之一,但终究还是做采集的最为关键,基于这点,那么国内的舆情监测真正擅长采集的估计也就只是深圳的乐思了,舆情监测企业中唯一一家专门只做网络信息采集出身的。

参考资料:http://zhidao.baidu.com/question/212595199.html

温馨提示:答案为网友推荐,仅供参考
第1个回答  2011-01-11
灰鸽子
相似回答