中科点击(北京)科技有限公司的产品介绍

如题所述

第1个回答  2016-06-01

(一)、“信息采集系统”系统概述:
信息采集是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入的整个过程。
军犬信息采集专家是一款基于人工智能的自动学习技术,功能强大、简单实用的互联网信息采集与监控软件。
(二)、互联网信息采集与挖掘:
要求从互联网上对特定目标数据源或不特定目标数据源进行采集与监控,并对信息进行结构化抽取保存为本地结构化数据库,然后按业务流程需求与其它模块结合,导入与应用并服务于到电子行业平台。
互联网数据采集与挖掘技术是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入,并按业务所需,进行数据发布、分析的整个过程。
(三)、互联网采集系统流程图
第一步:确定采集任务。
第二步:每个采集任务,我们有多个目标数据源可供采集。
第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。第四步:调度采集任务,与目标站点同步更新,增量采集。
第五步:采集到数据结果,完成数据异构到同构的过程。
第六步:通过发布服务器,将数据发布到应用平台。
(四)、军犬“信息采集系统”8大应用领域
1、搜索引擎与垂直搜索 2、综合门户与行业门户
3、电子政务与电子商务 4、知识管理与知识共享
5、企业竞争情报系统 6、BI商业智能系统
7、信息咨询与信息增值 8、信息安全和信息监控
(五)、军犬“信息采集系统”-软件特点
(1)、过滤干净,智能化抽取正文,且图文关联
(2)、数据导出接口丰富,可以将数据导出成各种主流关系型数据结构。
(3)、军犬“信息采集系统”配置简单
对于新闻资讯采集,只需输入待采集目标网站的地址或某个主题页面地址,软件即会自动学习网站的风格,并自动提取网站的资讯,无需配置模板,目标网站风格发生变化,软件自动学习。对于数据采集软件提供了通俗易懂的站点配置向导,维护人员稍加培训即可配置出任何的信息采集。对于复杂的采集过程,通过一张采集卡脚本即可实现信息的自动采集与监控。
(4)、军犬“信息采集系统”所采即所得,所采即可见
(5)、军犬“信息采集系统”增量采集与自动更新
增加采集:对于初次采集目标网站,软件支持完全采集;而对于已采集过的站点支持增量采集。支持自动更新:自动检测站点是否发生更新,并不会遗漏任何一个重要的信息。
(6)、军犬“信息采集系统”采集结果自动排重
不是利用简单的规则判断,而是利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。
(7)、军犬“信息采集系统”内置强大的信息监控
可以通过一个关键字广域监控互联网上任何一个站点上的相关信息。也可以通过设置监控频道监控任何站点所采集到含有关键字的信息。对于数值字段可以设置监控误差监控数值出现在一定范围内的信息。信息监控达到字段级。您可以对任何一个采集目标网站设置监控属性,监控周期达到了秒级。对于发生变化的信息可以在短时间内采集到本地,强大的站点管理工具可以对所有采集对象进行集中管理和各种操作。
(8)、军犬“信息采集系统”支持多种编码
支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8,软件会自动转换成GBK码进行统一的处理。软件即会自动识别网站的组织结构,自动识别网站的编码。 表单管理,随心所欲自定义表单,方便采集不同的内容,如采集软件用单独的表单,采集图片用图片表单。
(9)、军犬“信息采集系统”信息导入导出随心所欲
提供信息导入导出与其它软件可作无缝连接 ,如CRM OA 软件提供有强大的信息记录导入导出功能,您可以对任何一个频道、一条记录进行导入与导出。可以导成Excel/Access等,也可以直接导到指定的数据库。与《信息发布服务器》结合使用可以将信息发布到任何一个地方。
(10)、军犬“信息采集系统”支持阅读模板
任何一种信息类型,软件都会自动创建一个阅读模板方便了您快速阅读;任何信息您可以对任何一种信息表单定制一款漂亮的阅读模板,也可以对任何一个频道设置不同的阅读模板。
(11)、军犬“信息采集系统”多页面内容重组
对于目标数据源的一篇文章在目标网站上分页显示,系统能自动对其重组.软件运行稳定、采集速度快、占用系统资源少。
历经多次改造的软件采集底层模块运行稳定、采集速度快,点用系统资源少。可多线程并发运行,而不占有过多的系统资源。采集速度快到瞬间到位。软件完全可以实现7*24小时不间断无人值守的信息采集。更多细节功能有待于您在使用中去体验。
(12)、军犬“信息采集系统”其它特点列表:
1、支持多种语言:支持简体中文、繁体中文、英文、日文、韩文等多国语言
2、支持多种站点类型:包括html与rss
3、支持登录、验证后采集
4、软件支持需要登录与需要验证码的网站信息采集,采集过程完全仿人工。
5、支持附件采集
包括图片附件采集、多媒体附件采集、音视频附件采集、附件与正文自动映射与关联
6、完全结构化抽取将网页的非结构化数据抽取成特定的结构化信息数据。
网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
7、数据保存到本地,您可以随时查阅信息。 采集到信息自动保存到本地数据库,您可以随时查阅信息。
8、多线层、多任务
9、支持海量数据采集
10、软件实用、易用、功能强大
11、可移植、可扩展、可定制
(六)、军犬“信息采集系统”配置要求
要求:WindowsNT4/ Windows 2000 Server 或更新的操作系统。
要求: Microsoft SQL Server 7/ 2000或其它ODBC 接口
要求:intel xeon 2G 以上CPU,2G 以上RAM,硬盘空间200GB以上
(七)、军犬“信息采集系统”性能
l、支持多线程采集。
2、单机在数据采集在G级以上。
3、数据与数据源同步更新小于10秒级。
4、数据同步发布小于10秒级。 (一)、产品背景
“风起于青萍之末”。公共危机事件舆论的形成与发展,是一个由议论开始,并沿着若干级差从无序向有序逐渐递进或者消减的过程。公共危机事件爆发时,犹如以石击水,常常容易引起群众的广泛关注,使得有关信息在短时间内迅速传递,单位时间爆发出来的信息量很大。一些非理性议论、小道消息或负面报道常常在一定程度上激发人们普遍的危机感,甚至影响到群众对党和政府的信任,网民对事件的关注与反响令当地政府部门震惊不已,政府部门承受着巨大的舆论压力。对于企业来讲,负面信息的肆意传播和缺乏必要的风险预警手段,会影响到企业的品牌和发展,甚至会给企业带来毁灭性的打击。因此及时监控、汇集、研判网上舆情,是引导危机舆论的重要前提。
目前,网络舆情正在成为政府行政部门或者企业决策的重要依据。因此新形势下,在每次突发性事件发生后,政府和企业相关职能部门如何以最快速度收集网上相关舆情信息,跟踪事态发展,及时向有关部门通报,快速应对处理等,是一个亟需解决问题。
如何第一时间了解到“与我相关”的重大事件?
如何能准确的收集到“我最需要”的舆情信息?
如何能不留死角的在全网监控到这些舆情信息?重要的信息“不漏报”!
如何防止网上“神不知、鬼不觉”的事情发生?随时知道网上在“干什么”!
如何防止网上有害信息泛滥传播和舆情失控,防止他们形成气候?
如何追溯网上重点内容的传播途径?互联网舆情能“查得清”!
如何预判这些舆情信息的未来走势?
如何有效引导,以及对网络舆论危机的积极化解?
如何应对网络突发的公共事件?
如何全面掌握社情民意?
如何为上级相关部门推送网络舆情简报和专报?
中科点击(北京)科技有限公司基于自主知识产权、自主研发的核心技术,通过对政府、企业舆情监控系统实际需求的深入调研,结合中科点击公司对互联网舆情管理业务的深刻认识和多年的实践经验,适时推出了军犬网络舆情监控系统,并在众多的国家政府机构(政策研究室、外宣办、网宣办,政府办和网络管理处)以及大型企业得到了广泛应用。通过成熟的网络舆情监控工具,结合完善的领导体制和工作机制保障公共危机事件网上舆情得到妥善处理。全面分析网络舆情发展趋势,提供基于网络舆情监测的决策参考和风险预警。在提供舆情监控系统产品的同时,中科点击公司在舆情监控领域有着了丰富的业务积累和实施经验。为政府、行业主管部门和企业提供先进的舆情监控系统和服务是中科点击人光荣的使命和任务。
(二)、核心技术
网络舆情监控系统是中科点击公司开发的一个体系结构先进、功能强大的面向政府、企业提供网络舆情监测和决策参考的应用系统,广泛地用于舆情监控监测,竞争情报以及风险预警等领域。它的主要功能和性能如下:
网络舆情监控系统的核心技术为互联网信息采集技术、自然语言智能处理技术(文本挖掘技术)、全文检索技术和舆情应用技术。
1.1 互联网信息采集技术
1.1.1 强大的信息采集功能
强大的信息采集功能是其他所有功能的保障。采集技术不过硬的产品不可能达到有效的舆情监测效果。军犬的数据采集与数据挖掘居全行业之首,为信息的深度处理提供了强有利的保证。
1.1.2 支持各种网络载体的监控
可监控各大搜索引擎,新闻门户,BBS,博客,留言版····
1.1.3 元数据搜索功能
元搜索引擎集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。进行网络信息检索与收集时,元搜索可指定搜索条件,从而既提高信息采集的针对性又扩大了采集范围的广度,收到事半功倍的效果。
1.1.4 内置数千个监控网站
无需过多配置便可轻松对数千网站实施监控。
1.1.5 可监控各种语言,各种编码的网站
无需配置自动识别语言和网站编码。
1.1.6 信息智能提取技术
网页内容智能提取技术能有效地提取网页中的有效信息,区分网页中的标题、正文等信息项,并对内容具有连续性的多个网页内容进行自动合并、网络论坛信息自动提取等。
1.1.7 结构化采集技术
对非结构化的网页数据在采集的时候进行结构化的信息抽取和数据存储,以满足多维度的信息挖掘和统计需要。
1.1.8 全天候不间断监控
可定时监控,也可7*24全天候监控。实际应用中可以做到分钟级的采集更新。
1.2 自然语言智能处理技术
1.2.1 自动分词技术
采用以词典为基础,规则与统计相结合的分词技术,有效解决了切分歧义。综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%,并可根据不同的应用进行适合特定要求的分词分词速度快。
1.2.2 自动关键词和自动摘要技术
在文本语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。同时利用指代消解等技术使得摘要更具可读性。
1.2.3 自动分类技术
不需要人工干预的自动分类技术,有效提高非结构化信息的加工效率。文本分类是指计算机根据文本内容进行类别划分的功能。中科点击自动分类技术包括以下两中分类方式:
A 基于内容的文本自动分类
B 基于规则的文本分类
1.2.4 自动聚类技术
自动聚类技术是基于相似性算法的自动聚类技术,自动对海量的无类别文档进行归类,把内容相近的文档归为一类,并自动为其生成主题词,为确定类目名称提供方便。可应用于自动生成舆情专题,重大新闻事件追踪等等
1.2.5 相似性检索和查重技术
基于文档“指纹”的文本查重技术,支持海量数据的信息查重。
相似性检索是指对于给定样本的文本,在文本集合中查找出与之内容相似的其他文本的技术。在实际应用中,找出舆情信息内容几乎相同的文章,实现对舆情信息的消重;根据文章主题相似性,形成专题报道,背景分析等等。
1.3 智能检索技术
本系统的全文引擎将传统的全文检索技术与最新的WEB搜索技术相结合,大大提高检索引擎的性能指标。同时融合了多种相关技术,提供丰富的检索手段以及同义词等智能检索方式。
(三)、产品功能
军犬网络舆情监控系统,是由我公司自主研发的一套业内最成熟的网络舆情监控系统和网络舆情办公系统。军犬网络舆情监控系统是一套综合运用搜索引擎技术、文本处理技术、知识管理方法、自然语言处理、手机短信平台,通过对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,以满足用户对网络舆情监测和热点事件专题追踪等需求!
系统基于网络舆情监控和管理的紧迫需求,针对政府部门、尤其是政府宣传部门量身定做。系统集成了舆情监测、舆情采集、舆情智能分析、舆情处理、舆情预警、舆情搜索、舆情报告辅助生成、舆情短信自动提醒等核心功能。帮助客户全面掌握舆情动态,正确进行舆论引导。为确保我国互联网络大众媒体的舆论导向的正确性起到一定的辅助作用,实现为政府分忧,对网络舆情进行监控和管理。运用军犬网络舆情监控系统,宣传部门可以有效的规范互联网信息,引导健康有益的舆论导向。该系统对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意起决定性作用。
军犬网络舆情监控系统采用B/S与C/S结构相结合的系统架构,利用先进的系统架构,实现基于浏览器的廋客户端或者普通客户端、服务器模式。
军犬网络舆情监控系统目前已经被广泛应用到各级政府宣传部门和大型上市公司。成为客户进行网络舆情监控不可或缺、值得信赖的系统。
1、强大的信息采集功能
强大的信息采集和数据挖掘功能是其他所有功能的保障。采集技术不过硬的产品不可能达到有效的舆情监测效果。军犬的数据采集与数据挖掘居全行业之首,为信息的深度处理提供了强有利的保证。
2、支持各种网络载体的监控
可监控各大搜索引擎,新闻门户,BBS,博客,留言版···
3、内置数千个监控网站
无需过多配置便可轻松对数千网站实施监控···
4、可监控各种语言,各种编码的网站
需配置自动识别语言和网站编码···
5、智能提取信息正文、标题
无需配置自动分析剔除广告等无用代码···
6、全天候不间断监控
可定时监控,也可7*24全天候监控···
7、自动获得舆情信息的热度,并生成报表
以文字和图表的形式直观的形式,生成各种网络舆情趋势图表。
8、实时获取与监测咨询的点击数,回复数,跟踪发帖人的信息,发帖人的IP等
根据浏览量,回复数,跟踪发帖人信息发帖人IP等功能能够让您了解信息的关注度及其来源
9、可对舆情信息进行管理,搜索,导出,编辑,标注,分类
可进行信息管理,和编辑,将您觉得重要的信息进行分类和标注,便于对同类事件的分析和处理
10、可对舆情信息进一步筛选与过滤。
筛选出重要性强,急待处理舆情信息,过滤无用,过时,低影响力的信息
11、 监控结果保存历史快照,文章中的关键词可增量(变色)显示
关键词的增量显示,让您能第一时间发现监控关键词并对其具体内容进行了解分析,历史快照让内容重现
12、丰富的数据接口,可将监测数据与与各种系统接合
13、自动获取代理IP功能,可防止个别网站进行反采集,反监测。
长期大量采集网站信息,会引起网站重视并可能导致封锁您的IP,自动获取代理IP地址并及时替换代理IP地址,可切实解决该情况的产生
14、舆情报告
通过在频道导航、频道监控中选择或从搜索结果选择,拖动到另一文件夹中则可生成舆情报告。所输出的舆情报告可选用系统自带的舆情模板,也可定制舆情模板。舆情报告最终以world文档或网页的开式提供给用户。
15、热度分析
通过对文章转载量、点击数、回复数来分析热度。相关数据存入数据库,并自动检查链接是否存活。
16、转载与传播
分析网路舆情传播路径,并通过反向解析技术解析出URL所对应的网站名称。
17、短信接口
通过定制热点发现在规则,及时自动发现舆情热点。并以短信的方式及时通知舆情监控人员,以帮助舆情监控人员随时随时把握舆情动态。
18、舆情协同办公平台
通过分配不同的舆情监控人员的相关权限,方便各监控人员各司其职,更为高效地把握舆情动态。 企业检索的需求
1、异构数据的整合
企业级用户需要搜索的数据既有互联网站上的,也有内部网站上的;既有网页形式的,又有各种数据库形式的;既有结构化数据,又更多的是各种电子文件格式的非结构化及半结构化数据,如Word、Excel、Lotus Notes、PDF、XML等;既有文本形式的数据,又有多媒体形式的数据;而且,同一机构的数据还可能分布在不同介质的载体上。
然而,不管数据的形式、来源、位置、平台如何不同,企业用户总是希望内外数据能无缝结合,用一个搜索工具和统一的界面,发出几个简单的检索请求就能对所有资源进行检索,并很快就能有满意的结果。并且,互联网搜索内容对于用户来说都是未知的,而企业级搜索的对象基本上是已知信息源,其中包括企业资料库、目录、文件系统、应用系统等,在对这些信息进行索引时,用户需要按照内容而不是通过比较源链接来进行排列。
2、严格的安全搜索
很多业内人士在谈到搜索安全的话题就忧心忡忡,他们普遍认为搜索环境并没有为企业级应用做好足够的准备,未来充满太多的变数。而在一些实际的应用中,我们看到,即便为数据定义了文档级和数据库级的双重安全保障,搜索引擎的魔爪还能透过授权的索引文档来搜索它们。
因此,针对企业网中不同的用户对不同的资源,其使用权限都可能不一样,需要企业搜索引擎能够对用户、资源、权限分级管理和控制,确保系统的安全。
3、高可靠的查全和查准
作为专业用户,企业用户需要查找的信息专业性强、概念复杂,而对查询的查全率和查准率有着非常高的要求。因此,需要利用各种手段来提高搜索引擎的查准率和查全率。
从查全率来看,互联网搜索引擎无从谈起查全率,因为互联网上的信息如此泛滥无边,任何一个搜索引擎服务商都无法穷尽互联网上的每个网页。而在企业级的某些应用中,是不允许有所遗漏的检索。必须对企业内部每个需要提供服务的信息进行索引。在检索机制上必须保障效率的前提下达到全面搜索的要求。
同样的道理,在互联网上因为信息自由的特点,决定了搜索只能通过“关键词匹配”这种核心检索手段去实现。而在企业内部,信息的组织复杂了许多。企业级搜索引擎有完善的信息分类体系,元数据,对象数据多层逻辑的组织形式,在查询上满足基于对象数据内容和元数据标引体系的精确查询要求。
4、智能化的检索服务
企业内部的搜索服务,带有鲜明的业务特性,不像互联网搜索引擎仅提供信息参考。在企业内部的搜索结果将直接参与到企业的运营、决策中。所以,对于搜索的结果处理,搜索过程中采用相关智能技术以达到迅速、准确、全面定位目标信息非常重要。
企业搜索引擎通常都和企业其他的IT应用有机结合
以内容管理技术为框架,搜索技术为支撑,企业搜索引擎通常与数据管理、内容管理、记录管理、竞争情报、团队协同、过程管理、信息门户等知识管理的各个环节密切结合,构成管理企业知识资产的完整而又灵活的体系。
5、实时的信息搜索服务
企业内部的搜索服务,具备业务特性,需要将搜索结果参与企业的运营和决策。所以通过搜索引擎提供的服务,必须能够动态地反应实际情况,即当内部的信息发生变化时,必须能够实时反应。
军犬企业搜索方案

相似回答
大家正在搜