1 系统结构 总体来说,该监控管理软件的结构和特点如下: 
2 系统特点与优势 2.1 系统特点 该系统与国内外类似系统相比较,具有自己显著的技术特点,如多种信息采集方式,支持非关键字信息采集等,具体如下: • 支持非关键字的 • 支持网页编码自动识别 • 增量抓取 • 支持智能去噪,无须标签配置,支持多种算法 • 支持分页采集 • 可设置采集频率 • 支持分布式部署 • 强大的信息采集功能 • 支持多种分类算法,支持自定义分类语料库 • 全面的敏感信息分布式检索系统 • 支持多种聚类算法,支持更换算法 • 实时增量备份原则 • 合理的模块化结构及方便的分类监控 • 灵活的调度算法 • 支持新闻、博客、论坛、贴吧、微博的采集监控 • 基于simHash的重复文档识别 • 支持互联网关键词搜索采集入库 • 支持敏感词过滤提取 • 支持主题发现 • 支持网页快照 • 支持主题跟踪 • 支持主题建模
2.2 系统优势 功能强大的信息抓取 系统提供强大的信息抓取策略,处理传统的基于关键字的信息采集,还支持模糊化信息采集,可进行专题资料采集,为领导参考互联网信息节省大量时间,同时结合系统的信息推荐技术,提供个性化信息推荐,提高用户阅读信息效率。 支持群集,支持大规模部署 支持信息群集采集,系统成员全部为对等成员,在需要大规模部署,可随意增加服务器,而不是按照分工每次需要成组增加服务器。系统服务器上限仅受数据库服务器限制,目前可支持10-20台群集,未来将支持更大规模群集。 维护使用简单,快速实施部署 系统界面友好,支持多种流行浏览器,充分考虑用户个性化需求,支持用户首页定制、信息收藏等。整体布局友好,栏目配置简单,对于异常站点可自动预警,站点配置提供可视化工具与测试执行工具,可快速部署,可在我公司网站自动更新最新的站点配置,实现自动维护。 与政通其他产品紧密集成 与政通其他产品可无缝集成,仅通过配置就可以与其他产品实现单一登录、共享用户,统一权限管理,发布信息等。
3 功能描述 3.1 热点话题、敏感话题识别 可以根据新闻出处权威度、发言时间密集程度等参数,识别出给定时间段内的热门话题。利用内容主题词组和回贴数进行综合语义分析,识别敏感话题。 3.2 热点分析 系统提供热点分析,使用户可以简单的了解当日热点的概要情况,迅速决定是否对本身有价值的信息。

3.3 正负面分析 系统支持对文章进行正负面分析,使用户全面了解文章整体倾向性,系统支持基于规则的分类与基于统计的分类,前者可以较为精确的发现已知的负面信息,后者基于概率计算,可应对未知的情况。
 正面
 负面
3.4 舆情主题跟踪 分析新发表文章、贴子的话题是否与已有主题相同。 是根据文档内容间的相关程度进行分组归并。聚类不需要类别及相关训练样本。 聚类可以发现当前舆论焦点,或者相关文档的查找. 通过对同一个阶段搜索到的大量信息进行聚类,我们可以很方便地发现当前关于什么类别的文章数量更多,那些信息之间的关系更紧密,这样我们可以很直观地了解到当前舆论的焦点,以及各个舆论点之间的联系紧密程度。

3.5 自动摘要 对各类主题,各类倾向能够形成自动摘要。 信息自动摘要的中心思想是让用户在查看搜索结果时候,无需点击进入每一个搜索结果去了解具体内容,而自动在搜索结果条目下显示摘要信息。这些“摘要”帮助用户迅速了解搜索结果的主要内容,提高了工作效率。

3.6 自动去重 政通互联网信息分析系统支持内容的相似性进行排重判断,准确性高,它不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。已经判定重复的信息不是简单地丢掉,而是做好重复标记后入库,这样处理可在本地查询到稿件的相似报道。 系统同时支持基于语义关键字的去重,既两篇文章语义关键字基本重合判断为重复文章。通过多种去重算法的支持,系统整体在去重上取得了很好的效果。
3.7 论坛、信息评论支持跟踪 对于持续发生变化的信息,典型的如论坛中的回帖与新闻的评论,系统支持持续跟踪,以便于用户对于关心的新信持续的了解最新相关信息。 3.8 实体抽取与统计 系统支持文章语义关键字抽取、实体抽取,并进一步大范围统计相关信息,发现信息的整体趋势。

语义关键字统计,体现出我国目前发展的主旋律。

3.9 舆情趋势分析 分析某个主题在不同的时间段内,人们所关注的程度。

3.10 突发事件分析 对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。 系统可对事件进行详细分析,包括首次报道、信息趋势、高峰时间等。


趋势与站点分析(注意上图虽然总的文章数量在减少,但是批评性文章在增加) 
3.11 舆情预警系统 对突发事件、涉及内容安全的敏感话题及时发现并报警。支持多种报警条件与方式,包括短信、即时消息、邮件、页面。 3.12 舆情统计 根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。 支持相关信息在各大媒体上的数据统计。 3.13 舆情简报 支持简报生成,可自定义简报模板,支持简报在线编辑。系统提供日常简报与专题简报。 3.14 手机客户端 支持手机客户端,随时随地查阅关键词舆情订阅服务的应用,利用此客户端随时随地搜舆情,全网监测,实时在线分析,及时掌握舆情最新动态,跟踪人点信息走势,随时了解竞争对手信息,关注重点人物或事件的最新动态。 3.15 境外网站支持 系统支持境外网站信息采集,使用户可以了解世界范围内的信息。 4 运行环境 操作系统:Microsoft Windows XP/7/2003/2008/,linux 数据库为:SQL2005+、oracle 10+,mysql 5+、firebird 服 务 器:内存8G/硬盘500G以上 带宽要求:2M独享以上 服务器数量:2台(1台采集监控、1台数据库服务器) 应用规模较大,可以采用多服务器集群的方式
|