如何选择最适合的舆情监测系统?. 2017-08-03
如何选择最适合的舆情监测系统
社会化网络媒体的兴起,正在改变传统的信息传播机制。网络传播具有匿名性、速度快、范围大、持续力强、传播渠道多元化、传播效果可测量等特点。一条负面信息从出现到形成舆论热点的周期,从原来的24小时(传统新闻媒体比较典型的更新周期)缩短到现在的4小时(微博热点话题达到第一个传播峰值比较典型的时间周期)。如果不能在这4小时内做出解释、反馈、制定应对策略,就可能出现舆论一边倒的局面,甚至可能发生极具品牌杀伤力的公共危机。由此,也就有了网络舆情监测响应“黄金4小时”的说法。
做出及时、准确应对的前提是,要能够在第一时间了解网络舆情的内容、发生源、关键传播途径等相关信息数据。由此,对于网络舆情监测软件的性能提出相应要求。
如何来选择一套最适合的舆情监测系统?需要对舆情监测系统做一下几个方面的判断。
第一:对网络内容监测的准确性。
对于内容的判断是一个关键技术,目前的监测系统还不能做到对内容信息的完全自动判断和处理,在不能保证内容识别百分之百准确率的情况下,往往需要对监测分析的中间产物或不能识别的信息进行一定程度的人工校验和清洗。
中文信息在处理上具有一定特殊性和技术难点。英文每个单词之间用空格或标点符号进行分隔,与英文不同,中文字之间没有空格,由字组成词存在多种可能情况,中文分词是识别的一个难点。
分词难点:一是分词的歧义识别,歧义是指同样的一句话,可能有两种或者更多的切分方法。主要有“交叉歧义”、“组合歧义”、“真歧义”(相关定义参见附录)三类情形。“真歧义”必须要联系上下文才能够确定在文中的具体涵义;二是新词识别,随着时代的发展,中文新词不断涌现,如果没有被收录而要进行自动识别是非常困难的。与之相似的还有专业术语、名称(包括,人名、商标、简称、机构名、缩略语等)等的识别问题。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
在分词基础上,中文内容监测还需要对信息自动进行聚类、情感分析、提取摘要,特别是自动根据上下文内容判断情感倾向与危机度、区分正负面。而这正是网络舆情监测的核心工作之一。
为了提高内容识别的准确性,大部分网络舆情监测系统采取了专业化发展的策略,通过面向特定领域的知识、经验和基础数据的积累与不断更新,逐步建立起舆情监测系统在特定领域内的服务特长和功能优势。由此,也就有了舆情监测服务市场的细分化,有的专注于民生与社会动向、有的专注于消费品牌、有的专注于特定行业……
也有一些监测系统提供全方位的监测服务,这些系统有较好的业务包容性,能够满足网络舆情监测的主要需求,或者能够根据客户需要做到定制化的服务,这类系统通常都会针对新客户有一个系统部署阶段,在部署过程中完成一些定制化的工作。
“专用型系统”与“通用型系统”各有特色,客户在选择时主要评估是否能够充分满足自身需求,同时拥有较好的性价比。两类系统相比较,我个人更看好“专用型系统”未来的发展。
主要根据是,网络媒体和内容形式的发展非常迅速,一个好的舆情监测系统必须有一个持续而专业化的服务保障体系为支撑,而“专用型系统”在此方面会有比较明 显的优势。另外,“专用型系统”还可以根据特定行业或其他特定领域的特殊需求事先预置一些特色功能,如果设计得当,这些功能会对目标客户有很大帮助和价 值,也会成为营销中的主要卖点之一。
准确性方面不同系统的表现差异很大。从市场反馈的情况看,在商用领域,需要分行业进行监测服务的业务积累,在某个行业或细分领域有的系统监测得好、有的系统就不行;同样,在政府管理服务领域,也有数个细分领域,不同系统的表现也是参差不齐。
第二:网络内容监测时效性。
时效性的高低与软硬件技术和运营设备资源都有密切关系,其中涉及到的专业技术不是本文关注的范畴。这里要指出的是,时效性与前面提到的准确性是紧密相关的。如果系统对内容的判断准确性高,需要的人工干预就少(当然,理想状态是完全不需要人工干预),监测信息处理的时滞就少,监测的时效性自然就会有保障。如果系统需要一定的人工干预,通常情况下,会平均滞后0.5~3天左右。这个时间已经远远超出了前文提到的网络舆情监测及响应“黄金4小时”周期。如果系统的时效性低,就不能对网络突发 舆情进行及时监测和应急处理,而这对危机公关服务是非常关键的。
有一些监测系统的结果是依赖于baidu、google等搜索引擎的搜索结果进行再分析(所谓的元数据抓取),而这些大型搜索引擎的数据抓取更新是有自己的特定规律和周期。对于排名靠 后的网站,搜索引擎爬虫软件会隔几天,甚至更长时间,才会光顾一次。这种情况下,时效性自然不会有保障。
当然,对于时效性,不同的客户会有不同的要求。有的客户会要求做到“实时监测”,例如提供危机公关服务的公关公司、广告公司和一些关注于民生与社会动向的机构等;也有的客户对时效性要求不是这么高,例如对品牌价值进行评估的服务需求,对特定事件做事后评估的服务需求等等。
通常情况下,时效性高低是网络舆情检测系统定价的一个重要基础,从节约经费的角度出发,客户还是应当选择满足自身业务时效性需求前提下性价比较高的系统和服务,不一定非要求做到“实时监测”。
第三:网络内容监测全面性。
网络内容监测全面性的概念很好理解,就是系统所监测网站的类别及总量。通常情况下,监测系统不会做全网监测,先不说技术上的困难,仅在运营费用和投入上就是中小规模公司难以承受的。性 能优越的监测系统会有选择地进行网络监测,客户关注领域的相关网站、排名靠前的大网站、热点网站是监测的主要对象。
绝大多数号称能够做到“全网监测”的系统都是依赖对搜索引擎的搜索结果进行再分析——元数据抓取。前文已经指出,这种方式可以达到了大覆盖,但牺牲了时效性。
不过在全面性方面也有一些技术 问题需要处理,一些主要的内容服务网站、社会化网络媒体和电商网站对于爬虫软件已经做了限制。限制的原因有所不同,内容服务网站、社会化网络媒体(SNS 网站、微博等)主要是出于对信息及用户数据的保护和主管部门的特定要求,电商网站(自主平台类)主要为了防范网络商品比价。
综合地看,相对于“准确性”与“时效性”而言“全面性”问题更容易解决,技术因素是一方面,通过加大服务器和带宽等运营资源的投入也能够取得显著地改善。
看完本文的人,98%了解了蜂眼舆情监测系统:
<蜂眼>网络舆情监测系统架构如下
网络舆情监测系统利用互联网信息采集技术、信息智能信息处理技术和全文检索技术,对境内外网络中的新闻网页、论坛、微博、贴吧、博客、新闻评论等网络资源进行全网监测、定向采集和智能分析,把互联网读薄,读透。提供相关舆情、负面舆情、热点信息的发现、主题事件监测、分类监测、舆情实时预警、舆情监管、统计分析、辅助决策支持等多层次、多维度的舆情信息服务,根据用户的网络舆情监测和定向追踪等信息需求,形成简报、报告、图表等分析结果,从而帮助用户及时掌握舆情动向。为领导和舆情工作部门提供信息参考和决策支持。