新闻 基于大数据系统设计的舆情分析系统架构

基于大数据系统设计的舆情分析系统架构

2019.06.04

互联网大数据系统设计的快速发展促进了许多新媒体的发展。无论是知名的大V、名人还是围观者,他们都可以通过手机在微博、朋友圈或评论网站上发布自己的状态,分享自己的所见所闻,让“每个人都有一个麦克风”。无论是热门新闻还是娱乐八卦,传播速度远远超出我们的想象。


在短短几分钟内,就有成千上万的转发和数百万次读取。如此巨大的信息量可以爆炸性的传播,如何掌握人们的实时情况并做出相应的处理对于很多企业来说是非常重要的。在大数据时代,除了媒体信息,各电商平台上的订单量以及用户的购买意见也对后续的消费者产生了很大的影响。商家的产品设计师需要从各个平台收集数据来确定后续的产品开发。公司的公共关系和市场部门也需要及时处理舆情,这意味着传统舆情系统已经升级为大型数据舆情收集分析系统。在分析了舆情场景后,大数据系统设计让我们详细看看大数据舆情系统,以及我们的数据存储和计算系统需要什么。


海量原始数据的实时存储:为了实现一套完整的舆情系统,需要采集上游原始输出,即爬虫系统。爬虫程序需要从各种门户和媒体收集web内容。在抓取之前,我们需要删除重复项。抓住后,我们还需要分析和提取,如抓子页面,处理的原始web数据:无论是主流门户或self-Media网络信息,我们需要做一些数据提取抓住后,和最初的web内容转化为结构化数据,如文章的标题和摘要,如果它是一种商品评论信息,我们还需要做一些数据提取。应提出有效的意见。


结构化数据舆情分析:当各种原始输出成为结构化数据时,我们需要有一个实大数据系统设计产品对各种输出进行合理的分类,并在分类后对内容进行情感上的进一步标记。根据业务需求,可能会有不同的输出,如品牌是否有热点话题、舆情影响分析、传播路径分析、参与用户统计与画像、舆情分析或是否有重大预警等。


在舆情分析系统中存储中间和结果数据,进行交互分析和查询:从清理网页的原始数据到最终的舆情表,将会有多种类型的数据部分数据将提供给数据分析专注的学生,优化舆情分析系统,部分数据将提供给业务部门,根据舆情结果做出决策。这些查询可能是灵活的,需要我们的存储系统全文检索,多字段组合的灵活互动的分析能力,实时预警的主要公众舆论事件:除了正常的搜索和显示要求公众意见的结果,我们需要能够实现实时预警重大事件发生时。