趣谈警用大数据应用服务平台BAP
警用大数据应用服务平台BAP
接触篇(一)· 懂点大数据是对酒桌的最起码尊重
BAP是什么?
警用大数据应用服务平台,简称BAP(Bigdata Application Platform),是一套专门为公安信息化建设提供大数据融合,大数据应用,大数据服务的综合平台。在积极响应国家大数据战略和公安部有关新一代公安网建设规划的前提下,BAP在实现六个统一、建设六大体系、提升六大能力上,为公安各级别客户提供一整套产品和解决方案。
俗话说,内容越少信息量越大,以上这个逼格满满的BAP官方自我介绍一字一句的讲出来也只需要不到一分钟,但是如果消化不了里面的信息,那么结果很可能是……
不用慌,让我们一点一点突破,慢慢来理顺其中的脉络。首先我们得知道大数据以及大数据究竟都要干些啥。
1、什么是大数据
你至少要提到“数据采集”、“数据存储”、“数据处理”之类的我们才能继续稍微愉快的聊下去。
其实大数据一不神秘,二不复杂,它时时刻刻都在我们的身边,只是我们没有用心去体会,比如你每天都会面对一桌子的菜,你会想到什么?
我们从这顿饭菜的悠远历史说起,来看看这桌子“大数据”是如何一步一步产生的。
part 1 数据采集
撇开吃现成的,完成这一桌子饭菜,第一步是得种粮食,这叫数据生产。生产完了得收割,这收割的过程就是“数据采集”。当生产方式还是传统农业的时候,对生产工具的要求没那么突出,一人吃饱全家不饿,所以老式的数据采集基本是这样的:
随着生产方式的转变,大批的土地变成了大片大片的良田,传统老式的采集方式已经不能满足生产力的要求了,新的生产工具随之孕育而出;随着生产区域不断扩大,高性能服务器也会倍感吃力。
这时候,唯有通力合作,才能以团队的力量取得最后的胜利,这就是:“分布式”采集。和由人组成的团队一样,分布式集群并非是采集点越多越好,在这个集群团队中,要合理规划和分配任务,要保证沟通的流畅和高效,才能发挥出团队的力量,这就要涉及到分布式框架的工作原理,这里不做展开,以后会详聊。BAP产线UTL产品就是在这样的框架下设计开发的一款高性能数据采集汇聚的工具,有关这款产品以后会详细介绍,这里你只要知道UTL在数据采集汇聚方面性能刚刚的就好。
快速高效的采集,是为了粮食不烂在地里,俗话说“手中有粮,心中不慌”,但是如果采集上来的粮食最后变成这个样子,你慌,还是不慌?!
所以粮食采集上来以后,我们接下里要进行的工作就是:得保存起来。
part 2 数据存储
粮食不能散落在各家庭院里任凭风吹雨淋,农民伯伯都明白的一个最起码的道理:
得有仓库啊。但是仅凭农民伯伯家那两室一厅体量的仓库(生产库),是不能大量和长期存储粮食的,而且对粮食的集中规划和利用也不利。于是在党和政府的统筹管理下,各地会建立大的粮食储备仓库(数据仓库)。有了资金和技术的投入与统筹管理,地市级粮食仓库一方面比农民伯伯家的仓库体量上要大很多,而且通风、防火、防潮(数据仓库的功能和性能)也都有了显著的提升。
公司规模大了,必将引入强有力的管理手段,仓库也是这个道理。随着仓库中存储粮食的体量、种类不断增加,对粮食的分类分级、存粮新粮等都要做到有效的管理。一般来说会把同一种类,或者同一用途,或者同一性质的粮食分单元来存储,这在数据仓库中表现出来就是不同种类数据库。别小看了仓库的建设,如果不能科学的规划设计和管理,数据也会闹脾气。
可再牛逼的规划和设计,也架不住空间不够。你可以将相同的粮食尽量放在一起,来减少粮食之间的空隙(数据压缩存储),你也可以在承重允许的条件下在仓库上面再建几层(磁盘阵列),但无论如何这个仓库总有“爆仓”的时候。怎么办?
有个名人曾经说过“一个牛角尖实在钻不下去的时候,你应该要跳出来,这样你就会发现,其实还有好多牛角可以钻。”
农民伯伯手里有着大把大把的粮仓,小是小了点,不过架不住数量多啊,只要按照地市粮仓的规范要求因地制宜(数据特点不一样),统一整改(架构是一样的),就能存下巨量的粮食。
架子搭起来了,再配备统一的管理方式,新一代粮食存储体系也就形成了:
这个模式像极了之前数据采集时的思路:分布式存储。
part 3 数据治理
吃稻谷的那是鸟,不是人,更不是鸟人。想要吃上香喷喷的白米饭,至少还需要若干个步骤:
现实环境中,数据的处理要比粮食处理要复杂的多,处理的流程以及处理过程中遇到的问题也远远多于粮食处理。为了解决和防范数据生产和使用过程中出现的各方面问题,大数据领域细分出了一个专门研究方向,叫做数据治理,比如:
• 为了了解各粮仓的情况,我们需要记录每个粮仓中小麦、大米、玉米等各种粮食的产地、重量、品种等特点,这个叫做元数据管理了。
• 记录完之后,我们发现各地粮仓的粮食特点都不一样,比如东北的大豆规格好,南方的大米颜色更白等等。于是我们决定对大豆、玉米、大米等粮食的颜色、规格大小、价格等进行统一的规定、统一定价,这个叫做数据标准管理。
• 定完标准以后,我们就定期对各地粮仓的粮食进行检查,看看是否按照标准来办事,这个叫做数据质量管理。
• 以上工作都做完了,我们还必须记录各种粮食从哪里收来的,放到哪个粮仓,后续又经过了什么处理流向了哪个市场,这样层层记录,目的是摸清粮食的来龙去脉,为宏观经济提供决策支持,这叫做数据血缘管理。
我们每天都吃的大米饭,竟然要经历如此多艰难险阻才能到碗里来,看来浪费粮食确实一种不好的行为啊!但是还是要说一句:还不可以开饭哦!后面更多的事我们都可以暂且忽略,但至少你现在还缺一个厨房。
part 4 数据计算
取一碗大米,用清水淘洗一遍,倒入锅中,锅中倒入纯净水,水没过大米一截手指为最好。水中滴入几滴猪油,盖上锅盖,让米泡半个小时,然后就是你也知道的那个操作,按一下开关。
当听到“嘀----”的一声后,米饭就做好了。米饭要煮的香,除了好的炊具外,厨师的技艺、对米饭的理解、对吃饭的人脾性的考虑,都是缺一不可的。这样一个把生米变成可以食用米饭的过程,就是数据计算。同样的数据(大米),同样的需求(吃米饭),同样的平台(厨房电饭煲),不同的掌勺人做出的效果都是千差万别的。
大数据涉及的领域十分庞杂,所运用到的知识、技术也都非常的具备专业性。俗话说的好,专业的人做专业的事,杭州合众BAP产品线就是公安大数据领域一个资深专业的餐厅,为公安提供各式“色香味俱全”的大数据菜肴:
数据采集工具----UTL
数据存储----UDB
数据治理----UMS、DI
数据计算/服务----BAP
终于又看到BAP的影子了,不过别急,要聊到BAP那些炸天技能还需要一些篇幅,本期就到这里。