趣谈警用大数据应用服务平台BAP(二)

上一篇我们简单介绍了大数据中数据治理的全过程,这期开始我们聊聊大数据技术中的一些黑科技。

今天就来聊下大数据诸多黑科技中的皇冠:NLP(Natural Language Processing),翻译成中文就是自然语言处理。

0

这本来是一个国外发掘的技能,听说练到满级能让大数据应用横着走。但跟其他外来技能一样,一遇到中文就卡级了。这不能怪技能说明书不够详细,要怪就怪中华文明实在太璀璨了。

part 1  汉字的产生

话说在很久很久以前,古老的大陆上住着一群古老的人类。初来乍练的,没啥核心竞争力,长期被大自然蹂躏。为了生存,他们逐渐意识到,以青铜之身想要打败王者,必须要团队合作!

有了新技能的加持,人类很快占领了食物链的高地,同时也让他们更加意识到团队的重要性。

语言是团队的粘合剂,但想办法把经验和知识记录下来,才能更稳定地传承这来之不易的技能。于是,文字就这么诞生了!最具智慧的当属汉字!

part 2  汉字的光芒

中华民族的意识形态中,一条触及灵魂的原则是“二元转换”,翻译成人话就是:凡事都不是绝对的,事务存在两面性,在某些条件下,可以相互转换。这种为人治世的理念与汉字真是相得益彰。汉字给人的感觉也是那么看上去明明白白,实则捉摸不透,顿悟后直呼牛逼。

CASE 1、一字多义,扑朔迷离

CASE 2、言简意赅,回味无穷

CASE 3、一字千金,举世无双

更多的栗子这里就不一一列举了,毕竟大家都是中国人,一直以来都是在汉语的熏陶中长大的。

part 3  荣耀的传承

古人将汉字的魅力推向了极致,信息时代背景下的我们怎样做才能将这荣耀继续传承呢?方案千千万,最顶尖最有价值的莫过于进行信息识别。也就是让机器理解人类的语言。

为了这事,被誉为现实版神盾局的DARPA专门成了一个部门研究此事,换句话说这事在美国属于最高级别项目。

就这点来看,BAP产线与美国那旮旯的认识基本是一致的。那么BAP的NLP引擎是如何让机器懂得人类语言的呢?

STEP 1 —— 词义

将一个没有空格的汉字序列分割成一个有意义的单词的过程,也被叫做中文分词。

这是中文独有的步骤,而且是最难的一步,一旦分词发生失误,会给正确理解语义带来不可挽回的灾难。

中文分词常见的方法有很多,比如经典的机械切分法,有效果更好一点的统计切分法,以及近年来兴起的采用深度神经网络的RNN,LSTM等方法。名字大家听听,混个脸熟就行,这些都是前沿技术,交给我们专业的研发团队来搞定就可以了。

STEP 2 —— 语义

这是一个区分和标注词性的过程,也就是搞明白一个词是名词还是动词,还是形容词。词性分析不到位,会给后面的语法结构分析、词汇重要性判断、核心关键词提取等语义理解带来严重干扰,会让第一步的中文分词工作打了水漂。

STEP 3 ——含义

这是处理语句级别的过程,干的是理解语法的事情。什么是语法?从小学一年级到高三一直学的“主谓宾定状补”就是语法。只有搞定了语法,再结合前面两步对词语的处理,才能准确找到语句中核心的对象和对象之间的关系,而这正是自然语言处理的核心价值。

由于汉语是松散结构的,其重义合,不注重形式,这就给含义理解带了不小的难度,语义角色标注(SRL)和语义依存分析(SDP)就是专门应对这个难题的两个方法,这里也不展开。

完成以上三步就能彻底搞定自然语言处理了吗?

上面三步这是核心脉络,想要准确的进行自然语言处理,从而正确理解文字内容的含义,进而提取核心对象及其之前的关系,还有很多情况需要考虑,

比如指代消解,就是将“他”转换成实际名字;

比如歧义转义,就是将“苹果”转换成iphone;

再比如内容补足,就是结合语境、背景把没表达完的话补全...

通过一个中心(拢共分三步)几个基本点(比如比如再比如)的研究,当前BAP的NLP引擎在核心对象识别和对象关系识别上的准确率分别达到了95%和90%,与阿里相当。

part 4  闪光时刻

有了这个技术,在警用大数据应用中能干嘛?能干的事情多了!

case1 警情分类

每天成千上万条警情,自动、快速、准确的进行内容识别,整理出警情六大要素:何人、何时、何地、何物、何为、何因。分析研判、归类推送,领导再也不用担心警员人手不够带来的工作滞后了。

case2 笔录分析

笔录内容没有标准格式,人为分析难度巨大。BAP的NLP引擎,可以快速整理笔录中涉及的时间、地点、人物等,并准确梳理数据对象之间的关系,还能梳理时间线!

case3 关系分析

NLP引擎对文本数据内容的识别,大大拓宽了信息获取的来源,能更加广泛和深入的挖掘对象的关系,丰富BAP U+(关系分析系统)的关系网。


注意,NLP引擎作为BAP的一个强力工具,是不单卖的哦!

再注意,想要了解更多,可以联系咨询。


Select Your Color

RTL/LTR Option