菜单

机器写作,NLP关键应用领域

2019年4月23日 - 澳门葡京赌场
机器写作,NLP关键应用领域

原标题:NLG ≠ 机器写作 | 专家专栏

人工智能的目标

近日,Xenonstack上推出了一篇名为《Overview of Artificial Intelligence
and Role of Natural Language Processing in Big Data》文章,作者为Jagreet
Kaur,其全面概述了人工智能及其各个细分领域的状况,并着重介绍了大数据和自然语言处理的发展,对自然语言处理在大数据中扮演的角色作了探讨。

允中 转自 百炼智能

-    推理
-    自动学习&调度
-    机器学习
-    自然语言处理
-    计算机视觉
-    机器人
-    通用智能

人工智能概述

编者按:NLG——自然语言生成,是近年AI领域最受关注的前沿方向之一,也是争议和论辩最激烈的领域之一,甚至去年还引发过2位AI大神的隔空激辩。

人工智能三大阶段

AI指代“人工智能”,是让机器能够像人类一样完成智能任务的技术。AI使用智能完成自动化任务。

但对于更多关注者来说,可能首要任务还是在于追本溯源,知道NLG究竟是什么?原理如何?能做及不能做什么?

 阶段 1——机器学习:智能系统使用一系列算法从经验中进行学习。

 阶段 2——机器智能:机器使用的一系列从经验中进行学习的高级算法,例如深度神经网络。人工智能目前处于此阶段。

 阶段 3——机器意识:不需要外部数据就能从经验中自学习。

“人工智能”包含两个关键点:

所以我们推荐这篇不错的专家专栏,原作者是AI创业公司百炼智能——或者说他们就是NLG领域的纵深前行者,核心创始团队源自北大天网实验室,在AI领域从业多年,而且难能可贵的是,本文还是有技术有应用举例的科普佳作。

图片 1

1、自动化

好了,一起开始学习吧~

image.png

2、智能

引子

人工智能的类型

人工智能的目标

2017年5月31日,包括 Aaron Courville(《Deep
Learning》一书作者)在内的五位作者,在 arXiv
上提交了一篇论文《Adversarial Generation of Natural
Language》,提出了一种新的基于生成对抗网络(Generative Adversarial
Networks, GAN)的自然语言生成(Natural Language
Generation,NLG)方法,在自动写诗这件事情上取得了非常好的效果,但这并不是重点。

ANI(狭义人工智能):它包含基础的、角色型任务,比如由 Siri、Alexa 这样的聊天机器人、个人助手完成的任务。

AGI(通用人工智能):通用人工智能包含人类水平的任务,它涉及到机器的持续学习。

ASI(强人工智能):强人工智能指代比人类更聪明的机器。

图片 2

重点是,这篇文章引发了自然语言处理(Natural Language Processing,
NLP)大神 Yoav GoldGerg和深度学习(Deep Learning, DL)大神 Yann LeCun
的论战。

什么使得系统智能化?

1、推理

Yoav 先是在 Twitter
上发了一篇推文表明自己不喜欢这篇论文的工作,之后又写了一篇Medium长文(图1)表达自己的观点:

图片 3

2、自动学习&调度

“拜托你们这帮搞深度学习的人,别再抓着语言不放并声称自己已经解决语言的问题了!”,认为这篇论文并没有解决自然语言生成(NLG)
的问题。

image.png

3、机器学习

图片 4

自然语言处理 | 知识表示 | 自动推理 | 机器学习

4、自然语言处理

YoavGoldBerg的 Medium 长文截屏(后来Yoav修改了这篇文章)

什么是自然语言处理?


自然语言处理(NLP)是指机器理解并解释人类paralyzes写作、说话方式的能力。

NLP
的目标是让计算机/机器在理解语言上像人类一样智能。最终目标是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。

图片 5

image.png

下面是三个不同等级的语言学分析:

NLP 处理语言的不同方面,例如:

NLP 中理解语义分析的方法:

分布式:它利用机器学习和深度学习的大规模统计策略。

框架式:句法不同,但语义相同的句子在数据结构(帧)中被表示为程式化情景。

理论式:这种方法基于的思路是,句子指代的真正的词结合句子的部分内容可表达全部含义。

交互式(学习):它涉及到语用方法,在交互式学习环境中用户教计算机一步一步学习语言。

为什么需要 NLP ?

有了 NLP,有可能完成自动语音、自动文本编写这样的任务。

由于大型数据(文本)的存在,我们为什么不使用计算机的能力,不知疲倦地运行算法来完成这样的任务,花费的时间也更少。

这些任务包括 NLP
的其他应用,比如自动摘要(生成给定文本的总结)和机器翻译。

NLP流程

如果要用语音产生文本,需要完成ASR任务。

NLP 的机制涉及两个流程:

自然语言理解(NLU)

NLU
是要理解给定文本的含义。本内每个单词的特性与结构需要被理解。在理解结构上,NLU
要理解自然语言中的以下几个歧义性:

词法歧义性:单词有多重含义

句法歧义性:语句有多重解析树

语义歧义性:句子有多重含义

回指歧义性(Anaphoric Ambiguity):之前提到的短语或单词在后面句子中有不同的含义。

接下来,通过使用词汇和语法规则,理解每个单词的含义。
然而,有些词有类似的含义(同义词),有些词有多重含义(多义词)。

自然语言生成(NLG)

NLG
是从结构化数据中以可读地方式自动生成文本的过程。难以处理是自然语言生成的主要问题。

自然语言生成可被分为三个阶段:

  1. 文本规划:完成结构化数据中基础内容的规划。

  2. 语句规划:从结构化数据中组合语句,来表达信息流。

  3. 实现:产生语法通顺的语句来表达文本。

NLP 与文本挖掘(或文本分析)之间的不同

自然语言处理是理解给定文本的含义与结构的流程。

文本挖掘或文本分析是通过模式识别提起文本数据中隐藏的信息的流程。

自然语言处理被用来理解给定文本数据的含义(语义),而文本挖掘被用来理解给定文本数据的结构(句法)。

图片 6

image.png

例如,在 “I found my wallet near the bank “一句中,NLP
的任务是理解句尾「bank」一词指代的是银行还是河边。

大数据中的 NLP:The next Big Thing

如今所有数据中的 80%
都可被用到,大数据来自于大公司、企业所存储的信息。例如,职员信息、公司采购、销售记录、经济业务以及公司、社交媒体的历史记录等。

尽管人类使用的语言对计算机而言是模糊的、非结构化的,但有了 NLP
的帮助,我们可以解析这些大型的非结构化数据中的模式,从而更好地理解里面包含的信息。

NLP 可使用大数据解决商业中的难题,比如零售、医疗、金融领域中的业务。

5、计算机视觉

随后,Yann LeCun 在 Facebook 上对 Yoav
的观点进行了反击(图2),然后又反复数个回合。

聊天机器人


聊天机器人或自动智能代理指代你能通过聊天 app、聊天窗口或语音唤醒 app
进行交流的计算机程序。
也有被用来解决客户问题的智能数字化助手,成本低、高效且持续工作。

聊天机器人的重要性

    聊天机器人对理解数字化客服和频繁咨询的常规问答领域中的变化至关重要。

    聊天机器人在一些领域中的特定场景中非常有帮助,特别是会被频繁问到高度可预测的的问题时。

聊天机器人的工作机制

图片 7

image.png

基于知识:包含信息库,根据客户的问题回应信息。

数据存储:包含与用户交流的历史信息。

NLP 层:它将用户的问题(任何形式)转译为信息,从而作为合适的回应。

应用层:指用来与用户交互的应用接口。

聊天机器人每次与用户交流时都能进行学习,使用机器学习回应信息库中的信息。

NLP 中为什么需要深度学习

它使用基于规则的方法将单词表示为「one-hot」编码向量。

传统的方法注重句法表征,而非语义表征。

词袋:分类模型不能够分别特定语境。

图片 8

image.png

深度学习的三项能力

可表达性:这一能力描述了机器如何能近似通用函数。

可训练性:深度学习系统学习问题的速度与能力。

可泛化性:在未训练过的数据上,机器做预测的能力。

在深度学习中,当然也要考虑其他的能力,比如可解释性、模块性、可迁移性、延迟、对抗稳定性、安全等。但以上是主要的几项能力。

NLP 中深度学习的常见任务

图片 9

image.png

传统 NLP 和深度学习 NLP 的区别

图片 10

image.png

6、机器人

图片 11

日志分析与日志挖掘中的 NLP


什么是日志?

不同网络设备或硬件的时序信息集合表示日志。日志可直接存储在硬盘文档中,也可作为信息流传送到日志收集器。

日志提供维持、追踪硬件表现、参数调整、紧急事件、系统修复、应用和架构优化的过程。

什么是日志分析?

日志分析是从日志中提取信息的过程,分析信息中的句法和语义,解析应用环境,从而比较分析不同源的日志文档,进行异常检测、发现关联性。

什么是日志挖掘?

日志挖掘或日志知识发现是提取日志中模式和关联性的过程,从而挖掘知识,预测日志中的异常检测。

日志分析和日志挖掘中使用到的技术,下面介绍了完成日志分析的不同技术:

模式识别:将日志信息与模式薄中的信息进行对比,从而过滤信息的技术。

标准化:日志信息的标准化是将不同的信息转换为同样的格式。当来自不同源的日志信息有不同的术语,但含义相同时,需要进行标准化。

分类 & 标签:不同日志信息的分类 & 标签涉及到对信息的排序,并用不同的关键词进行标注。

Artificial Ignorance:使用机器学习算法抛弃无用日志信息的技术。它也可被用来检测系统异常。

日志分析 & 日志挖掘中的 NLP

自然语言处理技术被普遍用于日志分析和日志挖掘。

词语切分、词干提取(stemming)、词形还原(lemmatization)、解析等不同技术被用来将日志信息转换成结构化的形式。

一旦日志以很好的形式组织起来,日志分析和日志挖掘就能提取信息中有用的信息和知识。

7、通用智能

Yann LeCun 在 Facebook 上的反击

深度自然语言处理


自然语言处理是一个复杂的领域,处于人工智能、计算语言学和计算机科学的交叉领域。

从 NLP 开始

用户需要输入一个包含已写文本的文件;接着应该执行以下 NLP 步骤:

图片 12

image.png

图片 13

image.png

语句分割 - 在给定文本中辨识语句边界,即一个语句的结束和另一个语句的开始。语句通常以标点符号「.」结束。

标记化 - 辨识不同的词、数字及其他标点符号。

词干提取 - 将一个词还原为词干。

词性标注 - 标出语句中每一个词的词性,比如名词或副词。

语法分析 - 将给定文本的部分按类划分。

命名实体识别 - 找出给定文本中的人物、地点、时间等。

指代消解 - 根据一个语句的前句和后句界定该句中给定词之间的关系。

人工智能三大阶段

引发这次争论的主题就是自然语言生成(以下简称
NLG),也是接下来系列文章里我们要讨论的主题。

NLP 的其他关键应用领域


除了在大数据、日志挖掘及分析中的应用,NLP 还有一些其他主要应用领域。

尽管 NLP 不如大数据、机器学习听起来那么火,但我们每天都在使用它:

自动摘要 - 在给定输入文本的情况下,摈弃次要信息完成文本摘要。

情感分析 - 在给定文本中预测其主题,比如,文本中是否包含判断、观点或评论等。

文本分类 - 按照其领域分类不同的期刊、新闻报道。多文档分类也是可能的。文本分类的一个流行示例是垃圾电子邮件检测。基于写作风格,可检测作者姓名。

信息提取 - 建议电子邮件程序自动添加事件到日历。

图片 14

image.png

参考:
https://www.jiqizhixin.com/articles/2017-05-07-3
https://www.xenonstack.com/blog/overview-of-artificial-intelligence-and-role-of-natural-language-processing-in-big-data

阶段1——机器学习:智能系统使用一系列算法从经验中进行学习。

何为 NLG?

阶段2——机器智能:机器使用的一系列从经验中进行学习的高级算法,例如深度神经网络。

提到
NLG,首先会联想到一个不知疲倦的机器人,可以每周7×24小时地奋笔疾书,产出各种各样的小说、情书、剧本、新闻、财报等各种类型的文字。

人工智能目前处于此阶段。

现实中,的确也有一些机器生成的书出版(例如用165行 Python
代码自动生成的书《World Clock》,由 Harvard Book Store press 出版
),甚至在 Amazon 上有了一定的销量和用户好评(例如 Philip M. Parker
用机器写了一大堆书在 Amazon 上卖)。

阶段3——机器意识:不需要外部数据就能从经验中自学习。

但实际的
NLG,更多的是基于已有文本/数据/图像生成自然语言形式的文本,离真正的「机器写作」差的还很远。

人工智能的类型

NLG是自然语言处理(NLP)的重要组成部分。NLP研究如何实现自然语言形式的人机交互,其研究涉及语言学、计算机科学和数学等多个领域。

ANI:它包含基础的、角色型任务,比如由Siri、Alexa这样的聊天机器人、个人助手完成的任务。

NLP 包含自然语言理解 (Natural Language Understanding,NLU)
和自然语言生成(Natural Langauge Generation,
NLG)两个重要方向,如下图所示。

AGI:通用人工智能包含人类水平的任务,它涉及到机器的持续学习。

图片 15

ASI:强人工智能指代比人类更聪明的机器。

自然语言处理主要技术领域

什么使得系统智能化?

其中,NLU 旨在让机器理解自然语言形式的文本内容。从 NLU
处理的文本单元来讲,可以分为词(term)、句子(sentence)、文档(document)三种不同的类型:

图片 16

词层面的基础 NLU
领域包括分词(汉语、缅甸语、泰语等非拉丁语系语言需要)、词性标注(名词、动词、形容词等)、命名实体识别(人物、机构、地点等)和实体关系提取(例如人物-出生地关系、公司-所在地关系、公司收购关系等);

1、自然语言处理

句子层面的基础 NLU
领域包括句法结构解析(获取句子的句法结构)和依存关系解析(获取句子组成部分的依赖关系);

2、知识表示

文档层面的基础 NLU
领域包含情感分析(分析一篇文档的情感倾向)和主题建模(分析文档内容的主题分布)。

3、自动推理

与NLU不同,NLG旨在让机器根据确定的结构化数据、文本、音视频等生成人类可以理解的自然语言形式的文本。根据数据源的类型,NLG可以分为三类:

4、机器学习

NLP、人工智能、机器学习、深度学习和神经网络之间的区别

近年来,随着CNN(Convolutinal Neural Network)、RNN(Recurrent Neural
Network)、GAN(Generative Adversarial
Network)等深度学习技术的应用,NLP(尤其是
NLG)领域取得了明显的进展,也涌现了一些有趣的 NLG 应用。

人工智能:建立能智能化处理事物的系统。

有趣的 NLG 应用

自然语言处理:建立能够理解语言的系统,人工智能的一个分支。

在 Text to text NLG 领域,令人瞩目的进展当属 GNMT (Google Neural Machine
Translation)。它基于带 Attention 机制的 Encoder(8层LSTM)-
Decoder(8层LSTM) 框架(图4),通过引入残差连接(Residual
Connection),并基于 Google 打造的 TPU (Tensor Processing
Unit)进行并行化处理,高效地进行 GNMT 模型的训练和预测。

机器学习:建立能从经验中进行学习的系统,也是人工智能的一个分支。

图片 17

神经网络:生物学启发出的人工神经元网络。

GNMT 的 Encoder-Decoder 框架

深度学习:在大型数据集上,建立使用深度神经网络的系统,机器学习的一个分支。

GNMT 相对传统的 PBMT(Phrase-Based Machine
Translation)模型,在多个主要语言对的翻译中将翻译误差降低了 55%-85%
以上。

图片 18

同时,Google 在 GNMT中借鉴迁移学习(Transfer
Learning)的思路,通过不同语言对的翻译模型共享参数,实现了未经训练的语言对之间的自动翻译(即「Zero-Shot
Translation」)。

什么是自然语言处理?

在 Data to text NLG 领域,一项有趣的工作是Facebook AI Research
2016年发表在 EMNLP
会议上的一篇论文研究了如何利用人物的结构化数据(通常是表格化的数据)生成人物
biography 的工作,并通过抽取维基百科的 infobox
和正文第一段话,自动化地构建了一个大型平行语料库
WikiBio,包含了超过70万条平行数据和超过40万的词表。

自然语言处理是指机器理解并解释人类写作、说话方式的能力。

它基于条件神经语言模型,利用表格数据作为条件,进行自然语言形式的
biography 文本生成(图5)。

NLP的目标是让计算机/机器在理解语言上像人类一样智能。最终目标是弥补人类交流和计算机理解之间的差距。

它将表格数据以局部条件(local
conditioning,描述之前生成的词序列与表格数据的关系)和全局条件(global
conditioning,利用表格中所有的域和对应数据对人的特征进行建模)的形式加入到神经网络模型中,并设计了一种
copy 机制使模型可以灵活考虑表格中出现过的词。

图片 19

基于这样的机制,可以达到类似下面例子的结果。

下面是三个不同等级的语言学分析:

图片 20

句法学:给定文本的哪部分是语法正确的。

人物 biography 文本生成示例

语义学:给定文本的含义是什么?

Vision to text NLG 领域的典型应用当属 Image
Captioning(看图说话),它的输入为一张图片(Video Captioning
中输入为一个图片序列,但技术方案类似),输出是描述该图片语义的自然语言文本。

语用学:文本的目的是什么?

下图中有一些有趣的例子。

NLP处理语言的不同方面,例如:

图片 21

音韵学:指代语言中发音的系统化组织。

一些有趣的 vision-to-text NLG 例子

词态学:研究单词构成以及相互之间的关系。

同机器翻译的GNMT方案类似,Image Captioning 的技术方案也基于
Encoder-Decoder 框架,只是 Encoder 部分的神经网络从 LSTM 替换成了
CNN,用以准确刻画图片的语义信息。

NLP中理解语义分析的方法:

同 GNMT 类似,引入 Attention 机制来智能选择影响 Decoder
部分生成文字的图像空间特征。具体的模型结构如图7所示。

分布式:它利用机器学习和深度学习的大规模统计策略。

图片 22

框架式:句法不同,但语义相同的句子在数据结构中被表示为程式化情景。

Image Captioning 模型结构

理论式:这种方法基于的思路是,句子指代的真正的词结合句子的部分内容可表达全部含义。

NLG 技术的能力边界

交互式:它涉及到语用方法,在交互式学习环境中用户教计算机一步一步学习语言。

NLG
技术,一个核心在于NL,即自然语言形式的文本,更易于普通人阅读;另一个核心在于G,即生成,但不是创作,不涉及深入地分析、提炼和推理。

我们为什么需要NLP

在 Text to text NLG
中,本质上是将输入文本进行处理,映射到一个语义向量空间中,然后再用输出文本来表达同样的语义,而这一过程中语义信息本身并没有经过进一步加工。

有了NLP,有可能完成自动语音、自动文本编写这样的任务。

Data to text NLG
的目的是将结构化数据嵌入自然语言文本中,便于普通人的快速阅读,即使有一些看似推理的结果(例如天气预报中根据下周七天的天气数据,输出「未来一周大部分时间晴好,仅周三有短时小雨」这样的文本),其实也是人为定义了新的结构化数据字段。

由于大型数据的存在,我们为什么不使用计算机的能力,不知疲倦地运行算法来完成这样的任务,花费的时间也更少。

Vision to text NLG
中也是如此,只是用自然语言文本来表达原先图像表达的语义,也不涉及语义的进一步加工。

这些任务包括NLP的其他应用,比如自动摘要(生成给定文本的总结)和机器翻译。

换句话说,目前的 NLG 技术并不能实现人类的「写作」过程 –
其中包括对大量输入信息的理解、提炼、分析、推理和重组,而仅能够给出输入信息(文本、数据和图像)的自然语言形式的表示。

NLP流程

NLG
技术生成的文本,单篇文本看起来会非常规范和优质,但把大量的生成文本放在一起,就会感觉出浓浓的机器味儿

如果要用语音产生文本,需要完成文本转语音任务

NLP的机制涉及两个流程:

即便如此,由于机器可以不知疲倦且客观地工作,NLG
技术在下述场景中有了广泛的应用:

自然语言理解

自然语言生成

预告

自然语言理解

这会是一个关于NLG技术的系列文章,读者定位是对NLG技术感兴趣的所有人,所以在写作过程中,会兼顾客观性与趣味性,也会兼顾深度与广度,期望能帮助大家开阔思路。

NLU是要理解给定文本的含义。文本内每个单词的特性与结构需要被理解。在理解结构上,NLU要理解自然语言中的以下几个歧义性:

接下来系列文章的主题会是:

词法歧义性:单词有多重含义

句法歧义性:语句有多重解析树

敬请期待!

语义歧义性:句子有多重含义

传送门

回指歧义性(AnaphoricAmbiguity):之前提到的短语或单词在后面句子中有不同的含义。

关于百炼智能,欢迎移步量子位前情报道:

接下来,通过使用词汇和语法规则,理解每个单词的含义。

《又一北大系AI公司浮出水面,百炼智能宣布获千万元天使投资》

然而,有些词有类似的含义,有些词有多重含义。

如果你对该话题感兴趣,也欢迎投稿与我们交流,邮件可发送:qbitai@qq.com,或添加量子位小助手,加入NLP专业交流群。

自然语言生成

NLG是从结构化数据中以可读地方式自动生成文本的过程。自然语言生成的问题是难以处理。

图片 23返回搜狐,查看更多

自然语言生成可被分为三个阶段:

责任编辑:

1、文本规划:完成结构化数据中基础内容的规划。

2、语句规划:从结构化数据中组合语句,来表达信息流。

3、实现:产生语法通顺的语句来表达文本。

NLP与文本挖掘之间的不同

自然语言处理是理解给定文本的含义与结构的流程。

文本挖掘或文本分析是通过模式识别提起文本数据中隐藏的信息的流程。

自然语言处理被用来理解给定文本数据的含义,而文本挖掘被用来理解给定文本数据的结构。

图片 24

例如,在“I found my wallet near the
bank”一句中,NLP的任务是理解句尾“bank”一词指代的是银行还是河边。

大数据中的NLP

如今所有数据中的80%都可被用到,大数据来自于大公司、企业所存储的信息。例如,职员信息、公司采购、销售记录、经济业务以及公司、社交媒体的历史记录等。

尽管人类使用的语言对计算机而言是模糊的、非结构化的,但有了NLP的帮助,我们可以解析这些大型的非结构化数据中的模式,从而更好地理解里面包含的信息。

NLP可使用大数据解决商业中的难题,比如零售、医疗、金融领域中的业务。

什么是聊天机器人?

聊天机器人或自动智能代理

1、指代你能通过聊天app、聊天窗口或语音唤醒app进行交流的计算机程序。

2、也有被用来解决客户问题的智能数字化助手,成本低、高效且持续工作。

聊天机器人的重要性

1、聊天机器人对理解数字化客服和频繁咨询的常规问答领域中的变化至关重要。

2、聊天机器人在一些领域中的特定场景中非常有帮助,特别是会被频繁问到高度可预测的的问题时。

聊天机器人的工作机制

图片 25

基于知识:包含信息库,根据客户的问题回应信息。

数据存储:包含与用户交流的历史信息。

NLP层:它将用户的问题转译为信息,从而作为合适的回应。

应用层:指用来与用户交互的应用接口。

聊天机器人每次与用户交流时都能进行学习,使用机器学习回应信息库中的信息。

NLP中为什么需要深度学习

1、它使用基于规则的方法将单词表示为“one-hot”编码向量。

2、传统的方法注重句法表征,而非语义表征。

3、词袋:分类模型不能够分别特定语境。

深度学习的三项能力

可表达性:这一能力描述了机器如何能近似通用函数。

可训练性:深度学习系统学习问题的速度与能力。

可泛化性:在未训练过的数据上,机器做预测的能力。

在深度学习中,当然也要考虑其他的能力,比如可解释性、模块性、可迁移性、延迟、对抗稳定性、安全等。但以上是主要的几项能力。

NLP中深度学习的常见任务

图片 26

传统NLP和深度学习NLP的区别

图片 27

日志分析与日志挖掘中的NLP

什么是日志?

不同网络设备或硬件的时序信息集合表示日志。日志可直接存储在硬盘文档中,也可作为信息流传送到日志收集器。

日志提供维持、追踪硬件表现、参数调整、紧急事件、系统修复、应用和架构优化的过程。

什么是日志分析?

日志分析是从日志中提取信息的过程,分析信息中的句法和语义,解析应用环境,从而比较分析不同源的日志文档,进行异常检测、发现关联性。

什么是日志挖掘?

日志挖掘或日志知识发现是提取日志中模式和关联性的过程,从而挖掘知识,预测日志中的异常检测。

日志分析和日志挖掘中使用到的技术

下面介绍了完成日志分析的不同技术:

模式识别:将日志信息与模式薄中的信息进行对比,从而过滤信息的技术。

标准化:日志信息的标准化是将不同的信息转换为同样的格式。当来自不同源的日志信息有不同的术语,但含义相同时,需要进行标准化。

分类&标签:不同日志信息的分类&标签涉及到对信息的排序,并用不同的关键词进行标注。

Artificial
Ignorance:使用机器学习算法抛弃无用日志信息的技术。它也可被用来检测系统异常。

日志分析&日志挖掘中的NLP

自然语言处理技术被普遍用于日志分析和日志挖掘。

词语切分、词干提取、词形还原(lemmatization)、解析等不同技术被用来将日志信息转换成结构化的形式。

一旦日志以很好的形式组织起来,日志分析和日志挖掘就能提取信息中有用的信息和知识。

深度自然语言处理

自然语言处理是一个复杂的领域,处于人工智能、计算语言学和计算机科学的交叉领域。

从NLP开始

用户需要输入一个包含已写文本的文件;接着应该执行以下NLP步骤:

图片 28

图片 29

语句分割-在给定文本中辨识语句边界,即一个语句的结束和另一个语句的开始。语句通常以标点符号“.”结束。

1、标记化-辨识不同的词、数字及其他标点符号。

2、词干提取-将一个词还原为词干。

3、词性标注-标出语句中每一个词的词性,比如名词或副词。

4、语法分析-将给定文本的部分按类划分。

5、命名实体识别-找出给定文本中的人物、地点、时间等。

6、指代消解-根据一个语句的前句和后句界定该句中给定词之间的关系。

NLP的其他关键应用领域

除了在大数据、日志挖掘及分析中的应用,NLP还有一些其他主要应用领域。尽管NLP不如大数据、机器学习听起来那么火,但我们每天都在使用它:

1、自动摘要-在给定输入文本的情况下,摈弃次要信息完成文本摘要。

2、情感分析-在给定文本中预测其主题,比如,文本中是否包含判断、观点或评论等。

3、文本分类-按照其领域分类不同的期刊、新闻报道。多文档分类也是可能的。文本分类的一个流行示例是垃圾电子邮件检测。基于写作风格,可检测作者姓名。

4、信息提取-建议电子邮件程序自动添加事件到日历。

本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图