文本数据分析概念
文本分析顾名思义就是对文本数据进行分析。从文本中对特征进行挖掘以及特征进行统计分析。
文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义(Message)的一个句子或多个句子的组合。一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。文本的结构:单字 可以组词语,词语可以造句,句子组成段落,段落构成文章。层层递进。

文本分析的主要路径是 :先将句子按照空格将单词分成一个一个的单词,然后再按照某种计量方法(词频,TF_IDF ,word2vec) 将文本数据转化为词向量,词矩阵的数字数据.转化为词向量了,词矩阵就是数字数据了,后面的分析方法和数字数据的分析方法大同小异了(文本语义除外)。

分词常用的方法: 1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的词数最小);4)双向最大匹配法(进行由左到右、由右到左两次扫描)。 分词常用的算法: word分词,SCWS,FudanNLP,CC-CEDICT,MMSEG4J,盘古分词,结巴分词。
常用场景案例
文本分析的主要场景应用有文本分类,情感分析,问题解答,新闻分类,深度学习,自然语言推理,主题分类。如果从智能的维度来分类可以分为以下三大类:

1、文本统计: 主要是对文本中出现的词语进行统计分析,运用的场景有词云、词频,舆情分析以及简易版的智能客服。

2、文本建模:根据模型监督鉴别文本,通过将文本进行数字数据化之后,再和机器学习等算法进行结合。运用于情感分析,词语网路分析等。


3、文本语义: 根据语法读懂文本的意思,采取深度学习等复杂算法进行训练,使得可以从文本中挖掘出来具有语法信息的文本信息。运用于主题模型LDA,词向量,RNN或LSTM。
