文本数据分析概念

文本分析顾名思义就是对文本数据进行分析。从文本中对特征进行挖掘以及特征进行统计分析。

文本，是指书面语言的表现形式，从文学角度说，通常是具有完整、系统含义（Message）的一个句子或多个句子的组合。一个文本可以是一个句子（Sentence）、一个段落（Paragraph）或者一个篇章（Discourse）。文本的结构：单字可以组词语，词语可以造句，句子组成段落，段落构成文章。层层递进。

数据分析一定要学习nlp吗,nlp怎么进行数据分析

文本分析的主要路径是 ：先将句子按照空格将单词分成一个一个的单词，然后再按照某种计量方法（词频，TF_IDF ,word2vec）将文本数据转化为词向量，词矩阵的数字数据.转化为词向量了，词矩阵就是数字数据了，后面的分析方法和数字数据的分析方法大同小异了（文本语义除外）。

数据分析一定要学习nlp吗,nlp怎么进行数据分析

分词常用的方法： 1）正向最大匹配法（由左到右的方向）；2）逆向最大匹配法（由右到左的方向）；3）最少切分（使每一句中切出的词数最小）；4）双向最大匹配法（进行由左到右、由右到左两次扫描）。 分词常用的算法： word分词，SCWS，FudanNLP，CC-CEDICT，MMSEG4J，盘古分词，结巴分词。