November 7, 2019

记一个自然语言处理的清汤寡水流

记一个自然语言处理的清汤寡水流

Phase I:语料预处理

  1. 语料清洗
  2. 分词
  3. 词性标注(文本分类任务中可能不太需要)
  4. 去停用词(中文中有些场景可能不太需要,因为很多标点、语气词会极大影响意思)
  5. 句法分析

Phase II:特征工程

目的只有一个,就是取得特征向量...

Phase III:选择模型

  • 根据不同的任务选择或者创建不同的模型
  • 根据任务要求不同选择不同的分类或者生成模型
  • 根据数据中标签的情况决定选择监督 or 无监督学习模型,模型包括传统的 K近邻(KNN)、支持向量机(SVM)、决策树(Decision Tree)、梯度提升树(GBDT)、K-means等机器学习模型,或者 CNN、LSTM、GRU、BERT、ERNIE...

Phase IV:一般任务分类:

  • 文本分类
  • 机器翻译
  • 机器对话应答
  • ...