-
规则系统
- 自动机
- 正则表达式
-
中文分词
-
NLP 技术
-
NLP 实践
- 模板匹配 + 分类器
- 给一个应用,给出可能用到的技术
-
NLP 的难点
- 领域隔离
- 语言可以描述任何领域
- 任何跨领域的 NLP 都困难重
- 知识库
- 语言本身就是最好的表示 - 搜索引擎
- 标注数据
- 众包
- 评价指标
- 领域隔离
-
seq2seq 模型提速
-
解决 NLP 问题的一般思路
- 这个问题人能做好吗?
- 可以 - 设计流程让计算机模型人的思路
- 很难 - 尝试从计算机的角度来思考问题
- 这个问题人能做好吗?
-
Bash Script
- wc/sed/awk/grep/sort/uniq/paste/cat/head/tail
- 一个很大的txt,30s内找出出现次数最多的前10个词汇
- 查看第30行到第40行的数据
- wc/sed/awk/grep/sort/uniq/paste/cat/head/tail
-
Stanford Core NLP
- 语义分析
-
NLTK
- 句子划分
- 读取语义树
-
spacy
-
超参数搜索
-
Seq2Seq 模型可视化
- Hidden States 可视化
- Word Embedding 可视化
- 降维 - PCA、t-SNE
- Attention 可视化
-
BLEU score
-
Seq2Seq 加速
-
Sense2Vec
-
wide && deep 模型