Skip to content

Latest commit

 

History

History
45 lines (42 loc) · 1.07 KB

ToDo.md

File metadata and controls

45 lines (42 loc) · 1.07 KB
  • 规则系统

    • 自动机
    • 正则表达式
  • 中文分词

  • NLP 技术

  • NLP 实践

    • 模板匹配 + 分类器
    • 给一个应用,给出可能用到的技术
  • NLP 的难点

    • 领域隔离
      • 语言可以描述任何领域
      • 任何跨领域的 NLP 都困难重
      • 知识库
      • 语言本身就是最好的表示 - 搜索引擎
    • 标注数据
      • 众包
    • 评价指标
  • seq2seq 模型提速

  • 解决 NLP 问题的一般思路

    • 这个问题人能做好吗?
      • 可以 - 设计流程让计算机模型人的思路
      • 很难 - 尝试从计算机的角度来思考问题
  • Bash Script

    • wc/sed/awk/grep/sort/uniq/paste/cat/head/tail
      • 一个很大的txt,30s内找出出现次数最多的前10个词汇
      • 查看第30行到第40行的数据
  • Stanford Core NLP

    • 语义分析
  • NLTK

    • 句子划分
    • 读取语义树
  • spacy

  • 超参数搜索

  • Seq2Seq 模型可视化

    • Hidden States 可视化
    • Word Embedding 可视化
      • 降维 - PCA、t-SNE
    • Attention 可视化
  • BLEU score

  • Seq2Seq 加速

  • Sense2Vec

  • wide && deep 模型