原文: https://machinelearningmastery.com/books-on-natural-language-processing/
自然语言处理(简称 NLP)是研究处理语音和文本数据的计算方法。
该领域由统计范例主导,机器学习方法用于开发预测模型。
在这篇文章中,您将发现可以阅读的顶级书籍,以便开始使用自然语言处理。
阅读这篇文章后,你会知道:
- 实用自然语言处理的顶级书籍。
- 自然语言处理理论基础的顶级教科书。
- 我在架子上的 NLP 书籍。
让我们开始吧。
作为从业者,我们并不总是在开始一个新主题时抓住一本教科书。
本书中的代码示例使用 Python 编程语言。
虽然 NLP 的实用书籍比教科书少,但我试图挑选前三本书,这些书籍将帮助您入门并将 NLP 方法引入您的机器学习项目。
由 Steven Bird , Ewan Klein 和 Edward Loper 撰写。
本书介绍了使用 Python 栈为从业者提供的 NLP。
本书侧重于使用 NLTK Python 库,这对于常见的 NLP 任务非常流行。
内容包括:
- 语言处理和 Python
- 访问文本语料库和词汇资源
- 处理原始文本
- 编写结构化程序
- 分类和标记单词
- 学习分类文本
- 从文本中提取信息
- 句子结构分析
- 构建基于特征的 GRammars
- 句子意义分析
- 管理语言数据
如果您正在寻找使用首选 NLTK 平台进入经典 NLP 的话,这本书是完美的。
- 使用 Python 进行自然语言处理:使用自然语言工具包分析文本(在亚马逊上)
- Python 自然语言处理(免费版)
本书介绍了一套不同的 NLP 工具和问题,例如 Apache Solr , Apache OpenNLP 和 Apache Mahout 。
代码示例使用 Java。
它可能更适合开发人员在工作项目中开始使用更大的企业级 NLP 工具。
由 Grant Ingersoll , Thomas Morton 和 Drew Farris 撰写。
值得注意的是,Grant Ingersoll 是 Apache Mahout 项目的联合创始人。
内容包括:
- 入门驯服文本
- 驯服文本的基础
- 搜索
- 模糊字符串匹配
- 识别人物,地点和事物
- 聚类文本
- 分类,分类和标记
- 构建示例问答系统
- 解读文本:探索下一个前沿
- 驯服文本:如何查找,整理和操纵它(在亚马逊上)
- 图书主页
- Book GitHub Repository (代码和数据)
由 Julia Silge 和 David Robinson 撰写。
本书展示了一系列现代应用程序的统计自然语言处理方法。
代码示例在 R.
代码侧重于 Hadley Wickham(论文)的“tidy
”原则和作者的 tidytext 包。
在这三本书中,这是最近出版的,对演示有更实际和现代的感觉。
内容包括:
- 整洁的文本格式
- 整洁数据的情感分析
- 分析单词和文档频率:tf-idf
- 词语之间的关系:N-gram 和相关性
- 转换为 Nontidy 格式和从 Nontidy 格式转换
- 主题建模
- 案例研究:比较 Twitter 档案
- 案例研究:挖掘 NASA 元数据
- 案例研究:分析 Usenet 文本
- 采用 R 进行文本挖掘:一种整洁的方法(在亚马逊上)
- 图书主页(及免费预订)
- Book GitHub Repository (代码和数据)
你知道其他关于自然语言处理的实用书吗? 请在评论中告诉我。
有大量关于自然语言处理和特定子主题的教科书。
在本节中,我试图关注我(和共识)似乎看到的关于初学者的主题的最佳书籍,例如:希望深入理论的本科生或研究生以及从业者。
我试图选择一般的 NLP 书籍以及关于翻译和演讲等高度研究的主题的书籍。
本节的前两本书基本上是 NLP 学生的大炮。
由 Christopher Manning 和HinrichSchütze撰写。
值得注意的是,克里斯托弗曼宁在斯坦福大学教授 NLP,并且支持 CS224n:深度学习自然语言处理课程。
本书介绍了自然语言处理的统计方法,涵盖了所需的语言学和较新的(当时,大约 1999 年)统计方法。
本书为更好地掌握新方法和编码提供了坚实的基础。
内容包括:
- 介绍
- 数学基础
- 语言要点
- 基于语料库的工作
- 搭配
- 统计推断:稀疏数据的 n-gram 模型
- 词义消歧
- 词汇习得
- 马尔可夫模型
- 词性标注
- 概率上下文自由语法
- 概率解析
- 统计对齐与机器翻译
- 聚类
- 信息检索专题
- 文本分类
- 统计自然语言处理基础(亚马逊上)
- 书籍主页
由 Daniel Jurafsky 和 James Martin 撰写。
本书从语音和文本的角度介绍了 NLP,重点关注应用程序(每章一章)。
该主题的报道感觉详尽无遗。
内容包括:
- 介绍
- 正则表达式和自动机
- 单词和传感器
- N 元
- 词性标注
- 隐马尔可夫和最大熵模型
- 语音
- 语音合成
- 自动语音识别
- 语音识别:高级主题
- 计算音韵学
- 正式的英语语法
- 句法分析
- 统计分析
- 特色与统一
- 语言和复杂性
- 意义的表征
- 计算语义学
- 词汇语义学
- 计算词汇语义学
- 计算话语
- 信息提取
- 问答以及总结
- 对话和会话代理
- 机器翻译
- 语音和语言处理,第 2 版(亚马逊上)
- 书籍主页
本书介绍了统计机器翻译的主题,这是 NLP 的一个子领域。
内容包括:
- 介绍
- 单词,句子,科帕
- 概率论
- 基于单词的模型
- 基于短语的模型
- 解码
- 语言模型
- 评估
- 判别训练
- 整合语言信息
- 基于树的方法
本书介绍了统计语音识别的主题,这是 NLP 的另一个子领域,它在 20 世纪 90 年代通过统计方法进行了大修。
内容包括
- 语音识别问题
- 隐马尔可夫模型
- 声学模型
- 基本语言建模
- 维特比搜索
- 假设搜索树和快速匹配
- 信息论的要素
- 任务的复杂性 - 语言模型的质量
- 期望最大化算法及其后果
- 决策树和树语言模型
- 正字法的语音学:拼写到基础形式的映射
- 三脚架和 Allophones
- 最大熵概率估计和语言模型
- 最大熵估计在树木语言建模中的应用
- 从计数和退避方法估计概率
- 语音识别统计方法(亚马逊上)
我喜欢在架子上混合使用实用和参考文本。
NLP(对我而言)的难点在于大量的子问题和使用的专业术语和理论。
出于这个原因,我的架子上有以下 3 个 NLP 教科书:
我也很喜欢这样的样子:
- 牛津计算语言学手册(上未列出)
我建议您选择适合您和您的需求或项目的 NLP 书籍。
让我知道您选择或拥有哪些书籍。 在下面发表评论。
如果您要深入了解,本节将提供有关该主题的更多资源。
在这篇文章中,您发现了有关自然语言处理的顶级书籍。
具体来说,你学到了:
- 实用自然语言处理的顶级书籍。
- 自然语言处理理论基础的顶级教科书
- 我在架子上的 NLP 书籍。
你有任何问题吗? 在下面的评论中提出您的问题,我会尽力回答。