参与讨论,请进入 https://github.com/coderLMN/AutomatedDataCollectionWithR/issues 。
根据这些讨论的内容,我把其中比较典型和重要的问题整理在本书的 wiki 里,供读者参考。
这里还有一个 smSpider.md 文件 ,是在水木 BBS 二站上抓取整个版面内容的 JS 代码演示。
以下是译者序:
《基于 R 语言的自动化数据采集技术 — 网络抓取和文本挖掘实用指南》这本书是以非计算机专业人士(尤其是社会科学领域的研究者)为目标读者的,但它对于广大开发者也有很好的参考价值。它介绍的思路和方法并不仅仅局限于 R 语言的应用,在很多其他的开发平台上也不难实现。
对于我自己来说,这本书让我对社会科学和信息技术都有了全新的认识,开阔了眼界。大数据技术的应用领域除了搜索、电商、社交网络、垂直应用之外,还可以和很多专业领域结合起来,挖掘出非常有价值的信息。开源社区已经有了支持各种技术需求的现成组件,大大简化了所需的编程工作。可以说,这本书介绍的技术让大数据、网页抓取、机器学习这些貌似高大上和高深莫测的概念变得具体实际了。
我在翻译本书过程中最大的收获与其说是技术上的,不如说是理念上的:学科之间的交叉能够产生如此奇妙的化学反应,让很多我们以前想得到却做不到甚至根本不敢想的事情能够轻松地实现。尤其是现在的大数据时代,自动化数据抓取和文本挖掘技术为各专业领域的研究者提供了前所未有的强大工具,社会科学家们也能像自然科学家们一样通过建模、采集数据、分析统计的过程产生量化的结果,以此来支持他们的分析和结论。
本书的核心内容是自动化数据抓取和分析的方法,R 语言和它的一些组件在其中承担了基础架构的作用。比如书中介绍了通过定期抓取 Twitter 相关推文对奥斯卡奖得主进行预测的案例,我们同样也可以利用微博提供的开放接口做到类似的事情( 请参阅 http://open.weibo.com/wiki/2/search/topics )。利用 R 语言及其众多组件提供的支持,我们可以避开大量的技术细节,专注于我们要研究的主题,真正需要编写的代码其实是相当简单的。
管中窥豹,可见一斑。从这本书里我们还可以看到一个趋势:编程将不再是计算机专业人士的专利,而是一种越来越方便、越来越简单的工具。随着各种编程语言(比如本书用到的 R 语言)及其配套工具的完善,几乎每个人都有机会具备基本的编程能力,就像现在大部分人都能学会开车和使用电脑上网一样。
这本书就反映了上述的趋势。在书中,作者给出了简洁的代码、详细的讲解、以及真实的例子,让我们切切实实地看到了大数据在社会科学领域运用的效果。作者尽可能回避了晦涩的术语和高深的理论,而是给我们提供了非常实用的组件,并探讨了很有趣的一些实际问题。这样的讲解方式,非常有利于我们快速地上手、循序渐进地学习,并且马上就能把学到的技术运用到我们的实际研究项目中去。
最后我还要说几句套话。在翻译的过程中,我尽了最大努力让中文版通顺易懂且忠于原文,让读者在阅读本书的时候能保持情绪稳定,让出版社不后悔和我的这次合作。但是,由于本人水平比较有限,难免会有错误和遗漏之处,望读者不吝指正,我在此先行感谢。另外,我在 GitHub 开辟了一个讨论区:https://github.com/coderLMN/AutomatedDataCollectionWithR/issues ,欢迎读者们来提出自己的疑问和观点并参与讨论。