本章介绍spaCy文本处理的基础知识。 你将会学习到数据结构、模型训练以及如何用它们来抽取文本中的语言学特征。
在本章中,我们会用一些新技术来从大量语料中抽取特定信息。 我们会学习如何利用spaCy的数据结构来结合统计与规则模型进行文本分析。
本章会介绍spaCy的处理流程。我们会学到当spaCy在处理文本的时候背后的机制是什么, 如何编写定制化的组件并加入流程中,以及如何在documents、spans和tokens中通过 编写定制化属性来添加我们自己的元数据。
本章中,我们要学习更新spaCy的统计模型使其能够为特定的使用场景做出定制化。一个例子是我们想要在网络上的评论中抽取一种新的实体。我们将会学到如何从头训练自己的模型,了解模型训练的基本工作原理,以及一些技巧使得我们自己的定制化自然语言处理项目能够更加成功。