第2章: spaCyによる大量データの解析

この章では、大量のテキストから特定の情報を抽出する方法をみていきます。 spaCyのデータ構造の作成方法と、テキスト解析のために機械学習パイプラインとルールベースパイプラインを効率的に組み合わせる方法を学びます。

1データ構造(1)

2文字列からハッシュへ

3Vocabとハッシュと語彙素

4データ構造(2)

5Docオブジェクトを作る

6Doc、スパン、固有表現をゼロから作る

7データ構造のベストプラクティス

8単語ベクトルと意味的類似度

9単語ベクトルの検査

10類似度の比較

11予測とルールの組み合わせ

12パターンのデバッグ(1)

13パターンのデバッグ(2)

14効率的なフレーズマッチング

15国名と関係の抽出

このコースについて

spaCyは産業応用向きの自然言語処理用Pythonライブラリです。この無料のオンラインコースでは、ルールベースと機械学習を用いた先進的な自然言語処理システムをspaCyで作る方法をインタラクティブに学ぶことができます。

私について

私はspaCyのコア開発者で、Explosionの共同創業者の一人のInesです。AIや機械学習、自然言語処理の最新の開発ツールを専門としており、Web関連のものを作るのも大好きです。