かいのきツリーバンク – 現代日本語の統語解析情報付きコーパス

フロントページ

かいのきツリーバンクは、手作業により構造分析を行ったおよそ150万語の現代日本語コーパスです。 以下のような特徴を持っています:

さらに、解析結果から得られた—依存関係グラフ—を検索インターフェースで見ることができます。

関連リソース

かいのきツリーバンクには、くすのきツリーバンクという関連リソースがあります。 くすのきツリーバンクの統語レベルのアノテーションは、かいのきツリーバンクと基本的に同じですが、形態レベルでのアノテーションをローマ字化したテキストを基に行った点で異なっています。 くすのきツリーバンクの現在のデータ量はかいのきツリーバンクのおよそ3分の1です。

略史

かいのきツリーバンクの構築は2012年に開始されました。 このコーパスは2016年までは、けやきツリーバンク(the Keyaki treebank)として知られていましたが、 国立国語研究所(NINJAL)の NPCMJプロジェクトの中で開発が行われるようになると同時に名称が変更され、 同時に、アノテーションの目的も変わりました。 当初の開発は自動解析器を鍛えるためのマークアップに重点が置かれていましたが、 プロジェクト開始後は、言語学研究のためのパターン検索を容易にするためのリソースを提供するということが目指されました。 プロジェクト実施期間である2016年度から2021年度は、年毎の成果を NINJAL Parsed Corpus of Modern Japanese(NPCMJ)として公開・更新してきました。

アノテーションについて

アノテーション方式の詳細は、解析ガイドに記述されています。

単位分割と品詞タグの付与は、純粋に語彙的な要素の中に機能的な要素を取り込むことを避けながら、終端ノードをできるだけ大きくとるという方針に従います。 これはおおむね、Corpus of Spontaneous Japanese(CSJ; Maekawa 2003)およびBalanced Corpus of Contemporary Written Japanese(BCCWJ; Maekawa et al. 2014)の長単位基準に従っています。

統語構造は the Penn Treebank(Bies et al. 1995)のスタイルのタグ付き括弧によって表示されます。 本コーパスでは、特にthe Penn Historical Corpora scheme(Santorini 2010)で提案されたアノテーション方式を採用しています。 この方式は次のような特徴をもちます:

実際のアノテーションは第一に観察的妥当性を目指すものでなければなりません。 その目的は、データにおける同定可能な関係・過程に一定の言語学的な分析を示すことです。 アノテーションはまた、統語的な分析をベースに Treebank Semantics(Butler 2015)の方式を用いて、述語論理に基づく意味表示を生成することも目指しています。 よって、統語的な分析から意味的な分析を計算するための曖昧性解消情報が加えられています。

曖昧性解消情報の1つは、節連結のタイプ(つまり、非終結節のタイプ)を特定するための拡張タグであり、 まず、従属的な節連結に対しては、拡張タグ-SCON (subordinate conjunction) を認めています。 従属節はその節における空主語の配置、およびより上位の階層の項との照応関係に影響を与えます(これは、「コントロール」と呼ばれる照応計算に従います)。 このタイプの従属節と区別されるのが、拡張タグ-CONJ (coordinating conjunction) を与えられる等位的な節連結です。 等位節は他の節と共有される項の配置に影響を与えます(これは,ATB (Across the Board) 抽出と呼ばれる照応計算に従います)。

検索インターフェース

かいのきツリーバンクには、アノテーションのほぼすべての側面を利用することのできる強力な検索インターフェースがあります。 検索結果は、アノテーションされた情報の付いたデータとしてダウンロードすることができます。 検索インターフェースが利用するソースデータは、定期的に修正・アップデートされます。

「検索パターンの例」には、実際の検索で使用できるパターンの例が挙げられています。

研究にコーパスを使う

オンラインで利用することのできるインターフェースは強力かつ柔軟なツールであり、多くの研究目的に十分対応できるはずですが、検索のためのデータがリアルタイムに更新されうることに留意してください。 長期的な研究プロジェクトでは、リリースされたデータをダウンロードし、オフラインで使用することが推奨される場合があります。 解析されたデータをオフラインで検索するための適切なツールには、CorpusSearch(Randall 2009)やTregex(Levy, and Andrew 2006)などがあります。 リリースデータのダウンロードは、高度な研究を行うための安定したデータセットを提供するだけでなく、自身の研究に必要だがコーパスには取り入れられていない分析を反映させるためにデータを改変することを可能にします。

解析ミス

他の注釈付きコーパスと同様に、かいのきツリーバンクにも解析ミスがあります。 コーパス構築においては、データの解析を改良・修正するために日々作業が行われています。 解析ミスが明らかになれば、時間の許す限り修正を加えてゆきます。 正確性の向上のために、ユーザーの皆様にミスを指摘していただけると大変ありがたく思います(contact)。

ご利用にあたって

『かいのきツリーバンク』を利用した研究成果を発表される際は、必ず下記の情報を明記して下さい。(バージョンやアクセス年月日は適宜置き換えて下さい。)

Kainoki, Ed (2022) “The Kainoki Treebank – a parsed corpus of contemporary Japanese” https://kainoki.github.io (accessed 9 January 2022).

利用条件

この作品はクリエイティブ・コモンズ・ライセンスの下でライセンスされています: Creative Commons Attribution 4.0 International License.

Creative Commons License