かいのきツリーバンク – 現代日本語の統語解析情報付きコーパス

1   統語解析情報付きコーパスのすすめ

統語解析情報付きコーパスを使わないと出来ないことにはどんなことがあるだろうか? いま仮に、日本語のテクストの中で馬が行っている事柄をすべて調べたいとする。 すると、「馬」という語が(あるいは「馬」を含む名詞句が)主語として関係づけられている述語を探すことが課題となる。 この場合、「馬が」のような表現はかなり確実に主語と見なしてよいが、それに加えて、「馬は、馬も、馬さえ、馬なら、馬に、馬から、馬の」のように、主語かも知れないがそうでないかも知れない表現も存在する。 さらに、周知のように、「馬が追い手を振りきって、走って、山へ逃げた」のような文では、馬は3つの動詞の主語ではあっても、局所的に関連づけられている述語は一つしかない。 文脈で既に言及されている「馬」と同一照応の代名詞もあるかも知れないので、それらを調べたいこともあるだろう。 のみならず、「鳴く馬」や「しっぽが白い馬」のように、馬について描写を行う表現ではあっても、「馬」の主語としての地位が助詞や語順だけを参照して推論することのできない表現もある。 統語解析情報コーパスを使うと、統語構造や文法役割の規定や意味関係のアノテーションを参照することで、「馬」の語(あるいは、「馬」を含む名詞句および「馬」を指示する代名詞)が主語として関連づけられている述語をすべて検索することができる。

(4)
笠を手に
(5)
笠を手に出かけた

Expression (4) is interesting because in the sentence there seems to be a missing verb (like 持って) that mediates the relation between 笠を and 手に. Expression (4) is especially interesting because (unlike expressions such as 「料理を中心に」or 「首都を皮切りに」) the relation between 笠を and 手に cannot be paraphrased as 「A を B として」. With a parsed corpus, you can search for all the subordinate clauses (/^IP-ADV/) that

This is achieved by the search pattern of (6).

(6)
/^IP-ADV/ < /^PP-OB1/ < (/^PP/ < (/^P-ROLE/ < に)) !<3 __

Click the ‘Try’ button to see results from the corpus.

    もう1つ例を挙げる。 「笠を手に出かけた」の文の中の「笠を手に」のような表現に興味があるとする。 この表現が興味深いのは、「笠を」と「手に」との関係を、明示されていない動詞(「持って」のような)が媒介していると思われるからである。 「料理を中心に」や「首都を皮切りに」のような類似の多くの表現は、「A を B として」と言い替えられるのに対し、この表現はそれが出来ないことからなお面白い。 統語解析情報付きコーパスを使うと、このような、(i)従属節で、(ii)述語を欠いており、(iii)対格目的語と「に」を伴う助詞句だけからなるものをすべて検索することができる。 実際のところ、このような表現は非常に稀である。 以下に例をいくつか挙げる:

以上に挙げたのは、統語解析情報付きコーパスで出来て、ブラウザーやコンコーダンサーの検索エンジンでは不可能な事柄のうち、わずかな例にすぎない。 このことは、文の意味について人が解析し、少数の抽象的な原理にもとづいてデータを構成することによって可能となるのである。 日本語の文法に関して、系統立って研究されておらず、統語解析情報付きコーパスが解明の手助けになりそうな問題は数多くある。 それは、統語解析情報付きコーパスは、言語研究者が興味あるものとして取り上げたものばかりでなく、すべての事柄を解析するからである。 実際に NPCMJ を検索して、そこに何があるか見てみることを奨める。


2   文字列の検索

コーパスを効果的に使用するためには、それに含まれるデータおよびその構成に関する一般的な知識が必要である。 しかし、日本語に関する一般的な知識以上にコーパスに関する背景知識を必要とせずに情報にアクセスするための簡単な方法として、NPCMJ の「文字列検索」とその関連機能がある。 これは非常に強力なツールであり、検索を簡単にして(他のいくつかの検索エンジンと異なり)ワイルド・カードの使用を不要にする。 例えば、現代日本語では単一の語を成さないが、単語の部分の組み合わせとしてテクストに出現する文字列を簡単に検索することができる。 日本語が分かる人なら誰でも、「にはい」という連続する文字列が単一の単語を表すものではないことを知っている。 この文字列を単一の単語として検索しようとしても(すなわち、<wb> で単語の境界を表すと、「<wb> にはい <wb>」を検索しても — これは、文字列検索に ‘Strict’ のオプションを適用することで行える)、結果として何も得られない。

他方、「にはい」は単語の部分の組み合わせとして(それらが平仮名で書かれているかぎりは)は出現する。 例えば、‘Character’ オプションを選んで検索することで、「<wb>に||は||い<wb>」(|| は単語の境界が出現しうることをあらわす)を検索できる。 その結果として、

が得られる。

    また、 ‘Liberal’ オプションを選ぶと、検索する表現の最初と最後に単語の境界を前提としない。 すなわち、「||に||は||い||」を検索することになる。 結果として得られるのは、上記のものの他に、以下のような例がある:

    ‘Mine’ オプションを選ぶと、結果をかなりの程度絞り込むことができる。 1個のスペース(ここでは、アンダースコア “_” によって表すことになる)を文字列の途中で入力することにより、単語の境界を導入することができる。 例えば、‘Mine’ オプションの下で「に_はい」と入力すると、|| に <wb> はい|| を検索することになり、動詞「入る」や「這い」を含む例は出力し、「居る」や「行く」の例を返すことはない。

    文字列検索に当って、‘Strict’ オプションを選ぶと、さらに限定された結果が得られることになる。 この場合、最初と最後に単語の境界が置かれることになる。 例えば、このオプションの下で「に_はい」と入力すると、「<wb> に <wb> はい <wb>」を検索する。 現在のところ、その結果として出力される例文は無いが、それはコーパスの中に「に」の後に独立した単語「肺」「灰」「杯」や「這い」が(少くとも平仮名では)直接後続する例文が無いからである。 また、このような結果から、「這いあがる」が単一の単位であること(すなわち、文字列全体が2つの単語でなく単一の語彙項目として分析されること)が分る。 これは有益な情報である。 動詞連用形に後続する生産的な助動詞(「始める、終わる、出す、止む、忘れる」等)が個別の単語として取り扱われる一方で、同様に動詞連用形に後続して、「這い上がる、かき集める、言いふらす、撒き散らす、追いかける」のような語彙的複合語を形作るものもある。 後者の語形については、最初の動詞と後続の動詞の間に単語の境界は存在しない。

    「よくばり検索」を ‘Liberal’, ‘Character’, ‘Mine’ および ‘Strict’ のオプションと組み合わせて行うことによって、より広範囲の結果を得ることができる。 この「よくばり検索」によって、単語の境界に介在することのできる文字数の上限を指定することができる。 文字列「に_はい」について「よくばり検索」のオプションを ‘Character’ とし、介在できる文字数を1にセットすると、以下のような例を得ることができる:

    介在できる文字数を大きくすると、さらに多くの結果を得ることができる。

    「よくばり検索」におけるオプションの機能は以下の通りである:

    基本的な「文字列検索」についても「よくばり文字列検索」についても、その検索の原理については、漢字かな書きテクストについてもローマ字化されたテクストについても変わりがない。

    文字列の検索に関しては制約がある。 (i) 入力としてどの表記を採用したかにより結果は制約される(例えば、「うま」「ウマ」「馬」はすべて異なる結果をもたらす)。 (ii) レンマにもとづく検索は出来ない(例えば、「あります」「あれば」「ある」「あった」はすべて同一のレンマ「有る」を持つ形態素を含んでいるが、当該の語が出現する例をすべて得たいのであれば、「あり、アリ、在り、有り、あれ、アレ、在れ、有れ」等の多様な語形式について個々に検索を行う必要がある。 これらの制約は TGrep2 を使用するとかなりの程度克服できる (sectionref:[__tgrepsearch__] 節を参照のこと)。

    このように、文字列検索を使えば特定の文字列を含む文の検索が完全に行える。 しかし、文字列検索がもっとも有用なのは、(i) 文字列がどのように分割されるか、使用者が分らない場合と (ii) 単語の連鎖に対しどのような統語構造が与えられるか、使用者が分らない場合である。 例えば、たまたま文字列「ならでは」が単一の単語としてタグ付けされることを知らなかった場合、‘Liberal’ オプションを選んで「なら」「らで」「では」「ならで」「ならでは」「ならではの」のうちどれを検索しても、「ならでは」を含む結果が返される。 また、もしも文字列「に向けて」が文法機能の違いに応じて2つの異なるタグ付けを与えられることを知らなかった場合、‘Liberal’ オプションを選んでこの文字列を検索すれば、(P-ROLE に向けて) と (P-ROLE に) (VB 向け) (P-CONN て) の2つのパターンが得られる (パターンの意義については、下の 3 節で論じる)。

    要するに、適格な文字列を入力してコーパスの中にそれに対応するパターンがあれば、何らかの検索結果が返される。 ディフォールトの表示によって、それぞれの例文の諸要素がどのように統語構造を構成しているかが示される。 検索結果の表示をよく見ることにより、コーパス中で形態素がどのように分割されているか、またコーパスの統語構造がどのような特徴を持っているかについて習熟することができる。


3   基本的構造

本コーパスは第一に、テクストに対し説明を与えたものである。 テクストは、基本的な単位(文および文の断片)に分割される。 基本的単位は、「木」の原理によって統合され、そこでは幹が枝分れしてより小さい部分となり、最終的には葉(テクストの単語)となる。 「木」の代りに、大きな箱が小さな箱を内に含み、もっとも小さい箱にはブロック(テクストの単語)が入っている、と考えてもよい。 どちらのように視覚化しても役に立つ。 数学的なモデルとしてはどちらの視覚化でも同じことになるが、電子化されたテクストで木を表現するもっとも簡単な方法はラベル付きのカッコ(箱の中に箱が入っているという捉え方)である。 他方、木構造について説明する時には木の比喩を用い、祖先::子孫、兄弟姉妹::兄弟姉妹、親::子供、などの(家系樹で用いるような)親族用語を使うことが多い。 ただ1つ木の比喩には困惑させられることがある。 それは、言語学における木は逆さまに、葉(単語)を一番下にして書かれるということである。

3.1   葉から根へ

まず最初に、木を底辺から構築するにはどうしたらよいかを考えてみよう。 この議論は、NPCMJ において文がどのようにして分析されるかを利用者に理解してもらうために行うのである。 初めに、コーパスの中に存在することが分っている次の文を取り上げてみよう。

(7)
鈴木さんの言葉はすがすがしくさえあった

この文は、データとしては第一に文字を一列に並べたものである。 そこで、文全体をオンラインの文字列検索インタフェースで検索することができる。 コーパス中にこの文は1度しかあらわれないので、適切な形で検索するなら、結果としてはただ1つの項目が得られる。 間違った形で検索するなら、何の結果も得られない。 現在のところ、上記の文は単に文字を一列に並べたものにすぎないが、コーパスの中では文は語句へと分割され、それらがノードの下で構造として統合されている。 文字列検索を使ってコーパスの検索を成功させるためには、語句の区切りに文字列がマッチすることが必要である。 その1つのやり方は、"Liberal" かまたは "Character" のオプションを選んで文字列検索を行うことである。 そのどちらを選んでも、文字と文字のすべての間を潜在的な単語の境界と見なすことになる。

(8)
鈴||木||さ||ん||の||言||葉||は||す||が||す||が||し||く||さ||え||あ||っ||た

検索の結果、上記の区切りの可能性を満たす例文が1つ得られる。 もう1つの検索のやり方は、文の区切りをコーパスにおけるのと全く同じやり方で行い、"Mine" または "Strict" を条件として選んで検索を行うことである:

(9)
鈴木さん<wb>の<wb>言葉<wb>は<wb>すがすがしく<wb>さえ<wb>あっ<wb>た

これによっても、結果として唯一の文が得られる。

コーパス中のデータを単語へと分割するやり方は利用者にとって予想することが容易であろう。 というのは、単語分割は大部分学校文法にもとづいているからである。 学校文法の主要な品詞(名詞、動詞、形容詞、副詞、代名詞、助詞、助動詞等)が別個の区切り(単語)として区別され、そのそれぞれが、当該の単語の品詞名をラベル付けされたノードによって支配されている。

(10)
NPRP-ROLENP-OPTRADJIP-OPTRVB2AXD
鈴木さん言葉すがすがしくさえあっ

NPR(固有名詞)は名詞の下位カテゴリーである。 単語を含むノードは、ラベル付きカッコ記法によって次のように表される:

(11)
(NPR 鈴木さん)

P-ROLE は文法役割を表す、助詞の下位カテゴリーである:

(12)
(P-ROLE の)

N は普通名詞のラベルである:

(13)
(N 言葉)

P-OPTR は助詞の下位カテゴリーであり、いわゆる「取り立て助詞」を含む:

(14)
(P-OPTR は)

ADJI はイー形容詞のカテゴリーであるが、「ーたい」「ーがたい」「ーやすい」「ーにくい」「ーづらい」のような助動詞的用法は含まない。 上記の例における ADJI 「すがすがしく」は連用形であるが、この活用情報は単語ノードのラベルには含まれない:

(15)
(ADJI すがすがしく)

P-OPTR はまた、用言の連用形の後にもあらわれることができる:

(16)
(P-OPTR さえ)

VB2 は動詞の下位カテゴリーであり、核となる述語に後続して1つまたはそれ以上の文法機能を果たす。 VB2 は通常正規の動詞から派生したものであるが、VB2 として出現する場合は語彙的意味の多くを失う。 ここで、動詞「ある」の語形は、先行する核述語の活用情報を担うための「ダミー」として出現している。 この動詞は実際には連用形(テ/タに接続する活用形)であらわれている:

(17)
(VB2 あっ)

AXD は、過去テンスを表す助動詞に与えられるカテゴリーである:

(18)
(AXD た)

それぞれの単語に品詞が与えられると、単語が出現する直接の文脈を参照して、それらがどのような構造を構成するかを推論することが可能になる。 上記の文についてこのことを、単語ごとに、左から右へと行ってみよう。 構造を構築するための基本原理は、主要語(ヘッド)が句を投射し、句の下で他の構成素と結合する、ということである。 これにより、NPR は(名詞の下位カテゴリーとして)NP (名詞句)を投射する:

(19)
(NP (NPR 鈴木さん))

この NP の直後には所有を表す助詞 P-ROLE が続き、これが主要語として PP を投射する。 言い換えれば、NP は後続の P-ROLE を補部(complement)として修飾する:

(20)
(PP (NP (NPR 鈴木さん))
    (P-ROLE の))

名詞の直前にあらわれる所有を表す助詞は、通常その名詞の補部を表示する。 これにより、PP は、それに後接する N が投射する NP の内部に含まれる:

(21)
(NP (PP (NP (NPR 鈴木さん))
        (P-ROLE の))
    (N 言葉))

ここでもまた、後続の PNP を補部として取り、その NP を含む PP を投射する:

(22)
(PP (NP (PP (NP (NPR 鈴木さん))
            (P-ROLE の))
        (N 言葉))
    (P-OPTR は))

焦点を表す助詞が名詞に付加された場合、通常それは(何らかの文法役割によって)述語と関連づけられる。 「は」の直後に続く「すがすがしく」の語はイ形容詞(ADJI)の品詞に属する。 これは、動詞、形容詞、およびコピュラ表現という、述語の中核部分を構成する3種類の表現の1つである。 一般に、「述語」とは節(clause)を投射できる、活用を持つカテゴリーのことである。 日本語において述語は単一の語によって構成されることもあるが、様々なタイプの複数の単語の連鎖により形作られることも多い。 今のところは、「すがすがしく」はそれを先行するPP を含む節を投射していると考えておく。 節は IP(inflectional phrase)とラベル付けされる。

(23)
(IP (PP (NP (PP (NP (NPR 鈴木さん))
                (P-ROLE の))
            (N 言葉))
        (P-OPTR は))
    (ADJI すがすがしく))

残りの要素である「さえ」「あっ」「た」は、ADJI を中核とする述語の他の部分と見なすことができる。 とりわけ、ここでは過去テンスの形容詞述語「すがすがしかった」が分割され、中核部分が P-OPTR 「さえ」により焦点を当てられている。 述語を構成する残りの部分は、中核部分と同一のレベルにあらわれている。

(24)
(IP (PP (NP (PP (NP (NPR 鈴木さん))
                (P-ROLE の))
            (N 言葉))
        (P-OPTR は))
    (ADJI すがすがしく)
    (P-OPTR さえ)
    (VB2 あっ)
    (AXD た))

結果として得られるのは、文の基本的な統語解析木である。 しかし、必要に応じて、文法機能に関するより多くの情報をノード・ラベルの拡張の形で付け加えることができる。 例えば、PP 「鈴木さんの言葉は」は ADJI 「すがすがしく」の主語であるが、助詞「は」は主語の文法機能を表示するわけではない。 そのため、この情報を付け加えるために、主語の構成素を PP-SBJ とラベル付けする。 構成素が文法機能を果すのは他の要素と結合する時なので、機能の指定は構成素と構成素の結合が行われる句のレベルで行われる。 主語を表す構成素は述語が投射する句の下で述語と結合するので、主語の文法機能のラベル付けが行われるのは節 IP のすぐ下となる。 これに対して、NP 内部の助詞「の」は限定された数の解釈を伴う機能ーー所有者::被所有者(言葉の音節)、全体::部分(言葉の殆ど)、項::述語(言葉の解釈)、等ーーを伴うにすぎないので、この用法に関する限りは拡張は不要である。 最後に、IP はつねに拡張タグを必要とする。 上記の文は、述語で終わる単文の叙述文である。 このような文には IP-MAT(inflectional phrase-matrix)のラベルを与える。

(25)
(IP-MAT (PP-SBJ (NP (PP (NP (NPR 鈴木さん))
                        (P-ROLE の))
                    (N 言葉))
                (P-OPTR は))
        (ADJI すがすがしく)
        (P-OPTR さえ)
        (VB2 あっ)
        (AXD た))

以上では、比較的単純な文の構造の生成を例として述べた。 しかし、同じ修飾と項・述語関係の原理を再帰的に適用することにより、非常に複雑な構造を作り出すことができる。

3.2   根から葉へ

次に文についてトップ・ダウン的に、根(ルート)から始めて考えてみよう。 すべての文(および文の断片)はルート・ノードを持っており、それがさらにより小さなノード(通常は複雑な構成を持つ句)へと分割される。 文の断片(典型的には、述語を持たない省略された発話)は、FRAG とラベル付けされたルート・ノードを持つ。 これに対し、完全な文は、それが表す発話のタイプに応じてラベル付けされる。 疑問文は CP-QUE と、感嘆文は CP-EXL と、また疑問意外の終助詞や外置された補足表現を伴う文は CP-FINAL とラベル付けされる。 これらの各ノードは典型的には、IP-SUB ノードに加えて、後に続く要素 (終助詞や補足表現)を持っている。 残りのルート・ノードは発話のタイプを表示する付加的要素を伴わないもので、これには叙述文(IP-MAT)と命令文(IP-IMP)がある。

    完全な文は、すべて何らかのタイプの IP 節を主文として含んでいるが、その中にさらなる節が埋め込まれることがある。 従属節は IP-ADV-SCON のラベルを持っている。 これらの節は通常、述部を修飾して様態または条件を規定する。 並列節のうちで、最後尾の節以外は IP-ADV-CONJ のラベルを持っている。 名詞句の構成要素のうち、名詞を直接修飾する節は IP-REL または IP-EMB とラベル付けされる。 いくつかの例外を除いて、IP ノードは何らかの種類の述語を主要部(head)として直接含んでいる。 述語とは、大雑把に定義すると、主語について何事かを述べる、活用を持つ表現のことである。 もっとも多い述語のタイプは、動詞(VB とラベル付けされる)のものである。 IP の直接下に(すなわち、「直接支配されて」)述語の中核部分の品詞(例えば、VB)を表すノードがあらわれ、さらにその品詞ラベルのすぐ下に単語そのもの(テクストの一部をなす文字列)があらわれることが多い。 単語は終端ノードとなる。 また、IP の主要部となりうる述語中核部分になることができるのは、 ADJI(イ-形容詞)、 ADJN(ナ-形容詞)、および [NP-PRD + AX](名詞述語にコピュラが後続したもの)である。

    IP の下でその構成要素として出現することのできる句のタイプは一定のものに限られる。 言うまでもなく、上で述べたように、IP-ADVIP の下に再帰的にあらわれることができる。 他の主要な句のタイプとしては、 NP(裸の名詞句)、 PP(助詞句)、 ADVP(副詞句)、 INTJP(間投詞句)、 FRAG(断片)、 PU(句読点)がある。 PU を除けば、これらの句のどれも、主要部に加えて他の句を含む複雑な句となることがある。

    カッコを用いて与えられた構造を表す場合、「ノード A はノード B を直接含んでいる」や「ノード B はノード A に直接含まれている」のように述べてもよいし、また同じ関係を「ノード A はノード B を直接支配している」とか「ノード B はノード A に直接支配されている」のように述べてもよい。 木においては、そのような関係は、ルート・ノードに近く、より高い位置にあるノード A からより低い位置にありルート・ノードに遠いノード B へと枝を描くことで示される。 木は結合された構造である。 すなわち、木の中のすべての要素は、他のすべての要素と枝によって結合されている。 枝は2つの異なる関係を表示する。 すなわち、先行関係と直接支配関係である。 これらの2つの関係を組み合わせることで、木における他のより一般的な関係を定義することができる(例えば、間接的支配関係、直接後続する姉妹関係、ルートによる支配関係、等)。 ノード間の関係を規定するによって、検索表現を作ることができるわけである。 例えば、「食べ」という活用形の動詞を主要部とする疑問文を探したい場合は、「食べ」のノードを直接支配する VB を直接支配する IP-SUB を直接支配する CP-QUE を検索すればよい。

検索パターンの例

1   受動文

1.1   直接受動文

〇パターン (1) により、コーパス中の直接受動文をすべて検索することができる。受動の助動詞およびそれに先行する姉妹として論理主語のタグがあらわれる文を検索する (PASS* を直接支配する「てある」構文を排除)。

(1)
/LGS/ < __ $.. (/PASS\b/ !< /^\*/)

〇パターン (2) により、論理的主語が明示されない直接受動文をコーパス中から検索することができる。

(2)
/LGS/ < /^\*/ $.. (/PASS\b/ !< /^\*/)

〇パターン (3) により、論理的主語が明示された直接受動文をコーパス中から得ることができる。

(3)
/LGS/ !< /^\*/ $.. (/PASS\b/ !< /^\*/)

〇パターン (4) により、論理的主語が格助詞「によって」により明示された直接受動文をコーパス中から得ることができる。

(4)
/PP-LGS/ < (/P-ROLE/ < /によって/) $.. (/PASS\b/ !< /^\*/)

1.2   間接受動文

〇パターン (5) により、コーパス中の間接受動文をすべて検索することができる。

(5)
/LGS/ < __ $.. /PASS2\b/

〇パターン (6) により、論理的主語が明示されない間接受動文を検索することができる。

(6)
/LGS/ < /^\*/ $.. /PASS2\b/

2   使役文

〇パターン (7) により、コーパス中の使役文を検索できる。

(7)
/CZZ/ < __ $.. (/VB2/ < /^させ|^せ/)

〇パターン (8) により、他動詞から作られた使役文を検索することができる。

(8)
/OB1/ $.. (/VB2/ < /^させ|^せ/)

〇パターン (9) により、自動詞から作られた使役文を検索することができる。

(9)
/VB2/ < /^させ|^せ/ !$,, /OB1/

〇パターン (10) により、被使役者を「を」で表示する使役文を検索することができる。

(10)
/P-CZZ/ < (/P-ROLE/ < /を/) $.. (/VB2/ < /^させ|^せ/)

〇パターン (11) により、使役受動文を検索できる。

(11)
/VB2/ < /^させ|^せ/ $. /PASS/

3   補助動詞あげる/くれる/もらう

〇パターン (12) によって、受益者が「に」で表示される、補助動詞「くれる」を伴う文を検索できる。

(12)
/VB2/ < /^くれ/ $,, (/PP-OB2/ < (/P-ROLE/  < に))

〇パターン (13) によって、使役文に補助動詞「もらう」が後続する文が検索できる。

(13)
/IP-SMC-OB1/ < (/VB2/ < /^させ|^せ/) $.. (/^VB\b/ < /^もら/)

4   テンス

〇パターン (14) によって、主節・従属節ともに「た」によってテンス表示されている文が検索できる。

(14)
/SCON|CND/ < (/IP-ADV/ < /AXD/) $.. /AXD/

5   疑問文

〇パターン (15) によって、疑問詞をともなう疑問文が検索できる (埋め込まれた疑問節を排除)。

(15)
/CP-QUE/ << /^W/ !> /^CP|^IP/

*以下のようにすると、どのようなファイルについても、埋め込まれた疑問節を排除して疑問文を検索できる。

(16)
/^CP-QUE/ [ > TOP | $ ID ]

〇パターン (17) によって、「の/ん」を伴う疑問文が検索できる。

(17)
/CP-QUE/ < (/IP-SUB/ < (/^FN/ < /の|ん/)) !> /^CP|^IP/

〇パターン (18) によって、否定疑問文が検索できる。

(18)
/CP-QUE/ < (/IP-SUB/ < /^NEG\b/) !> /^CP|^IP/

〇パターン (19) によって、「か」以外の終助詞をともなう疑問文が検索できる。

(19)
/CP-QUE/ < (/P-FINAL/ !< か) !> /^CP|^IP/

〇パターン (20) によって、終助詞「か」をともなわない疑問文が検索できる。

(20)
/CP-QUE/ !< (/P-FINAL/ < か) !> /^CP|^IP/

6   二重主語構文

〇パターン (21) によって、大主語が「は」で、小主語が「が」で表示された二重主語構文を検索できる。

(21)
/PP-SBJ\b/ < (/P-OPTR/ < は) $ (/PP-SBJ2/ < (/P-ROLE/ < が))

7   並列構文

〇パターン (22) によって、接続詞「て」を伴う並列副詞節を持つ文を検索することができる。

(22)
/IP-ADV-CONJ/ <- (/P-CONN/ < /^て|で$/)

〇パターン (23) によって、接続詞「て」を伴う並列副詞節が2つ連続する文を検索することができる。

(23)
/IP-ADV-CONJ/ <- (/P-CONN/ < /^て|で$/) < (/IP-ADV-CONJ/ <- (/P-CONN/ < /^て|で$/))

〇パターン (24) によって、接続助詞「や」を伴う並列句が他に3つ以上の並列する姉妹を持つ例を検索できる (ここで言う「姉妹」には句読点も含まれることに注意)。

(24)
P-CONN < や > (CONJP > (__ <4 __))

8   語順変換

〇パターン (25) により、主語、第1目的語ともに省略されておらず、第1目的語が主語よりも先にあらわれる文を検索することができる。

(25)
/OB1/ !< /^\*/ $.. (/SBJ/ !< /^\*/)

〇パターン (26) により、省略されておらず、取り立て助詞「は」を付加された第1目的語が省略されていない主語よりも先にあらわれる文を検索することができる。

(26)
/PP-OB1/ < (/P-OPTR/ < /は/) $.. (/SBJ/ !< /^\*/)

9   省略

〇パターン (27) により、第1目的語が省略されている (ゼロ代名詞となっている) 文を検索することができる。

(27)
/\*/ > (/^NP-OB1/ !< /\*T\*/)

〇パターン (28) により、主語が省略されている 命令文を検索することができる。

(28)
/\*hearer\*/ > (/NP-SBJ/ > (/IP-SUB/ > /CP-IMP/))

〇パターン (29) により、助詞 (「は」「が」等) が省略された明示的な主語を持つ文を検索することができる。

(29)
/^NP-SBJ/ !< /\*/ !$. /^P\b/

〇パターン (30) により、述語が省略された文を検索することができる。

(30)
/^IP/ !< /VB|ADJ|NP-PRD/ !< (/^AX\b/ < /^だ|^で/)

10   名詞節

〇パターン (31) により、名詞「こと」が導く名詞節 (「~ということ」を除く) を検索することが出来る。

(31)
こと > (/^N\b/ $, /^IP-EMB\b/)

*少数だが FN とされている「こと」があり、検討が必要。

〇パターン (32) により、「~ということ」により導かれる名詞節を検索することができる。

(32)
こと > (/^N\b/ $, (/^CP-THT\b/ < (/^P-COMP\b/ < という)))

〇パターン (33) により、名詞「の」が導く主語名詞節を検索することができる。

(33)
の > (/^N\b/ $, /^IP-EMB\b/ > (/NP/ > /PP-SBJ/))

*修飾先の名詞や名詞化接辞がないのにもかかわらず名詞節が構成される場合の扱いについては、マニュアル「10.2 名詞化節」の IP-NMZ および主名詞を持たない関係節 (IP-REL) を参照のこと。

〇パターン (34) により、擬似分裂構文「~のは (が)~だ」を検索することができる。

(34)
/PP-SBJ/ < (/^NP/ < (/^N/ < の)) $.. /^NP-PRD/

〇パターン (35) によって、終助詞「か」が導く疑問節が第1目的語となっている例を検索することができる。

(35)
/CP-QUE-OB1/ < (/P-FINAL/ < か)

〇パターン (36) によって、疑問詞を含む疑問節が主語となっている例を検索することができる。

(36)
/CP-QUE-SBJ/ << /^W/

〇パターン (37) によって、補文助詞「と」が導く補部節が伝達動詞や認識動詞等の第1目的語となっている文を検索することができる。

(37)
/CP-THT-OB1/ < (/^P-COMP/ < と)

11   副詞節

〇パターン (38) によって、接続助詞「ば」が導く条件節を検索することができる。

(38)
/IP-ADV-SCON-CND/ < (/P-CONN/ < ば)

〇パターン (39) によって、接続助詞「から」が導く従属節を伴う文を検索することができる。

(39)
/PP-SCON/ < (/P-CONN/ < から)

12   関係節

〇パターン (40) によって、第1目的語が関係節化されている例 (主名詞が関係節の中で第1目的語の文法役割を果たしているもの) を検索することができる。

(40)
/^N\b/ $,, (/IP-REL/ < (/NP-OB1/ < /\*T\*/))

〇パターン (41) によって、関係節の後に主名詞が直接後続するのでなく、両者の間に1つ以上の単語が介在する例を検索することができる。

(41)
/^N\b/ $,, (__ $, /IP-REL/)

〇パターン (42) によって、主名詞が関係節の中で必須文法役割 (主語、第1目的語、および第2目的語) 以外の文法役割を果たしている例を検索することができる。

(42)
/^IP-REL/ !< (/NP-(SBJ|SBJ2|LGS|DSBJ|OB1|DOB1|OB2|CZZ)\b/ < /\*T\*/)

〇パターン (43) によって、長距離依存となっている関係節化、すなわち関係節内部に埋め込まれた節の中にトレースが存在する例を検索することができる。埋め込まれるのが形容詞節である場合を除外する。

(43)
/^IP-REL\b/ << (/^IP/ < (/^NP/ < /\*T\*/) !< /ADJ/)

*当該の IP-REL とペアをなす主名詞とこのトレースとが同一指示であるという保証は無い。すなわち、埋め込まれるのが関係節で、それが修飾する主名詞と同一指示である可能性がある。

〇パターン (44) によって、外の関係の関係節を伴い、形式名詞でなく名詞として使用されている「わけ」の例を検索することができる。

(44)
わけ > (/^N\b/ $,, /^IP-EMB\b/)