Tokenization and Word Segmentation
UDのタグ付けは統語論における語彙主義 (lexicalist) の観点に基づいており,依存関係 (dependency relations) が words 間で保持されている.よって,形態論的な素性 (morphological features) は語の属性として符号化されており,語を形態素 (morpheme) に分割することはしない. ただし,タグ付けの基本単位 (basic unit) は, syntactic な語 (音韻,書記ではなく) であることに注意されたい.これは, スペイン語を dámelo = da me lo のように接語 (clitics) を分割し,さらに,フランス語 au = à le のように縮約 (contraction) を元に戻したい,といった理由に基づく.このような事例は_multiword tokens_ と呼ばれるが,それは,単一の書記 token が複数の (統語的) words に対応するからである.例外として,他の方法を採り,複数の書記トークン (orthographic tokens) を単一の統語的な語へ統合する必要があるかもしれない.UDのガイドラインのv2以降では,20 000 などの数的表現や e. g. などの略語といった,特定の現象クラスに_multitoken words_ が適用されるが,これは,当該の現象が広く認められ,かつ言語固有のドキュメンテーションで特定された場合に限られる.
しかし,この手法は in spite of や by and large といった複合表現には一般化すべきでないことを注意されたい (複合語 (compounds) や 群動詞 (particle verbs) といった,より柔軟な複合表現はなおのこと). このような表現のタグ付けには特別な依存関係を用いることが望ましい.
多くの言語において,語の分割 (word segmentation) は概して容易な作業ではなく,究極的には,新規のデータに対して語の分割をどれだけ再現できるかがツリーバンクの道具立ての有用性を決定づけるため,語の分割に関する原則を各言語についてドキュメントしておくことが重要である. 当該言語の特徴と筆記体系によって,ドキュメンテーションのあり方は言語によって変わる.語の分割が単に空白や句読点で済ませられる言語は,語のみをツリーバンクに表示すればよい.空白を入れない中国語や日本語といった言語では,分割に関する複雑なアルゴリズムを援用しなければならないが,語を表示したものから復元が完全に可能であるため,基本的な語の並びを改めて表示する必要はない.その一方で,空白によって特定できる tokens と,統語的な words が多分に曖昧であるようなアラビア語やヘブライ語といった言語では,ツリーバンク内のトークンと語の両方を包括するような措置が取られ,これには, CoNLL-U format のセクションに示される,2段階のインデックス・スキーマ (indexing scheme) が用いられる. 形態論・統語論のタグ付けの定義は語レベルでのみ行われるが,利便性のため,トークンレベルでも行うことが慣例である.
このドキュメンテーションを言語固有のものに拡張する場合,トークン化 (tokenization) と語の分割がどのように各言語で行われたかを記載する必要がある (トークン化の標準的なスキーマがあれば,それを参照).さらには,以下の疑問にも答えるべきである.
- 語の内部に空白が規則的に発生するだろうか? (これは,ベトナム語といった,空白が語の境界ではなく音節 (syllable) の境界を示すのに用いられる言語に限られる.)
- 空白が例外的に (複数トークンの) 語に発生するだろうか? そうであれば,どの場合に起こるかを特定しよう (例えば,数や略語など).
- ツリーバンクには語と同様,(複数語から成る) トークンを含めるだろうか? そうであれば,どの場合に含むのかを特定しよう (例えば,接語や縮約など).