home edit page issue tracker

This page pertains to UD version 2.

PUNCT: punctuation

Definition

句読点 (punctuations) はアルファベットでない文字で,印刷物にある言語ユニットを限定するのに用いられる文字のグループを指す.

句読点は_$%§_といった記号を含めず,これらは代わりに SYM としてタグ付けされる.(ヒント: _dollar_や_percent_のように,発音したものに相当する語である場合,PUNCTではなくSYMとしてタグ付けされる.)

話し言葉コーパスにはポーズを表す記号があり,笑い声や他の音が含まれる; これらは同様に句読点として扱われるが,トークンの文字が全てアルファベット以外である必要は必ずしもない.

Examples

References


PUNCT in other languages: [u]