home issue tracker

This page pertains to UD version 2.

Universal features

For core part-of-speech categories, see the universal POS tags. The features listed here distinguish additional lexical and grammatical properties of words, not covered by the POS tags.

Lexical features Inflectional features
Nominal* Verbal*
PronType Gender VerbForm
NumType Animacy Mood
Poss NounClass Tense
Reflex Number Aspect
Foreign Case Voice
Abbr Definite Evident
Typo Degree Polarity
Person
Polite
Clusivity
  Index: A abbreviation, abessive, ablative, absolute superlative, absolutive, accusative, active, actor-focus voice, additive, adessive, admirative, adverbial participle, affirmative, allative, animate, antipassive, aorist, article, aspect, associative, B bantu noun class, benefactive, beneficiary-focus voice, C cardinal, case, causative case, causative voice, clusivity, collective noun, collective numeral, collective pronominal, comitative, common gender, comparative case, comparative degree, complex definiteness, conditional, conjunctive, considerative, construct state, converb, count plural, counting form, D dative, definite, definiteness, degree of comparison, delative, demonstrative, desiderative, destinative, direct case, direct voice, directional allative, distributive case, distributive numeral, dual, E elative, elevated referent, emphatic, equative case, equative degree, ergative, essive, evidentiality, exclamative, exclusive, F factive, feminine, finite verb, first person, firsthand, foreign word, formal, fourth person, fraction, frequentative, future, G gender, genitive, gerund, gerundive, greater paucal, greater plural, H habitual, human, humbled speaker, I illative, imperative, imperfect tense, imperfective aspect, inanimate, inclusive, indefinite, indefinite pronominal, indicative, inessive, infinitive, informal, injunctive, instructive, instrumental, interrogative, inverse number, inverse voice, iterative, J jussive, L lative, location-focus voice, locative, M masculine, masdar, mass noun, middle voice, modality, mood, motivative, multiplicative numeral, N narrative, necessitative, negative polarity, negative pronominal, neuter, nominative, non-finite verb, non-firsthand, non-human, non-past, non-specific indefinite, noun class, number, numeral type, O oblique case, optative, ordinal, P participle, partitive, passive, past, past perfect, patient-focus voice, paucal, perfective aspect, perlative, person, personal, pluperfect, plural, plurale tantum, polarity, politeness, positive degree, positive polarity, possessive, potential, present, preterite, progressive, prolative, pronominal type, prospective, purposive case, purposive mood, Q quantifier, quantitative plural, quotative, R range numeral, reciprocal pronominal, reciprocal voice, reduced definiteness, reflexive, register, relative, S second person, set numeral, singular, singulare tantum, specific indefinite, subjunctive, sublative, superessive, superlative, supine, T temporal, tense, terminal allative, terminative, third person, total, transgressive, translative, trial, typo, U uter, V verb form, verbal adjective, verbal adverb, verbal noun, vocative, voice, Z zero person
* The labels Nominal and Verbal are used as approximate categories only. There is no universal rule that a particular feature can only occur with verbs or nominals (although language-specific rules may define such constraints). Even the boundary between lexical and inflectional features is sometimes blurred: for example, gender is a lexical feature of nouns but an inflectional feature of adjectives or verbs.

Abbr: abbreviation

Values: Yes

これはブール素性 (Boolean feature) であり,省略語 (abbreviation) か否かを判別する.省略を受けた語の品詞は,基本的に u-pos/X から定義される品詞以外に属する.

注意: この素性はUDv2が初出である.UDv1のツリーバンクで言語特有のものとして追加された.

Yes: it is abbreviation

例: [en] etc., J., UK

edit Abbr

AbsErgDatNumber: number agreement with absolutive/ergative/dative argument

Number[abs], Number[erg], Number[dat]

印欧諸語の多くで,定動詞 (finite verbs) は人称 (person) と数 (number) に関して主語と一致 (agree) する.バスク語 (複数人称言語 (polypersonal language)) では,特定の動詞が最大3つまでの項 (arguments) との一致を標示する: 絶対格 (case),能格 (ergative),与格 (dative).

よって,dakarkiogu “we bring it to him/her” _の_akar_は語幹 (stem; _ekarri = “bring”) を表し,_d_は“it”を表す (絶対格項は他動詞の直接目的語). そして,_ki_は与格,_o_は“he”,_gu_は“we”を表す (能格項は他動詞主語).

Number[abs]ではなく,単にNumberを用いたくなるかもしれないが,それには問題が2点存在する (少なくともバスク語において). まず,絶対格項は常に主語となるわけではない.他動詞では絶対格項が目的語となるため,主格-対格言語 (nominative-accusative languages) との並行性を見出す根拠は薄い. 次に,これがより重要であるのだが,バスク語のいつくかの定動詞では名詞の屈折 (inflection) に対応する形態素を備えている.よって,それらの形式は絶対格項について人称-数の一致を示すと同時に,名詞の屈折 (格,数など)も反映している. 例: dena (Number=Sing|Number[abs]=Sing), dituena (Number=Sing|Number[abs]=Plur|Number[erg]=Sing), dugunak (Number=Plur|Number[abs]=Sing|Number[erg]=Plur), direnak (Number=Plur|Number[abs]=Plur). よって,素性Numberに対しては名詞の屈折素性,Number[abs]に関しては一致素性という区分を保持しておく. また,素性間の衝突がないとはいえ,Person[abs]およびPolite[abs]についても定義しておく.ただし,これらの素性はPerson[erg], Polite[erg], Person[dat]およびPolite[dat]と同じような位置付けだと考えた方がいい.

Sing: 単数

例: [eu] dakarkiogu Number[abs]=Sing|Number[dat]=Sing

Plur: 複数

例: [eu] dakarkiogu Number[erg]=Plur

edit AbsErgDatNumber

AbsErgDatPerson: person agreement with absolutive/ergative/dative argument

Person[abs], Person[erg], Person[dat]

多くの印欧諸語において,定動詞は人称 (person),数 (number) に関して主語と一致 (agree) する.バスク語 (複数人称言語 (polypersonal language)) では,特定の動詞が3つまでの項 (arguments) との一致を標示する: 絶対,能格 (ergative),与格 (dative). よって,dakarkiogu “we bring it to him/her” の_akar_は語幹 (stem; ekarri = “bring”) を表し,_d_は“it”を表す (絶対格項は他動詞の直接目的語). そして,_ki_は与格,_o_は“he”,_gu_は“we”を表す (能格項は他動詞主語).

Person[abs]ではなく,単にPersonを用いたくなるかもしれないが,それには問題が2点存在する (少なくともバスク語において).まず,絶対格項は常に主語となるわけではない.他動詞では絶対格項が目的語となるため,主格-対格言語 (nominative-accusative languages) との並行性を見出す根拠は薄い. また,Number[abs] (NumberNumber[abs]の両方が一つの語に生起可能) の使用が不可避であるため,両方の素性が同じ一致レイヤーに属することを示すためにもPerson[abs]を用い続ける.

1: 1人称

例: [eu] dakarkiogu Person[erg]=1

2: 2人称

例: [eu] dakarkiozu Person[erg]=2

3: 3人称

例: [eu] dakarkiogu Person[abs]=3|Person[dat]=3

edit AbsErgDatPerson

AbsErgDatPolite: politeness agreement with absolutive/ergative/dative argument

Polite[abs], Polite[erg], Polite[dat]

印欧諸語の多くで,定動詞 (finite verbs) は人称 (person) と数 (number) が主語と一致 (agree) する; 二人称主語は,レジスターの丁寧さ (politeness) にも影響を及ぼす. バスク語 (複数人称言語 (polypersonal language)) では,特定の動詞が最大3つの項 (arguments) との一致を標示する: 絶対,能格 (ergative),与格 (dative). よって,dakarkiogu “we bring it to him/her” の_akar_は語幹 (stem; ekarri = “bring”) を表し,_d_は“it”を表す (絶対格項は他動詞の直接目的語). そして,_ki_は与格,_o_は“he”,_gu_は“we”を表す (能格項は他動詞主語).

Polite[abs]の代わりに,単にPoliteを使いたくなるかもしれないが,これには問題が2つ存在する (少なくともバスク語で). まず,絶対格項は常に主語となるわけではない.他動詞では絶対格項が目的語となるため,主格-対格言語 (nominative-accusative languages) との並行性を見出す根拠は薄い.次に,Number[abs] (NumberNumber[abs]の両方が一つの語に生起可能) の使用が不可避であるため,両方の素性が同じ一致レイヤーに属すことを示すためにもPolite[abs]を用い続ける.

Inf: インフォーマル

例: [eu] ezan, ezak Polite[erg]=Inf

Pol: 丁寧,フォーマル

例: [eu] ezazu Polite[erg]=Pol (丁寧さに関して中立的な形式は_ezazue_)

edit AbsErgDatPolite

AdpType: adposition type

Prep: 前置詞

例: in, on, to, from

Post: 後置詞

例: ドイツ語 “der Strasse entlang” における “entlang” (along the street)

Circ: 両置詞

Examples: ドイツ語 “von … an” in “von dieser Stelle an” (from this place on)

Voc: 有声化する前置詞

スラブ諸語において,前置詞 (preposition) のいくつかは音節を形成 (non-syllabic) しない.発音を流暢にするため,前置詞の形式はコンテクストによって変わる.

チェコ語の例: ke, ku, se, ve, ze

(有声でないもの: k, k, s, v, z)

同様の現象はスロバキア語,ロシア語,おそらく他の言語にもみられる.

edit AdpType

AdvType: adverb type

副詞 (adverb) の意味的なサブクラスは,いくつかのタグセット (e.g. ブルガリア語,チェコ語,ヒンディー語,日本語) でタグ付けされる.それらのタグセットでカバーできるのであれば,他の多くの言語にも適用されるだろう.素性”pronrype”はいくつかの副詞にも適用されるが,それは”AdvType”とは独立している.

Man: 様態副詞 (“how”)

Loc: 場所副詞 (“where, where to, where from”)

Tim: 時間副詞 (“when, since when, till when”)

Deg: 量や程度の副詞 (“how much”)

程度の副詞と不定数量詞 (indefinite numerals) の境界は曖昧であることに注意されたい.これはIntersetにおいて未解決の問題である.

Cau: 原因の副詞 (“why”)

Mod: 法 (modal) の副詞

以下にあるチェコ語の例は法助動詞 (modal verbs) と類似している: 動詞不定形を項にとり,可能性,必然性,もしくは推奨性の意味を加える.ブルガリアの例 (フランス語の”à propos”の音訳) では使用の仕方が異なっているが,タグセット上では”modal”と読んでいる.

Examples: [bg] апропо, [cs] možno, nutno, radno, třeba

Sta: 状態副詞

以下のチェコ語の英訳では,これらが形容詞であることを示唆する一方,形態論的・統語的にみて副詞である (名詞と判断がつきにくいものもある).

[cs] plno (full), zima (cold), chyba (wrong), škoda (pity), volno (available), nanic (no good)

そして,Intersetは”AdvType”に関して2つの値 (value) を設けており,それらは他のものと区別される.現時点では扱い方が分かっていないが,区別は設定されるのである.

Ex: 英語における存在のthere

普遍的な品詞セットからみて,このような”there”の品詞は何だろうか.

Adadj: フィンランド語の後置形容詞 (ad-adjective)

形容詞から派生し,他の形容詞を修飾するためだけに用いられる (http://archives.conlang.info/pei/juenchen/phaelbhaduen.html).

edit AdvType

Animacy: animacy

Values: Anim Hum Inan Nhum

性 (Gender) (アフリカ諸語の名詞クラス) と同じく,有生性 (animacy) は 名詞 (nouns) についての特徴である.また,有生性は名詞との一致 (agreement) を標示する他の品詞 (代名詞 (pronouns), 形容詞 (adjectives), 限定詞 (determiners), 数詞 (numerals), 動詞 (verbs))における屈折素性 (inflectional feature) でもある. 言語によっては,性についてのみ区別するもの,有生性についてのみ区別するものもある.また,性と有生性の両方が文法に何らかの役割を果たす言語もある. (UD以外のタグセットでは2つの素性を性についての拡張システム (extended system) に包括する場合がある; ただし,UDでは別々のタグ付けを行う)

性と同じように有生性の値 (value) は名詞の意味特徴を表すが,あくまでも近似に過ぎない.これは当該カテゴリの典型的な成員を表すだけである.文法的には有生と扱われるが,意味的には無生物 (inanimate) である名詞も存在する.

以下の表は,ポーランド語の男性 (masculines) 決定詞_który_ “which” の曲用 (declension) について,有生性から3通りの区別 (人間-人間以外の生物-無生物) を与えるものである (上部と下部の行にある太字部分は,中間部の行とは区別される):

gender sg-nom sg-gen sg-dat sg-acc sg-ins sg-loc pl-nom pl-gen pl-dat pl-acc pl-ins pl-loc
animate human który którego któremu którego którym którym którzy których którym których którymi których
animate non-human który którego któremu którego którym którym które których którym które którymi których
inanimate który którego któremu który którym którym które których którym które którymi których

チェコ語の対応するパラダイムでは,2つの値についてのみ区別される: 男性・有生と男性・無生物

gender sg-nom sg-gen sg-dat sg-acc sg-ins sg-loc pl-nom pl-gen pl-dat pl-acc pl-ins pl-loc
animate který kterého kterému kterého kterým kterém kteří kterých kterým které kterými kterých
inanimate který kterého kterému který kterým kterém které kterých kterým které kterými kterých

より一般的に言えば,言語には有生と無生物 (e.g. チェコ語の男性) を区別するもの,人間と人間以外 (e.g. RyukyuanのYuwan語) を区別するもの,そして人間と人間以外,有生と無生物の3通りの区別を行うもの (e.g. ポーランド語の男性) がある.

Anim: 有生物

人間,動物,架空の人物,職名などは,通常は有生物 (animate) である.擬人化された (personified) 場合,ふつう非生物を表す名詞であっても有生の屈折を受ける.また,特定の言語における特定の語は意味的な理由がなくとも,文法上有生物としてふるまうものがある.

Inan: 無生物

有生物でない名詞は無生物 (inanimate) である

Hum: 人間

有生物のサブセットには,典型的な成員が人間 (human) であり,動物 (animal) でないようなものがある.ここでも例外として,意味的には整合しないが文法上人間のクラスに属するような名詞が存在する.

Nhum: 非人間

人間と非人間 (non-human) についてのみ区別する言語において,この値 (non-human) には無生物 (inanimate) も含まれている.人間・生物,非人間・生物.非人間・無生物の3通りを区別する言語では,この値 (non-human) は非人間・生物を表す場合にのみ用いられる.そして,Inanが無生物に対して用いられる.

edit Animacy

Aspect: aspect

Values: Hab Imp Iter Perf Prog Prosp

典型的に,アスペクト (aspect) は 動詞 (verbs) についての特性である.動名詞 (gerund) や分詞 (participle) といった境界的な語をどのように分類するかによって,他の品詞 (名詞 (nouns), 形容詞 (adjectives), 副詞 (adverbs)) であってもアスペクトを担うことがある.

アスペクトは行為における時間軸上の幅を指定するものであり,当該行為が完了した (completed) かどうかなどを決定する. 時制 (tenses) について,実際には時制とアスペクトの組み合わせであるような言語 (e.g. 英語) もあれば,完全に独立はしていないものの,アスペクトと時制が分離しているような言語 (e.g. チェコ語) もある.

チェコ語や他のスラブ諸語において,アスペクトは語彙の特性である.不完了体 (imperfective) と完了体 (perfective) から成る動詞のペアが存在し,2つは形態論からみて関連はするものの,違いの規則性を見出すことが難しい.よって,動詞の2つの体は別個の見出し語 (lemma) として扱われる.

UDはボトムアップ的に記述を進めるため,現行の基準ではコーパスから確認された数点の値 (value) のみをカバーしている.他のアスペクトに関する膨大なリストについては,Wikipedia (http://en.wikipedia.org/wiki/Grammatical_aspect) を参照されたい.

Imp: 不完了体

当該行為が一定の時間幅をとった/とる/とるだろう という情報を示し,その行為がいつ完了した/完了するだろうか という情報は表さない.

Perf: 完了体

当該行為が完了している/ 完了するだろう という情報を示す.時間軸上の一点 (完了時点) を強調するので,このアスペクトは現在時制と相性が悪い.例えば,チェコ語では完了体動詞の現在形を形態的にはつくれるが,実際は未来の意味を表す.

Prosp: 前望アスペクト (prospective aspect)

一般的に,前望アスペクト (prospective aspect) は相対的な未来として記述可能である: 当該行為が,特定の時点に続いて起きる/起きた/起きるだろうと期待される; 特定の時点 (参照点) は過去,現在もしくは未来のいずれかである. 英語の文,When I got home yesterday, John called and said he would arrive soon_において,最後尾の節 _(he would arrive soon) は前望アスペクトを表す. とはいえ,英語は前望アスペクト専用の接辞を持たないので,これを標示するラベルは英語には不要である.他の言語では必要となる; バスク語の接尾辞_-ko_が例である.

前望アスペクトを標示する値は,UDv1においてはProだったが,UDv2においてはProspへと名称が変更されている.

Prog: 進行アスペクト (progressive aspect)

英語の進行時制 (I am eating, I have been doing …) は進行アスペクトを持つ.進行時制は分析的に構成される (助動詞+現在分詞) が,_-ing_分詞は進行の意味との結びつきが強いため,これはProgとして標示する方が適しているように思われる (過去分詞 (past participle) との区別が必要であるため,”時制”と”アスペクト”の素性両方を用いる).

英語以外の言語において,進行の意味が主動詞に付加する拘束形態素によって表される場合があり,このことはProgの正当性を支持する.例に挙げるのは,進行を表す2つの異なった形態素_-yor_と_-mekte_を有するトルコ語である.

Hab: 習慣アスペクト (habitual aspect)

英語の単純現在時制は,このアスペクトを持つ.

Iter: 反復アスペクト (iterative / frequentative aspect)

反復アスペクトは繰り返される行為を示し,ハンガリー語などで観察される. チェコ語にも反復アスペクトと呼ばれるものがあるが,どちらかといえば習慣の意味に近い. それらは不完了体動詞のみから形成され,通常は独立したアスペクトとして分類されることがない; 単にAspect=Impとして標示される.

注意点: この値はUDv2が初出である.ただし,UDv1ではこれに類似したものがハンガリー語に対して使用されていて,それを_frequentative_ (Freq) と呼称していた.

edit Aspect

Case: case

Values: Core: Abs Acc Erg Nom
Non-core: Abe Ben Cau Cmp Cns Com Dat Dis Equ Gen Ins Par Tem Tra Voc
Local: Abl Add Ade All Del Ela Ess Ill Ine Lat Loc Per Sub Sup Ter

通常,Case名詞 (nouns)の屈折素性である.言語によっては,名詞との一致 (agree) を示す他の品詞 (代名詞 (pronouns) 形容詞 (adjectives), 限定詞 (determiners), 数量詞 (numerals), 動詞 (verbs)) にもCaseが用いられることがある.いくつかのタグセットでは,Caseの情報は側置詞 (adpositions) の結合価 (valency) にも記載される (項が特定の格をとるように側置詞が指定する). UDのツリーバンクで前置詞の結合価に格情報を記載することは余剰的である.同一の格の素性が名詞側にも記載されるためである.

特に自由語順言語において,格は文中における名詞句の役割を決定するのに役立つ.例えば,主格 (nominative) と対格 (accusative) は動詞の主語と目的語を区別する.一方,語順が固定している言語においては,これらの文法的機能は名詞句の文中における位置から区別される.

ここでは,形態統語論的なレベルから形態として現れる格 (拘束形態素) を扱うことにする.より高次なレベルでは格は_役割_という広い意味で解され,名詞に側置詞を加えることによって表現される.接辞によって格を表現する言語もあれば,側置詞によって表現する言語も存在する (依存関係のラベルについてはu-dep/caseを参照).

下記にある個々の格についての記述は,格の典型的な意味を示唆する.ただし,ここで言及した意味が実際には生起しない場合も多いことに注意されたい.動詞,側置詞や他の語の結合価は,結合価スロット (意味役割) を満たすのに必要となる名詞の文法的格を決定づける.この説明は前置詞の意味の説明法とほぼ同一である: 英語の_in_の中心義が時空間上の位置を指すことには多くの人が同意するだろうが,場所の意味が弱い例も存在する:In God we trust. Say it in English.

いわゆるパニーニモデル (Paninian model) に基づくヒンディー語のコーパスでは,vibhakti_という素性を用いる.これは,本ページにて記述した格素性と複数の後置詞を混合したものである._vibhakti_の値 (value) は言語依存のものである 例えば,ベンガル語の属格 (Gen) は接辞-ra_ (-র) を用いて標示する (i.e. vib=era). ヒンディー語では,接辞は名詞と分離され,それは個別の語として表記される – 後置詞 kā/kī/ke (का/की/के) 後置詞句が属格名詞句と解釈できるとしても,その名詞は属格とは扱われない.その代わり,後置詞は名詞に対して3のうち1つの格形式をとるように要求する: 斜格 (Acc)

Nom: 主格 (nominative) / 直接格 (direct)

名詞の語基 (stem) であり,これは引用形式 (見出し語) として用いられることが一般的である.多くの言語において,主格は節の主語として使われる語形を指す.格が2つ,すなわち”direct”と”oblique”しかない言語では,直接格はNomとして標示される.

Acc: 対格 (accusative) / 斜格 (oblique)

対格/斜格はおそらく形態格の中で2番目に広く使われる格である.多くの言語において,対格は動詞の直接目的語に用いられる語形を指す.”direct”と”oblique”の2つしか格を持たない言語では,斜格はAccと標示される.

Abs: 絶対格 (absolutive)

いくつかの言語 (e.g. バスク語) では主語と目的語の区別に関して主格-対格を用いない.その代わり,絶対格 (absolutive)-能格 (ergative) の対立によって区別される.

絶対格は自動詞の主語と他動詞の直接目的語を標示する.

Erg: 能格 (ergative)

いくつかの言語 (e.g. バスク語) では主語と目的語の区別に関して主格-対格を用いない. その代わり,絶対格 (absolutive)-能格 (ergative) の対立によって主語と目的語が区別される.

能格は他動詞の主語を標示する.

Dat: 与格 (dative)

多くの言語で,与格は動詞の間接目的語の語形として用いられる.

Gen: 属格 (genitive)

属格の典型的な意味とは,名詞句が何らかの意味で支配項 (governor) に帰属することである: 英語では前置詞_of_と訳されることが多い.また,英語は_‘s_を用いた”saxon genitive”を有する; ただし,その接辞はトークン化 (tokenization) の際名詞と分離するため,英語においては”saxon genitive”についての格素性を必要としない.

大きく重複するが,属格は所有性 (possessivity; Poss) と同一ではない. 所有性は語彙の特性であり (i.e. 見出し語および,そのパラダイム全体に適用される),属格は見出し語における語形のサブセットの特徴を指すに過ぎない.所有性の意味は明確に定義が与えられる一方で,属格は (他の格についても同様に) 所有とは無関係の概念を表す場もがある.例えば,[cs] bez prezidentovy dcery “without the president’s daughter” は前置詞 bez “without”,所有形容詞_prezidentovy_ “president’s”,および名詞_dcery_“daughter”を含んだ前置詞句である.所有形容詞は名詞_prezident_から派生したものであるが,それは名詞の形式を持つだけでなく,事実形容詞といえるのである (独立した見出し語とパラダイムを持つ).加えて,形容詞と名詞は属格形で示される (主格形は_prezidentova dcera_).この例において属格は所有の意味をもたない.前置詞の_bez_が属格の項を常に要求するため,属格が生起したのである.

バスク語において,Genは (場所の属格と異なって) 所有属格に用いられる: diktadorearen erregimena “dictator’s regime”; diktadore “dictator”.

Voc: 呼格 (vocative)

呼格とは,誰かを呼ぶときに使われる名詞の特殊な形式を指す.呼格は有生名詞 (animate nouns) に生起するのが大半である (有生性 (Animacy) の素性を参照) が,これは文法的な制約ではなく,無生物 (inanimate things) が呼格として用いられることもある.

Loc: 所格 (locative)

所格は,その名の通り時空間上の位置を表すことが多い.他の格と同様,場所以外の意味も存在し,それが生起するのは稀なことではない.所格の代わりとして,ウラル諸語は場所や方向を細かく区別するような格を備える.所格を持つ言語であっても,場所の役割は他の格によって表現されることもある (他の格が前置詞から要求される,といった理由で).

スラブ諸語において,所格は前置詞との組み合わせで唯一用いられる格である (ただし,この制約は所格を有する他の言語には該当しない).

Ins: 具格 (instrumental / instructive)

具格は,名詞が何かを行う道具として用いられることを示す ([cs] psát perem “to write using a pen” のように).他の意味も可能であり,例えばチェコ語の前置詞_s_ “with”は具格を要求し,それは他の言語では共格 (comitative) として表現されるような意味を含む.

チェコ語の具格は,受動構文における行為者-目的語に対しても用いられる (cf. 英語の前置詞_by_)

意味的に類似した格にはinstructiveと呼ばれるものがあり,フィンランド語で稀に用いられる (“with (the aid of)” を表現する).この格は不定詞に適用が可能であり,フィンランド語では名詞のようにふるまう.UDでは,具格とinstructiveに対して1つの包括的なラベルを割り当てている (具格はフィンランド語では定義されない).

Par: 分格 (partitive)

フィンランド語では,分格は不定の事物や終了していない行為を表す.

対格と分格の比較: ammuin karhun “I shot a bear.Acc” (and I know that it is dead); ammuin karhua “I shot at a bear.Par” (but I may have missed).

分格の代わりに対格を使うことで,未来時制を代替する: luen kirjan “I will read the book.Acc”; luen kirjaa “I am reading the book.Par”.

Dis: 分布格 (distributive)

分布格 (distributive case) は,何かが任意の時点において特定の集合の全成員に対して発生したことを伝達する.もしくは,頻度を表す場合もある.

Ess: 様格 (essive / prolative)

様格は一時的な状態を表し,英語の”as a &hellip”に相当する; 様格に類似したものとして,バスク語ではprolativeと呼ばれるものがある.これもEssとタグ付けされる.

Tra: 変格 (translative / factive)

変格は状態変化を表す (“it becomes X”, “it changes to X”).”in language X” を表す句にも用いられ,Szegedmツリーバンクではこの格がfactiveと呼ばれる.

Com: 共格 Ucomitative / associative)

共格 (もしくは,associativeとも呼ばれる) は英語の”together with &hellip”に対応する;

Abe: 欠格 (abessive)

接格は英語の前置詞_without_に相当する.

Ine: 内格 (inessive)

内格は何かの内部にある場所を表す.

Ill: 入格 (illative)

入格は何かへ入る方向を表す.

Ela: 出格 (elative)

出格は何かから出る方向を表す.

Add: 追加格 (additive)

追加格は,エストニア語学者によって認定されるが,伝統文法では認識されていない格である.追加格はMultext-East Estonian タグセットやEesti keele puudepankに存在する.入格の意味を持つので,文法によっては追加格は入格の別形態とみなされている.この格の形式は単数形しかなく,全ての名詞に生起するわけではない.

Ade: 接格 (adessive)

接格は位置を表す.方向に関して対応する格には向格 (どこかへ向かって) と奪格 (どこかから)がある.

フィンランド語やエストニア語において接格は表面の位置を表すが,ハンガリー語にはこの意味はない.

All: 向格 (allative)

向格は方向を表す (着点は接格).

Abl: 奪格 (ablative)

奪格の典型的意味: ある点からみた方向.

Sup: 上格 (superessive)

上格は主にハンガリー語で用いられ,頂点や表面上の位置を示す.

Sub: 着格 (sublative)

着格はフィノ-ウゴル諸語で用いられ,動作の着点を表す.元々は物理的な位置 (e.g. “to climb a tree”) を表していたが,その拡張として比喩的な用法 (e.g. “to university”) もある.

Del: 離格 (delative)

離格は主にハンガリー語で用いられ,何から動くことを表す (“moved off the table”のように). 他の意味も可能で,例えば”about something”などがある.

Lat: 方向格 (lative / directional allative)

方向格は どこかへ/どこかに/どこかの中へ/どこかの上に 向かう動作を示す.類似したものとして,バスク語ではdirectional allative (スペイン語: adlativo direccional) と呼ばれるものがある.しかし,方向格は典型的には向格,入格および着格を合わせたものと考えられる.その一方,バスク語では方向格は向格から派生したものであり,両者の存在は独立している.

Per: 通格 (perlative)

通格は何かに沿う動作を示し,ワルピリ語において用いられる (Andrews 2007, p.162). Unimorphでは英語の前置詞“along”を彼らが呼ぶところのprolative/translativeの関連から論じている; UDでは両者を別々のものとして定義する.

Tem: 時格 (temporal)

時格は時間を示すのに用いられる.

Ter: 到格 (terminative / terminal allative)

到格は時空間上の終点を表す.これに類似したものとして,バスク語にはterminal allativeと呼ばれるもの (スペイン語: adlativo terminal) がある.

Cau: 原因格 (causative / motivative / purposive)

この格を持つ名詞は何かの原因となる.ハンガリー語では貨幣に用いられる (“to buy something for the money”) ことが多いようで,他にも,目標 (goal) を意味することがある.

Ben: 受益者格 (benefactive / destinative)

受益者格は英語の前置詞_for_に相当する.

Cns: considerative

considerativeは交換 (exchange) によって与えられる物を示し,この格はワルピリ語で用いられる (Andrews 2007, p.164).

Cmp: 比較格 (comparative)

比較格は“than X”を意味する.これは比較基準を標示し,比較の程度 (Degree) とは異なる.後者は比較される物の性質を標示するものである.比較格はドラヴィダ語や北東コーカサス諸語において現れる.

Equ: 等格 (equative)

等格は “X-like”, “similar to X”, “same as X”を意味する.比較基準を標示し,これは比較される物の性質を標示する程度 (Degree) とは異なる.等格はトルコ語において現れる.

参考文献

edit Case

Clusivity: clusivity

Values: Ex In

包括性 (clusivity) とは,1人称複数代名詞 (pronouns) についての特性を指す.また,包括性は動詞 (verbs) の屈折にも反映される (e.g. Plains Cree (Wolvengrey 2011 p. 66))

In: 内包的 (inclusive)

聞き手を含む (i.e. we = I + you (+they)).

Ex: 排他的 (exclusive)

聞き手を排除する (i.e. we = I + they).

参考文献

edit Clusivity

ConjType: conjunction type

ここまで,接続詞について2つのタイプ,すなわち等位接続詞 (coordinating conjunctions) と従属接続詞 (subordinating conjunctions) をPOSタグから区別してきた.しかし,接続詞にはまだ説明していない他の (下位?) タイプが存在する.

Comp: 比較接続詞 (comparing conjunction)

例: [de] wie (as), als (than)

Oper: 数学の演算子 (mathematical operator)

数学の演算子は記号か語によって表現される.

例: [cs] krát (times), plus, minus

edit ConjType

Definite: definiteness or state

Values: Com Cons Def Ind Spec

定性 (definiteness) とは,典型的に名詞,形容詞および冠詞に関する特徴を指す.その値は,既知で具体的なものか,一般的か,未知のものかによって区別される.定性は,定/不定冠詞 (articles)もしくは,名詞 (nouns), 形容詞 (adjectives)で標示される. アラビア語において,定性は”state”とも呼ばれる.

Ind: 不定 (indefinite)

Specが区別される言語において,値Indは非特定的・不定として解釈される (i.e. “any (one) stick”).

Spec: 特定的な不定 (specific indefinite)

特定的な不定 (e.g. “a certain stick”) はラコタ語などに生起する.特定的な不定が用いられる言語において,値Indは非特定的な不定として解釈される (i.e. “any (one) stick”).

Def: 定 (definite)

Cons: 連語形 (construct state / reduced definiteness)

連語形 (construct state) はアラビア語で用いられる.2つの名詞が所有関係 (genitive relation) にあるとき,先頭の名詞 (“nomen regens”) は”縮約定性 (reduced definiteness)”を有し,後続の名詞は属格となり,それは定か不定のどちらかである.縮約形 (reduced form) は定の形態素 (冠詞) および不定の形態素 (nunation) を持たない.

UD v1において,この値はRedと呼ばれた.UD v2ではConsとリネームされた.

Com: 複雑な定性 (complex)

このタイプの定性はアラビア語における適正でない併合 (improper annexation)に用いられる.上記の所有構文 (genitive construction) は主に2つの名詞から構成される (first reduced, second genitive).これは,アラビア語において適正な併合 (proper annexation) もしくは iḍāfaと呼ばれる. 先頭要素が形容詞もしくは形容詞的に用いられた分詞であり,かつ2番目の要素が定名詞である場合,この構文は “適正でない併合 (improper annexation)” もしくは “false iḍāfa” と呼ばれる.その結果.この構文は複合形容詞 (compound adjective) となり,限定付加詞 (attributive adjunct) として用いられる.そして,この構文は定性に関して被修飾名詞と一致 (agree) しなければならない.また,先頭要素 (形容詞もしくは分詞) が定冠詞をとる場合では,これが定名詞と同じ形式であるように見えるため,派生元が異なることを示すためにも_複雑な_定性の値が付与される.詳細はHajič et al. p.3 についても参照されたい.

例:

edit Definite

Degree: degree of comparison

Values: Abs Cmp Equ Pos Sup

比較の程度 (degree of comparison) とは,典型的には形容詞 (adjectives)副詞 (adverbs) の屈折素性を指す.

Pos: positive, first degree

語基 (base) の形式をとり,何かの性質を述べるだけで他との比較を行わない.この程度 (degree) は伝統的には”positive”と呼ばれるものの,負の性質も比較することができる.

Equ: 等価 (equative)

ある事物の性質について,同じ性質をもつ他の事物と比較したとき,それが同一であるか類似している場合がある (“as X as”).これについて標示を受けるのは形容詞であり,比較基準となる名詞を標示する等格 (Case) とは区別されることに注意したい.

Cmp: 比較級 (comparative, second degree)

ある事物の性質について,同じ性質をもつ他の事物と比較される.

Sup: 最上級 (superlative, third degree)

ある事物の性質について,それが属する集合における他の全ての成員と比較される.

Abs: 絶対最上級 (absolute superlative)

いくつかの言語では,事物の特定の性質が強すぎるが故に,他の事物がそれを超えないことを形態的に表すことができる.その性質は他の事物と比較ができない.

edit Degree

Echo: is this an echo word or a reduplicative?

この素性はブール型であり,重複語 (reduplicative word) もしくはエコー (echo word) かどうかを判別する.これらの語はヒンディー語およびインドの他言語に存在する.Hyderabad Dependency Treebankでは固有の品詞タグとしてRDPとECHを備える.しかし,その語がRDPかECH (エコーする語と同一の語) であるかどうかとは独立してPOSタグを付与できるので,UDではこれらを別個の品詞としては扱わない.そして,おそらくこの素性と”hyphは”compound”と呼ぶようなものへ統合されるだろう.

Rdp: 重複 (reduplicative)

重複語は先行する語のコピーである.ヒンディー語では,重複によって分配 (“one rupee each”),分離 (“sit separately”),多様さ,もしくは単に強調の意味を加えることがある.

例: [hi] “कभी - कभी” = “kabhī - kabhī” = “sometimes”, “कभी” = “kabhī” = “sometimes”; “एक एक” = “eka eka” = “one each”, “एक” = “eka” = “one”

Ech: エコー (echo)

エコーは先行する語の韻を踏むが,その語とは同一の形式をとらず,エコー自体は意味を成さない.ヒンディー語では,エコーは先行語の意味を一般化し,”or something”, “etc.” といった意味としても用いられる.

例: [hi] “चाय वाय” = “čāya vāya” = “tea or something” (as in “Have some tea or something.”)

さらなる詳細については Rupert Snell and Simon Weightman: Teach Yourself Hindi, Section 16.4 and 16.5, pages 210 – 211. を参照されたい.

edit Echo

ErgDatGender: gender agreement with ergative/dative argument

Gender[erg], Gender[dat]

多くの印欧語では,定動詞 (finite verb) は人称 (person) と数 (number) に関して主語と一致 (agree) する.バスク語 (a polypersonal language) では,特定の動詞が最大3つの項との一致を明示的に表す: 絶対 (absolute case),能格 (ergative case),与格 (dative). よって,dakarkiogu “we bring it to him/her” において,akar_は語幹 (_ekarri = “bring”) であり,d は “it” を表し (絶対格項は他動詞の直接目的語),_ki_は与格を表し,_o_は “he” を表す.そして,_gu_は “we” を示している (能格項は他動詞の主語).

インフォーマルな使用域 (register) では,男性 (masculine) と女性 (feminine) について独立した形式を持つ.しかし,他の場合では性 (gender) が区別されない.

Masc: 男性

例: [eu] ukan ezak “have it” Gender[erg]=Masc|Number[abs]=Sing|Number[erg]=Sing|Person[abs]=3|Person[erg]=2|Polite[erg]=Inf (男性に呼びかける命令法 (imprerative))

Fem: 女性

例: [eu] ukan ezan “have it” Gender[erg]=Fem|Number[abs]=Sing|Number[erg]=Sing|Person[abs]=3|Person[erg]=2|Polite[erg]=Inf (女性に呼びかける命令法)

edit ErgDatGender

Evident: evidentiality

Values: Fh Nfh

証拠性 (evidentiality) とは話者の情報源に対する形態標示を指し (Aikhenvald, 2004), 証拠性は時おり,法 (mood) やモダリティ (modality) のカテゴリから捉えられる.

世界の言語をみると証拠性に関して多様な値 (value) が観察されるが,現状ではトルコ語で必要となる直接的 (firsthand) 対 非直接的 (non-firsthand) の区別のみがカバーされている.トルコ語では通常の過去時制 (直接的,定の過去時制,直接目撃過去 (seen past tense)) を_miş_-pastと呼ばれるものから区別する(非直接的,不定の過去時制,伝聞過去 (heard past tense)).

さらにAikhenvaldは報告的証拠性 (reported evidentiality) も認定しており,これは特にエストニア語とラトビア語に生起する.この証拠性に対しては法 (Mood) が用いられる.

注意: Evident はUD v2より用いられる普遍的素性である.UDv1ではその素性は言語固有の素性 (Evidentialityという名称で) としてトルコ語に対して用いられた.

Fh: 直接的 (firsthand)

Nfh: 非直接的 (non-firsthand)

参考文献

edit Evident

Foreign: is this a foreign word?

Values: Yes

この素性はブール型 (i.e. 2値) であり,当該表現が外国語であるかどうかを判別する.借用語 (loan word) や外国語の名称ではなく,本当に外国語が母国語のテキスト (直接話法 (direct speech) の内部や書籍のタイトルなど) に現れることがある.この素性は (分析不可能なトークンにおいて) u-pos/Xの品詞タグに適用される.もしくは,そのトークンの品詞が判明していて,かつ元々の言語における品詞としてタグ付けしたい場合にも適用される.

注意: この素性はUDv2で新たに設定されたものである.元々は言語固有の素性としていくつかのツリーバンクで用いられていたが,ブール型ではなく3値をとるものも確認された.しかし,他の値は滅多に用いられないのでUDv2ではこのような定義を採用しない.

Yes: it is foreign

Example: [en] He said I could “dra åt helvete!

edit Foreign

Gender: gender

Values: Com Fem Masc Neut

Gender名詞 (nouns) の語彙的素性であり,名詞との一致を標示する他の品詞 (代名詞 (pronouns)形容詞 (adjectives)限定詞 (determiners)数詞 (numerals)動詞 (verbs)) における屈折素性でもある.英語では,性 (gender) は人称代名詞 (he / she / it) の選択についてにのみ影響を与えるため,素性Genderは英語のタグセットでエンコードしないのが通例である.

これに関連する素性として,有生性 (Animacy) も参照されたい.

アフリカの言語は名詞クラス (noun classes) に類似した素性をもつ: 平たい物体や細長い物体といったものでも文法範疇から区別されるかもしれない.

Masc: 男性 (masculine gender)

男性の人物を指示する名詞は男性 (masculine) の性 (gender) をとる.他の名詞も,性別 (sex) について無関係だが文法的に男性をとることがある.

Fem: 女性 (feminine gender)

女性の人物を指示する名詞は女性 (feminine) の性 (gender) をとる.他の名詞も,性別 (sex) について無関係だが文法的に女性をとることがある.

Neut: 中性 (neuter gender)

性 (gender) を男性/女性についてのみ区別する言語がある一方で,(文法的に) そのどちらでもない3番目の性を持つ言語もある.

Com: 汎性 (common gender)

いくつかの言語では,大抵の場合で男性/女性の区別を設けないが,中性 (neuter) かそうでないか (non-neuter) については区別するものがある (スウェーデン語における neutrum/utrum の区別).非中性的なものは汎性 (common gender) と呼ばれる.

汎性は結合した値Gender=Fem,Mascとして表現できるだろうが,Comの独立性は保持される.結合した値は例外的に用いられるべきであって,文法内で体系的に起こるものに対しては適用すべきでない.上記のガイドラインを特定の言語向けに拡張するのであれば,当該言語において値Comの使用が適切かどうかを決定すべきである.

Comについて注意が必要なのは,MascFemを区別する言語において (コンテクストを参照しない限り) 語単体からは性が分からないような事例へ適用するようには意図されていない,ということである.

例えば,スペイン語では名詞を男性と女性に区別するため,全ての名詞はMascもしくはFemとして分類される.形容詞は性 (および数) について名詞と一致し,-o / -a_を交替させることで区別される.ただし,_grande もしくは feliz のように,両方の性に対して1つの形式しかもたないような名詞も存在し,これらはコンテクストを参照しない限りどちらか性であるかが判明しない.とはいえ,それらの形容詞は必ず男性か女性かのどちらかをとる (_una ciudad grande_では女性,_un puerto grande_では男性) ため,_grande_をGender=Comとタグ付けするわけにはいかない.代替案としては,そもそも性の素性を仮定しない (_grande_が性に関して屈折しないと考える) か,コンテクスト上に生起する_grande_のインスタンスを男性または女性としてタグ付けすることが考えられる.

edit Gender

Hyph: hyphenated compound or part of it

この素性はブール型であり,当該表現がハイフン付きの複合語 (hyphenated compound) かどうかを判別する.トークン化 (tokenization) のあり方によって,当該の複合語が単一のトークンである場合と複数のトークンに分離される場合がある; よって,そのようなトークンを識別するタグが必要になる.

Yes: ハイフン付き複合語の部分である

例: “anglo-“ in “anglo-saxon”; [cs] “česko-slovenský” (Czecho-Slovak; 2番目の要素は通常の形容詞なので形容詞のパラダイムに含まれるが,1番目の要素は特殊である.)

edit Hyph

Mood: mood

Values: Adm Cnd Des Imp Ind Jus Nec Opt Pot Prp Qot Sub

法・ムード (mood) はモダリティ (modality) を表し,定動詞の語形の下位範疇を形成する.

Ind: 直接法 (indicative)

直接法はデフォルトの法だと考えられる.直接法をとる動詞は,単に何かが起きる/起きた/起きるだろう ということを表すだけであり,話者の態度 (attitude) は一切加えられない.

Imp: 命令法 (imperative)

話者は命令法を用いて聞き手に動詞が示す行為を行うよう命じる/依頼する.

Cnd: 条件法 (conditional)

条件法は特定の状況下で起きる行為を表すが,それは実際には 起こらない/起きない.いくつかの言語の文法では条件法を (法ではなく) 時制 (tense) に分類するが,チェコ語といった言語では条件法を時制 (2種の時制; 過去時制,現在時制) との組み合わせによって表現する.

Pot: 可能法 (potential)

可能法は動詞の示す行為が起こりうることを表すが,それ実現するかどうかは分からない.このムードは法動詞_can, might, be able to_に対応する.可能法はフィンランド語などで用いられる.また,希求法 (optative) も参照されたい.

Sub: 接続法 (subjunctive / conjunctive)

接続法は特定の状況下で従属節 (subordinate clauses) に用いられ,それは特定の行為が想像上のもの,もしくは実現が不確かであることを表す.ドイツ語では,接続法は条件的意味を伝達するのに用いられる.

Jus: 指令法 (jussive / injunctive)

指令法は特定の行為が起こる望みを表す; これは命令法 (imperative) と希求法 (optative) の両方に類似している.願望法 (desiderative) とは異なり,行為が起きることを望んでいるのは主語ではなく常に話者である.指令法はアラビア語などで用いられる.また,サンスクリット語の指令法 (injunctive) はMood=Jusへ対応づけられる.

Prp: 目的法 (purposive)

目的法は”in order to”を意味し,アマゾンの言語に現れる.

Qot: 引用法 (quotative)

引用法はエストニア語などで用いられ,直接話法 (direct speech) を表す.

Opt: 希求法 (optative)

希求法は “May you have a long life!” や “If only I were rich!” のように用いられ,感嘆の意を示す.トルコ語では提案も表し,サンスクリット語では可能性も表す (他言語における可能法 (potential mood) に相当).

Des: 願望法 (desiderative)

願望法は法動詞”want to”に対応する: ““He wants to come.”” 願望法はトルコ語などで用いられる.

Nec: 必然法 (necessitative)

必然法は事象の必然性を表し,法動詞”must, shoud, have to”に対応する: “He must come.”

Adm: 感嘆法 (admirative)

感嘆法は驚き,皮肉や疑いを表す.感嘆法はアルバニア語や他のバルカン諸語,およびカドー語 (Caddo; オクラホマのネイティブアメリカンが話す言語) などで用いられる.

edit Mood

NameType: type of named entity

この素性は名称の付いた存在物を分類する (token-based, no nesting of entities etc.). この素性は主にcs-pos/PROPNタグに適用される; 複数の語から成る外国語の名称については,形容詞 (adjectives) もこの素性を持つ

Geo: 地理的な名称

都市,国家,河川,山といったものの名称

Prs: 人名

この値は,名 (given name) か姓かどうか判断できないものの,人名だと判断できるような名称に対して用いられる.

Giv: 名 (given name of person)

名 (ファミリーネームでない) を表す.これは,欧米人のファーストネームや中国語における (3つの) 音節の後ろから2つに相当する.

Sur: 姓/ファミリーネーム

ファミリーネーム (姓) を表す.これは,欧米人のラストネームや中国語における (3つの) 音節の先頭に相当する.

Nat: 国籍

特定の国家もしくは,特定の領地の住人を示す.

Com: 会社,組織

Pro: 製品

Oth: その他

競技場,ゲリラ拠点,イベントなどの名称.

edit NameType

NounClass: noun class

Values: Bantu1 Bantu2 Bantu3 Bantu4 Bantu5 Bantu6 Bantu7 Bantu8 Bantu9 Bantu10
Bantu11 Bantu12 Bantu13 Bantu14 Bantu15 Bantu16 Bantu17 Bantu18 Bantu19 Bantu20

NounClass性 (Gender) 及び 有生性 (Animacy) に類似している.名詞 (nouns)の語彙カテゴリに含まれ,名詞との一致 (agree) を示す他の品詞 (代名詞 (pronouns), 形容詞 (adjectives), 限定詞 (determiners), 数詞 (numerals), 動詞 (verbs)) の屈折を表すからである.

性と名詞クラスの区別は明瞭ではなく,特定の語族で伝統的に採用された術語法からは区別の条件づけが部分的に与えられる.概して,可能な値 (value) が比較的少なく (大体2-4),その割り振りがヒトや動物の性別に対応するときは,性 (gender) とみなされる.カテゴリの数が多い (10-20) 語族においては,それは名詞クラスと呼ばれる.また,名詞クラス・性の両方を用いる語族は存在しない.

バントゥー諸語では,名詞クラスは数 (Number) もエンコードする; ゆえに,名詞クラスは名詞の語彙的な屈折素性である.バントゥー語に詳しい人ならば名詞クラスから数を推測できるとはいえ,当該の語にはNounClassに加えてNumberもタグ付けされる.ただし,このような語の見出し語 (lemma) は単数形であることが望ましい.

この素性の値の集合は語族 (language family) や語群 (language group) によって変わる.語群内では,言語間において意味の類似したクラスを設定可能である (しかし,同じ語群であっても特定のクラスが統合されたり,消失する場合もある). 素性NounClassの値は,語群 (e,g, Bantu) における識別子として作用し,クラスの数を与える (バントゥー諸語の研究者の間で標準化されたクラス数の体系が存在する; このような体系は名詞クラスを持つ他の語族でも構築が可能だろう).

Bantu1: 単数の人物

これに対応する複数形のクラスはBantu2である.¥

スワヒリ語における名詞クラスのリスト

(https://en.wikipedia.org/wiki/Noun_classより)

クラス数 接頭辞 (Prefix) 典型的な意味
1 m-, mw-, mu- singular: persons
2 wa-, w- plural: persons (クラス1の複数)
3 m-, mw-, mu- singular: plants
4 mi-, my- plural: plants (クラス3の複数)
5 ji-, j-, Ø- singular: fruits
6 ma-, m- plural: fruits (クラス5, 9, 11, まれに1の複数)
7 ki-, ch- singular: things
8 vi-, vy- plural: things (クラス7の複数)
9 n-, ny-, m-, Ø- singular: animals, things
10 n-, ny-, m-, Ø- plural: animals, things (クラス9と11の複数)
11 u-, w-, uw- singular: no clear semantics
15 ku-, kw- verbal nouns
16 pa- locative meanings: close to something
17 ku- indefinite locative or directive meaning
18 mu-, m- locative meanings: inside something

edit NounClass

NounType: noun type

POSタグのレベルで普通名詞 (common noun) と固有名詞 (proper noun) を区別してきたが,他の区別を標示するためのタグセットも存在する.

Class: 類別詞 (classifier)

中国語の類別詞は基数 (cardinal number) と名詞について区別する.ただし,この区別はNounTypeの値のみに関係する.Intersetでは“com”と“prop”という値をもつが,Universal Treebanksにおいては,これらはすでにPOSタグから区別されたものとして考える.

edit NounType

NumForm: numeral form

この素性は基数 (cardinal number) と序数 (ordinal number) を表し,数が数字 (digit) から表されたのか,語として表現されたのかを判別する.筆者の知る限り,この素性は10つ以上のタグセットにみられる.この素性は (ヨーロッパ) アラビア数字とローマ数字を区別するため,欧米言語を中心に用いられる傾向にある.では,他の書記体系ではどうだろうか.インドの書記体系やアラビア語の文字では,当該言語独自の数字とヨーロッパ・アラビア数字の両方が生起する(e.g. 2014 vs. デヴァナーガリーの२०१४).

Word: 語として表現された数

例: one, two, three

Digit: 数字を用いて表現された数

例: 1, 2, 3

Roman: ローマ数字

例: I, II, III

edit NumForm

NumType: numeral type

Values: Card Dist Frac Mult Ord Range Sets

いくつかの言語 (特にスラヴ語で) は,数 (numerals) の複雑な体系を備える.例えば,チェコ語の学校文法では”numeral”という数についての主要な品詞があり,これは数えることに関してほとんど全てのものを包含し,いくつものサブタイプが存在する.また,これには,数 (_kolik / how many, tolik / so many, několik / some, a few_といった語) を指示する疑問詞 (interrogative), 関係詞 (relative), 不定の指示語 (indefinite and demonstrative words) も含まれ,PronTypeにおいて,これらは空でない値を持つだろう (英語では,これらの語は数量詞 (quantifier) と呼ばれ,限定詞 (determiners) の下位グループに属する).

統語論の観点からいえば,形容詞のようにふるまうnumtypeもあれば,副詞のようにふるまうものもある.それぞれ,u-pos/ADJu-pos/ADVのようにタグ付けされる.このように,素性NumTypeはさまざまな品詞に適用される:

Card: 基数 (ordinal number) か,それに対応する疑問詞 / 関係詞 / 不定詞 / 指示語

いくつかの印欧語では,thousand, million や_billion_に相当する語は数詞か名詞どちらに属すかが明瞭でない.

Ord: 序数 (ordinal number) か,それに対応する疑問詞 / 関係詞 / 不定詞 / 指示語

これは,形容詞か (いくつかの言語では) 副詞である.

Mult: multiplicative numeral or corresponding interrogative / relative / indefinite / demonstrative word

これは,形容詞か副詞のサブタイプである.

Frac: 分数 (fraction)

基数のサブタイプに属し,コーパスによっては設定されることがある.これは分数もしくは単に分母を表し,さまざまな言語で形態的,統語的に名詞もしくは序数詞としてふるまう.

Sets: 集合の数・集合数詞 (number of sets of things; collective numeral)

これは数詞の独立したクラスであり,事物の集合を数えるために用いられる数詞か,絶対複数 (pluralia tantum) を示す名詞である.研究者によってはこのタイプを集合数詞 (collective numeral) と呼ぶことがある.

Dist: 配分される数 (distributive numeral)

同じ量が特定のターゲット内の各成員に配分されることを表す.

Range: 数値の範囲

基数のサブタイプと考えられ,コーパスによっては設定されることがある.

edit NumType

NumValue: numeric value

基数の低い数値 (<5) は,スラブ語において形態的・統語的に他と異なるふるまいをみせるため,タグセットによっては両者を区別する (今のところチェコ語やポーランド語で確認される.また,スラブ語ではないがアラビア語にも確認される).

チェコ語では,”one”は加算名詞の性 (gender),数 (number),格 (case) について一致 (agree) する.”two”は性,格,数について一致する.”three”と”four”は格について一致する.これらの数詞は形容詞に類似している.”five”, “six”…は異なるふるまいをみせる.加算対象となる句が属格 (genitive), 与格 (dative), 場所格 (locative) もしくは道具格 (instrumental) である場合,”five”, “six”…は名詞と格ついて一致する.ただし,句が主格 (nominative),対格 (accusative),もしくは呼格 (vocative) をとる場合,上の数詞は名詞が属格であることを要求する.このふるまいは属格名詞によって修飾される名詞のそれに近い (これが,Czech PDTにおいて数詞のノードのいくつかが名詞を修飾するものではなく,名詞を支配する名詞 (governing nouns) としてタグ付けされる理由である).

1: numeric value 1

2: numeric value 2

3: numeric value 3 or 4

edit NumValue

Number: number

Values: Coll Count Dual Grpa Grpl Inv Pauc Plur Ptan Sing Tri

Number は通常,名詞 (nouns) の屈折素性である.言語によっては,他の品詞 (代名詞 (pronouns), 形容詞 (adjectives), 限定詞 (determiners), 数詞 (numerals), 動詞 (verbs))も数に関して名詞との一致 (agreement) を標示することがある.

Sing: 単数 (singular number)

人物・動物・事物を1つ示す単数名詞.

Plur: 複数 (plural number)

人物・動物・事物を複数示す複数名詞.

Dual: 双数 (dual number)

人物・動物・事物を2つ示す双数名詞

Tri: 三数 (trial number)

三数代名詞 (trial pronoun denotes) は人物・動物・事物を3つ示す.三数代名詞 はオーストロネシア諸語のいくつかに現れる.

Pauc: 少数 (paucal number)

少数名詞 (paucal noun) は“少数の”人物・動物・事物を表す.

Grpa: 複数の少数 (greater paucal number)

複数少数名詞 (greater paucal noun) は “少数ではないが,多数でない” 人物・動物・事物を指す. オーストロネシア言語のスルスルンガ語 (Sursurunga) に生起する.

Grpl: 大数 (greater plural number0

大数名詞 (greater plural noun) は “多数の,可能なもの全ての” 人物・動物・事物を指す. その正確な意味は言語によって多岐にわたる.

Inv: 逆数 (inverse number)

逆数は特定の名詞の数がデフォルトでないことを表す. (名詞よっては単数がデフォルトであったり,複数がデフォルトであったりする.) 逆数はキオワ語 (Kiowa) に生起する.

Count 加算複数 (count plural)

加算複数はブルガリア語やマケドニア語で確認され,”加算形”,”加算複数”,”定量複数” のように,様々な呼び方がある (Sussex and Cubberley 2006, p. 324). 数詞 (numeral) に後続する場合,これは名詞の特殊な複数形となる. (この形式はスラブ祖語の双数形に起源を持つが,Number=Dualとは標示されない. なぜなら,(1)双数はブルガリア語で消失した (2)その形式が2という数と意味的な関連性を持たなくなったからである.)

Ptan: 絶対複数 (plurale tantum)

名詞によっては,例えそれが1つの事物 (意味的に単数) しか表していなくても複数形でしか生起しないようなものがある; いくつかのタグセットでは.この区別を標示する. 文法的には複数形のようにふるまうので,Plurはバックオフの値をとる; しかし,性 (gender) も標示する言語については,単数形の不在が性について不明であること意味する場合がある.チェコ語において加算名詞が絶対複数を表す場合,このような特別なタイプの数詞が用いられる (NumType = Sets).

Coll: 集合名詞,質量名詞,絶対単数 (collective / mass / singulare tantum)

集合名詞,質量名詞,絶対単数は単数形の特別例である.これらは文法的単数が事物の集合 (i.e. 意味的に複数) を表す場合に適用される.理論的には複数形を形成できるだろうが,意味的に単数を表すのは難しい. ただし,複数形は”いくつかの種類の”,”いくつかのパッケージの”といった意味を表すことがある.

参考文献

edit Number

PartType: particle type

いくつものタグセットで,不変化詞 (particle) のタイプが示されている.ここではIntersetにあるものを提示し,UDによる不変化詞の新たな定義に整合させる.

Mod: 法不変化詞 (modal particle)

Examples: [bg] май (possibly), нека (let), [cs] ať, kéž, nechť (let)

Emp: 強調不変化詞 (particle of emphasis)0

Examples: [bg] даже (even)

Res: 応答不変化詞 (particle of response)

Examples: yes, no

Inf: 不定詞マーカー (infinitive marker)

これらは従属接続詞 (subordinating conjunctions) だろうか.そうだとすれば,この素性は”conjtype”の値となるだろうか?

Examples: [en] to, [de] zu, [da] at, [sv] att

Vbp: ドイツ語における分離した動詞の接頭辞

他のゲルマン語には動詞不変化詞に類するものがあり,それらは側置詞 (adposition) や副詞に重複する.これらについては,側置詞/副詞のタグを付与した上で素性Vbpを追加するべきだろうか?

Examples: [de] vor (in “stellen Sie sich vor”)

加えて,複数の言語には疑問不変化詞 (question particles; 疑問文にする i.e. 疑問マーカーとして音声化されるものの一種) や否定不変化詞 (英語の”not”, ドイツ語のGerman “nicht”など; 人によってはこれらを副詞と呼ぶ). Intersetにあるこれら2タイプを捉えるため,”prontype”の値として”int”および”neg”を多用してきたが,prontypeが他の品詞に属することから,この方法には不満が残らないわけではない.しかし,素性”PartType”を維持するとすれば,ここでもやはり値”int”と”neg”を追加しておきたい.

edit PartType

Person: person

Values: 0 1 2 3 4

人称 (person) は,典型的には人称・所有代名詞 (pronouns) / 限定詞 (determiners),および動詞 (verbs) の素性を指す.動詞においては,これは動詞主語の人称を標示する一致素性 (agreement feature) である (バスク語など,言語によっては目的語の人称も標示することがある).動詞に人称を標示することで代名詞を主語として加える必要がなくなるため,時おり省略されることがある (pro-drop)

0: ゼロ人称 (zero person)

ゼロ人称は非人間的な陳述 (impersonal statement) であり,フィンランド語やプエブロのケラス語に現れる (この構文はフィンランド語に特徴的だが,特殊な形態を用いるわけではないので専用の素性を必要とはしない.しかし,ケラス語ではゼロ人称が独自の形態をもつ (Davis 1964: 75).

1: 1人称 (first person)

単数の1人称 (singular) は話者/筆者のみを指示し,複数の1人称 (plural) は話者と1人以上の人物を含む.言語によっては (e.g. 台湾語),複数の1人称は包括的 (inclusive) なものと排他的 (exclusive) なものに区別される: 前者は発話の聞き手 (i.e. I + you) を含み,後者は聞き手を含まない (i.e. I + they).

2: 2人称 (second person)

単数の2人称は発話/テキストの聞き手 (読者) を指示し,複数の2人称は複数の聞き手を含み,加えて第三者を含むこともある.

3: 3人称 (third person)

3人称は,話者でも聞き手でもない1人かそれより多くの人物を指す.

4: 4人称 (fourth person)

4人称 (fourth person) は,他の3人称の項と形態的に独立したものとして理解される (e.g. ナバホ語)

参考文献

edit Person

Polarity: polarity

Values: Neg Pos

極性 (polarity) は,典型的には動詞 (verbs)形容詞 (adjectives) の素性であるが, 拘束形態素を用いて否定を表す言語においては副詞 (adverbs)名詞(nouns) も極性の素性を持つ.機能語を用いて否定を表す言語において,PronType=Negの標示をうけるpro-form (下記参照) を持たない限り,Polarityはその機能語を標示するのに用いられる.

正の極性 (肯定) が形態素によって明示的に符号化されるのは稀である.値 Polarity=Pos は通常,見出し語 (lemma) に否定形を持つものの,否定形式として使っていないこと示すために用いられる.否定が可能であるが,否定形の使用が稀であるような語に対して,Polarity=Posを用いるかどうかは任意である.

例えば,チェコ語のあらゆる動詞と形容詞は接頭辞 (prefix) _ne-_を用いて否定が可能である.理論的には名詞も”当該名詞が指示するもの以外”という意味で否定が可能であるが,あまり見られない用法であるため,肯定形をとる名詞すべてにPolarity=Posタグを施す必要はない.言語固有のドキュメンテーションにおいては,どの状況下で正の極性がタグ付けされるかを定めておくべきである.

英語では,動詞は不変化詞 (particle) の_not_を用いて否定される.形容詞は接頭辞 (prefix) によっても否定されるが,チェコ語ではこのようなプロセスの生産的が低い (wise – unwise, probable – improbable).

Polarity=NegPronType=Negとは異なることに注意されたい.代名詞や代名詞的な品詞では,動詞や形容詞のような2値の対立が存在しない (“肯定代名詞 (affirmative pronoun)” のようなものは存在しない).

素性Polarityは素性間投詞 (interjections) について,yesno の返答を区別する役割も持つ.

Pos: 肯定 (positive, affirmative)

Neg: 否定

edit Polarity

Polite: politeness

Values: Elev Form Humb Infm

丁寧さ (politenss) や尊敬 (respect) を表す手段は多岐にわたる; 1つの手段として,形態論的な方法がある.言語学の文献によると,丁寧さの次元は3つから4つあるとされる.素性Politeは今のところ2つの次元についてカバーしている; UDの将来のバージョンでは,必要に応じて洗練された値 (value) の体系が構築されるだろう.現時点でカバーされる2つの軸 (axis) とは次のものである:

印欧語において代名詞が発話に含まれる際に代名詞もしくは動詞の人称 (person) および数 (number) が変更される現象は,話者-指示対象の軸に属する.尊敬代名詞 (honorific pronouns) は聞き手を指示するために用いられるからである.

チェコ語ではフォーマルな2人称が単複同形であり,インフォーマルな2人称複数とも同一である.そのため,フォーマルな言い方をする場合であっても代名詞と定の動詞 (分詞 (participle) はそうでない) は特別な形式を持たない (すなわち,フォーマルな単数形はインフォーマルな単数形と同一であるが,インフォーマルな複数形とは同一でない).

ドイツ語,スペイン語もしくはヒンディー語では,数と人称が変化する (インフォーマルな3人称はフォーマルな2人称として用いられる).さらに,フォーマルな使用域 (register) でのみ生起する特別な代名詞がある ([de] Sie; [es] usted, ustedes; [hi] आप āpa).

日本語では,動詞と他の語は丁寧さを表す形式とインフォーマルな形式を持つ.しかし,丁寧さを表す形式は聞き手を指示しない (2人称には存在しない).主題 (topic) が聞き手に関与しないとしても,これらの形式は聞き手が誰なのかを示すために用いられる.この種の丁寧さを表すことばは丁寧語 (teineigo) と呼ばれ,これは話者-聞き手の軸に属する.しかし,現行の取り組みでは両軸に対して同じ値を用いる.つまり,Polite=Formが丁寧語にも用いられるということである.

Infm: インフォーマルな使用域 (informal register)

使用法は多岐にわたる.ただし,当該言語が丁寧さのレベルを区別するとすれば,インフォーマルな使用域とは家族や近しい友人とのコミュニケーションを意味する.

例:

Form: フォーマルな使用域 (formal register)

この使用法は多岐にわたる.当該言語が丁寧さに関して区別するのであれば,フォーマルな使用域とは,知らない人および話者よりも社会的地位が高い人とのコミュニケーションを意味する.

例:

Elev: 指示対象の格上げ (referent elevating)

この使用域は話者-指示対象の軸に属し,フォーマルな使用域のサブタイプに属するものとして捉えられる.例としては日本語の尊敬語 (sonkeigo) があり,これは指示対象の地位を上げるような尊敬形 (honorific forms) の集合を指す.

Humb: 話者の謙遜 (speaker humbling)

この使用域は話者-指示対象の軸に属し,フォーマルな使用域のサブタイプに属するものとして捉えられる.例としては日本語の謙譲語 (kenjōgo) があり,これは話者の地位を下げることによって相対的に指示対象の地位を上げるような尊敬形 (honorific forms) の集合を指す.

参考文献

edit Polite

Poss: possessive

Values: Yes

この素性はブール型であり,代名詞か限定詞もしくは形容詞かを判別する.また,この素性は当該の語が所有格 (possessive) かどうかを判別する.

多くのタグセットでは複数ある代名詞のタイプの1つとして”possessive”を備えるが,Possは他の代名詞のタイプから独立していため,PronTypeとの区別は意図的である.複数の代名詞のタイプは所有格を任意的にとり,それは形容詞についても同様である.

Yes: 所有格である

Noは存在しない.当該の語が所有格でなければ,素性PossはそもそもFEATカラムに記載されないからである (空の値はNoの意味をもつ)

edit Poss

PossGender: possessor’s gender

所有形容詞・代名詞 (possessive adjectives and pronouns) は2つの異なる性 (gender) を持つことがある: 所有物 (被修飾名詞との性の一致 (agreement)) と所有者 (語彙的な素性であり,固有の性をもつ).素性PossGenderは所有者の性を表す.今のところ一部しかコーパスでは観察されないが,議論を簡潔にするため,この素性の可能な値はGenderのものと同一だと考えたい.

以下に示すチェコ語の例では,男性 (masculiune) のPossGenderが接尾辞 -ův, -ova, -ovo, を含意し,女性 (feminine) のPossGender-in, -ina, -ino のいずれかを使用していることを含意する.

Masc: 男性の所有者 (masculine possessor)

Examples: [cs] otcův syn (father’s son; PossGender=Masc|Gender=Masc); otcova dcera (father’s daughter; PossGender=Masc|Gender=Fem); otcovo dítě (father’s child; PossGender=Masc|Gender=Neut).

Fem: 女性の所有者 (feminine possessor)

Examples: [cs] matčin syn (mother’s son; PossGender=Fem|Gender=Masc); matčina dcera (mother’s daughter; PossGender=Fem|Gender=Fem); matčino dítě (mother’s child; PossGender=Fem|Gender=Neut).

edit PossGender

PossNumber: possessor’s number

所有形 (possessives) は2つの異なる数 (number) を持つ: 所有物 (被修飾名詞との数の一致 (agreement)) と所有者.素性PossNumberは所有者の数を捉えることができる.今のところコーパスで観察されるのは一部に過ぎないが,議論を簡潔にするため,この素性の値はNumberの値と同一だと考えたい.

Sing: 単数の所有者 (singular possessor)

Examples: [en] my, his, her, its; [cs] můj pes (my dog; PossNumber=Sing|Number=Sing); psi (my dogs; PossNumber=Sing|Number=Plur).

Plur: 複数の所有者 (plural possessor)

Examples: [en] our, their; [cs] náš pes (our dog; PossNumber=Plur|Number=Sing); naši psi (our dogs; PossNumber=Plur|Number=Plur).

edit PossNumber

PossPerson: possessor’s person

素性PossPersonは所有者の人称 (person) を表し,ハンガリー語の名詞などで標示される.これらの名詞形は英語の 所有代名詞+名詞 に翻訳されるだろう.

現行のIntersetには一貫しない部分があることに注意されたい: この素性を導入したのならば他言語の所有代名詞にも用いるべきだが,代名詞における所有者の人称は伝統的に”Person”から捉えられてきた; また,PossPersonを所有代名詞に用いると他の部分について不整合を招くことになるだろう.いくつかの言語では,所有代名詞は所有格の人称代名詞と同一だからである.

1: 1人称の所有者

例: [hu] kutya = dog; kutyám = my dog; kutyánk = our dog.

2: 2人称の所有者 (second person possessor)

例: [hu] kutya = dog; kutyád = your.Sing dog; kutyátok = your.Plur dog.

3: 3人称の所有者 (third person possessor)

例: [hu] kutya = dog; kutyája = his/her/its dog; kutyájuk = their dog.

edit PossPerson

PossedNumber: possessed object’s number

PossedNumber

PossedNumberは所有物の数 (number) を指す.ハンガリー語では,所有は所有者か所有物への標示によって表される.また,稀であるが名詞は3つの異なる数を持つことがある: それ自身の文法的数,所有者の数,所有物の数.以下の例はMultext-East Hungarian lexiconによるものである:

複数の所有が標示される語は非常に稀である.以下の例はMultext-Eastのものであり,Columbusは複数の所有が標示されているが,その所有者は明示されていない.

Sing: 単数の所有

Plur: 複数の所有

edit PossedNumber

Prefix: Word functions as a prefix in a compund construction

この素性はブール型である.複合語内において,当該表現が自立しない接頭語 (prefix word) であるかどうかを決定する.

これらの語はinter- (inter disciplinary), post- (post traumatic), un- (un avoidable), di- (di transitive) といった英語の接頭辞に対応するが,他の言語では独立したトークン (ハイフンなしで) として実現される場合がある.

Yes: 複合語における接頭辞である

edit Prefix

PrepCase: case form sensitive to prepositions

言語によっては,人称代名詞が前置詞の目的語になるかどうかで異なる形式を持つことがある.例えば,チェコ語の前置詞を伴わない on (he) は jemu/DAT (与格), jeho/ACC (対格), jím/INS (具格) という形式をとる一方,前置詞を伴う場合は němu/DAT, něho/ACC, ním/INS という形式をとる. 同様に,ポルトガル語における前置詞を伴う斜格 (oblique) 代名詞は,動詞の直接目的語として機能する斜格代名詞とは異なる形式をとる: eu/NOM (I), me/ACC (give me that), mim/PREP-ACC (come to me).

デフォルトの空の値は当該の語形が前置詞が伴うかどうかに関して中立的であることを示す.

Npr: 前置詞を伴わない場合の格 (non-prepositional case)

この語形は前置詞に後続して用いられない.

例: [cs] jemu = him (与格).

Pre: 前置詞を伴う場合の格 (prepositional case)

この語形は前置詞に後続するとき必ず用いられる.

例: [cs] k mu = to him (与格).

edit PrepCase

PronType: pronominal type

Values: Art Dem Emp Exc Ind Int Neg Prs Rcp Rel Tot

この素性は典型的に代名詞 (pronouns), 代名詞的形容詞 (pronominal adjectives) (限定詞 (determiners)), 代名詞的数詞 (numerals) (数量詞 (quantifiers)) および代名詞的副詞 (adverbs) に対して適用される.

Prs: 人称代名詞,所有代名詞,限定詞

通常の人称代名詞が所有代名詞と区別されることについては,Possを参照されたい.Prsは再帰代名詞/所有代名詞 (reflexive personal/possessive pronouns) を含むことに注意されたい (e.g. [cs] _se / svůj;_素性Reflexを参照).

Rcp: 相互代名詞 (reciprocal pronoun)

この値は特に相互的である代名詞に対して用いられる.互恵的意味が再帰代名詞によって表される場合でも,当該の語は依然として再帰代名詞としてラベル付けされる (PronType=Prs|Reflex=Yes). コンテクスト上で互恵的意味が現れる場合は,相互代名詞としては標示されない.

相互的とは,複数を表す主語がある場合に各成員が述語 (predicate) の指す行為を行うことを意味する.そのような意味を表すため,相互代名詞が目的語の位置に用いられる.

Art: 冠詞 (article)

冠詞は限定詞の特殊な事例であり,定性 (definiteness) の素性を持つ (他言語では,この素性は名詞に対して直接標示される).

Int: 疑問 (interrogative) 代名詞,限定詞,数詞,副詞

所有疑問代名詞 (whose) は素性Possから区別される場合がある.

例:

Rel: 関係 (relative) 代名詞,限定詞,数詞,副詞

多くの言語において,このクラスは疑問詞 (interrogatives) と大いに重複する.とはいえ,関係詞のみに属する代名詞も存在し,言語 (ブルガリア語,ヒンディー語) によっては2つのクラスが独立している場合もある.

例:

Exc: 感嘆の限定詞 (exclamative determiner)

感嘆の限定詞は,それが修飾している名詞に対する話者の驚きを表す (e.g. what in “What a surprise!”). 多くの言語で感嘆の限定詞は疑問限定詞 (interrogative determiners) から選ばれるので,これらを区別しないタグセットも存在する.

Examples:

Dem: demonstrative pronoun, determiner, numeral or adverb

これらは疑問詞との共通点が多い.タグセットによっては,距離について独立した素性を設定する場合もある (here / there; [es] aquí / ahí / allí).

Emp: 強調の限定詞 (emphatic determiner)

強調の限定詞は,それが依存している名詞を強調する.これらは再帰代名詞や指示代名詞/限定詞に類似している.

Tot: 集合 (collective) 代名詞,限定詞,副詞

Neg: 否定 (neganitve) 代名詞,限定詞,副詞

否定代名詞は否定不変化詞 (particles) や極性 (polarity) に関して屈折する語 (動詞,形容詞など) とは区別される. これらの語にはPronType=Negを持ちいず,かわりにPolarity=Negを用いる.この詳細についてはPolarityを参照されたい.

例:

Ind: 不定の代名詞,限定詞,数詞,副詞

タグセットによっては“some”と“any”などを区別し,下位分類を設けることがある.そのような区別は普遍的素性 (universal features) に含まれないが,特定の言語向けに拡張したものには追加されるかもしれない.

edit PronType

PunctSide: which side of paired punctuation is this?

この素性は対を成す記号の始点 (initial) と終点 (final) を区別する (スペイン語における括弧,引用符,クエスチョンマーク,エクスクラメーション).これらを “左” “右” と呼ぶと,アラビア語のような右から左に書く言語のことを指すのかどうかで混乱が生じるので,やはり “initial” “final” と表記するのが良いだろう.

Ini: 始点 (initial; 英語のテキストにおける左括弧)

Fin: 終点 (final; 英語のテキストにおける右括弧)

edit PunctSide

PunctType: punctuation type

多くのタグセットでは記号 (punctuation) について1つのタグだけを備える一方,他 (Penn Treebank や Swedish Mamba tagset を含む) では記号をより細かに分類している.

Peri: 文末ピリオド; Pennタグセットでは,クエスチョンマークとエクスクラメーションも含む

Qest: クエスチョンマーク

Excl: エクスクラメーションマーク

Quot: 引用符 (言語によって様々)

Brck: 括弧

Comm: カンマ

Colo: コロン; Pennタグセットでは,他の記号は総じて “:” のタグで表される.

Semi: セミコロン

Dash: ダッシュ,ハイフン

Symb: シンボル

edit PunctType

Reflex: reflexive

Values: Yes

素性Reflexはブール型であり,典型的には代名詞 (pronouns)限定詞 (determiners) に適用される.この素性は当該の語が再帰的 (reflexive) であるかどうかを判別する (i.e. 節主語を指示するかどうか).

多くのタグセットは代名詞のタイプとして”reflexive”を備えるが,その素性はPronType とは意図的に区別される.この素性が代名詞と限定詞で用いられる場合,Person の素性に関して区別するかどうかに関わらず (区別する言語としない言語がある),それはPronType=Prsに結合されるだろう.

いくつかの言語には再帰動詞 (reflexive verbs) が存在するが,それは実際には再帰代名詞と融合した動詞 (fused verbs) である (その例にはスペイン語の_despertarse_やロシア語の_проснуться_があり,両者は“to wake up”を意味する).よって,これらの事例は,融合したトークンが2つの統語的な語に分離される.そのうち1つは再帰代名詞である.

Yes: 再帰的である

この素性にはNoの値が存在しない.当該の語が再帰的でなければ,素性ReflexはそもそもFEATカラムに記載されないからである.(すなわち,空の値がNoを意味する.)

edit Reflex

Style: style or sublanguage to which this word form belongs

この素性は語彙的素性 (見出し語には古風なものや口語的なものがある) であるか,形態的素性 (屈折パタンが方言や文体によって規則的に変化する) である.この素性は多くの言語に用いられるが,タグ付けで実際に用いる言語はわずかである (ブルガリア語,チェコ語,デンマーク語,フィンランド語,ハンガリー語にみられる).

Arch: 古風な文体,廃れた文体

Rare: あまり見ない文体

Form: フォーマルな文体,文語体

Poet: 詩

Norm: 通常の文体

Coll: 口語体

Vrnc: 世俗的

Slng: スラング

Expr: 表現的な文体,感情的な文体

Derg: 逸脱した文体

Vulg: 粗野な文体

edit Style

Subcat: subcategorization

この素性は動詞の語彙的素性である.タグセットで動詞の自他を区別するものがあるが,多くの言語では動詞の下位範疇はこれよりもはるかに複雑である.

Intr: 自動詞 (intransitive verb)

主語以外に項をとらない動詞.

例: [en] to go

Tran: 他動詞 (transitive verb)

(主語に加え) 項として直接目的語 (対格) をとる動詞.他動詞は受動化が可能であり,その場合は直接目的語が主語になる.

例: [en] to do something, to be done by somebody

edit Subcat

Tense: tense

Values: Fut Imp Past Pqp Pres

時制 (tense) は典型的には動詞 (verbs) の素性であるが,他の品詞 (名詞 (nouns), 形容詞 (adjectives), 副詞 (adverbs)) も,分詞 (participles) といった境界線上にある語が動詞か別の品詞のどちらに属するかによって,時制を持つ場合がある.

時制は当該行為が行われた/行う/行われる時間を指定する.時間は特定の参照点 (reference point) から決定され,発話時点を指す場合もあれば,コンテクストに依存する場合もある.言語によっては (e.g. 英語),時制のいくつかは時制とアスペスト (aspect) との組み合わせから表現される.他の言語 (e.g. チェコ語) ではアスペクトと時制が完全には独立しないものの,それらが分離することもある. ここで行うのは,単一の語に適用される素性の定義についてである.時制が迂言的に表され (2以上の動詞,すなわち助動詞 (auxiliary verb) の直接法 (indicative) + 主動詞の分詞 から),かつ特定の時制に特有な語が存在しない場合,この素性は時制を明示的に表さないだろう.例えば,[en] I had been there は過去完了 (大過去) の時制をもち,これは助動詞の単純過去_to have_と主動詞_to be_の過去分詞から構成される.そのとき,助動詞は VerbForm=Fin|Mood=Ind|Tense=Past とタグ付けされ,分詞は VerbForm=Part|Tense=Past とタグ付けされる; 両者はどちらもTense=Pqpを持たない一方,ポルトガル語は大過去を一語によって形成することができ,_estivera_といったものは VerbForm=Fin|Mood=Ind|Tense=Pqp としてタグ付けされるだろう.

Past: 過去時制/過去形/アオリスト

過去時制は行為が参照点よりも前に発生したことを示す.典型的に参照点は発話時点であり,過去事象は話者がそれについて話す以前に起きたものである.しかし,Tense=Pastは過去分詞と他の分詞を区別するのにも用いられ,また,過去の副動詞 (past converb) を他から区別するためにも使われる; これらの事例で参照点自体は,発話時点と比較して過去かもしれないし,未来かもしれない. 例えば,チェコ語の文_spatřivše vojáky, velmi se ulekli_ “having seen the soldiers, they got very scared” 内にある副動詞 spatřivše “having seen” は,それが「恐れを抱く」という事象よりも前に起こったことを示す.

当該事象の発生が発話時点に先行するとはいえ,この情報は副動詞自体にはエンコードされていない.それは,“getting scared”という事象が過去時制で表されることから生ずるのである.

定動詞のうち,英語の単純過去形がTense=Pastの例に該当する.これは,ドイツ語ではPräteritumに相当し,トルコ語ではnon-narrative pastに相当する.また,ブルガリア語では,アスペクトに関して中立的である過去時制 (アオリスト) に相当し,未完了動詞・完了動詞のどちらでも自由に用いることができる (未完了の欄も参照されたい).

Pres: 現在/非過去時制

現在時制は行為が特定の参照点において進行中であること (もしくは状態) を示す; また,現在時制は習慣的に発生する事象を表すこともできる.典型的に,参照点は発話時点である; しかし,Tense=Presは他の分詞 (participle) から現在分詞を区別するのに用いられ,現在の副動詞 (converbs) から他を区別するためにも用いられる.これらの事例では,参照点が発話時点と比べて,過去あるいは未来であることがある.例えば,英語の現在分詞は,過去進行時制 (past progressive tense) を形成するのに用いられるだろう: he was watching TV when I arrived.

同様に,いくつかのスラブ語 (e.g. チェコ語) では未来時制 (future tense) を持つが,現在形が未来の意味を表すような動詞のサブセットも存在する.

Fut: 未来時制 (future tense)

未来時制は参照点よりも後に起こる行為を指す: 典型的な参照点は発話時点である.

Imp: 未完了 (imperfect)

未完了は過去時制の特殊事例であり,ブルガリア語やクロアチア語などで用いられる.注意したいのは,未完了時制は常に 過去時制+未完了アスペクト と同じだと限らないことである.例えば,ブルガリア語において,動詞にはその意味に内在する語彙的アスペクトが含まれるが.これは文法的アスペクトと常に合致するわけではない.主節において,未完了動詞は未完了時制を持ち,完了動詞が完了時制を持つとはいえ,埋め込み節内では両者の規則が破られることもある.

Pqp: 大過去 (pluperfect)

大過去とは,過去に起きた特定の行為よりも前に起こった行為を指す.英語において大過去 (過去完了) が分析的に形成される場合には,この値が適用されない.この値はポルトガル語などに適用される.

edit Tense

Typo: is this a misspelled word?

Values: Yes

この素性はスペルの誤りや文法のエラーなどを示すが,正例については何も言及しない.

Yes: タイポ (typo) である

edit Typo

VerbForm: form of verb or deverbative

Values: Conv Fin Gdv Ger Inf Part Sup Vnoun

名前からして,この素性は動詞 (verbs) だけに適用されるように思えるが,実際はそうでない.当該形式が動詞か他の品詞 (名詞 (nouns), 形容詞 (adjectives)副詞 (adverbs)) のどちらに属するかが不明瞭であるような言語も存在するからである. 例えば,分詞 (participles) は動詞か形容詞のいずれに分類されるが,これは言語やコンテクストに左右される.どちらの場合であっても,VerbForm=Partは他の動詞形や形容詞形から区別するのに用いられるだろう.

Fin: 定動詞 (finite verb)

簡単な規則: Moodの値が空でないとき,それは定動詞である. しかし,タグセットによっては動詞形と法を1つの素性として表現する場合もあるので注意されたい.

Inf: 不定詞 (infinitive)

多くの言語で,不定詞は動詞の引用形である.英語とは異なり,不定詞は定動詞と語形が異なる場合が多い.不定詞は助動詞 (auxiliaries) と組み合わせることで時制 (e.g. 未来時制 [cs] budu sedět vletadle “I will sit in a plane”) を迂言的に表すことがあり,それは法助動詞 (modal verbs) などの項として生起する.言語によっては不定詞が名詞のようにふるまうことがあり,名詞として使用される (英語の動名詞のように).

Sup: スピーヌム (supine)

スピーヌムは珍しい動詞形である.スピーヌムはスラブ語 (スロベニア語) のいくつかでは現存しており,移動動詞の項として不定詞の代わりに用いられる (old [cs] jdu spat lit. I-go sleep).

“スピーヌム”と呼ばれる動詞形はスウェーデン語にも存在する.これは分詞の特殊な形式をとり,動詞の合成的な過去形を形成する.スピーヌムは助動詞_ha_ (to have) の後に用いられるが,vara (to be) には後続しない:

Part: 分詞 (participle) 動詞的形容詞 (verbal adjective)

分詞 (participle) は動詞と形容詞の性質をもつ不定詞である.その用法は言語間で異なり,複雑時制 (complex tense) や受身 (passives) といった迂言的な動詞形で用いられる; また,純粋な形容詞としても用いられる.

他の素性は,過去/現在分詞の区別 (英語),現在/受動分詞 (チェコ語),未完了/完了分詞 (ヒンディー語) の区別に貢献する.

Conv: 副動詞 (converb), 同時形 (transgressive), 副詞的分詞 (adverbial participle), 動詞的副詞 (verbal adverb)

副動詞は副詞的分詞や同時形 (transgreessive) とも呼ばれ,これは動詞と副詞の性質をもつ不定動詞である.副動詞はスラブ語やインド・アーリヤ諸語に生起する.

この値はUDv1ではTransと呼ばれたが,UDv2ではConvと呼称されている.

Gdv: 動詞状形容詞 (gerundive)

動詞状形容詞はラテン語や古代ギリシア語で用いられ,動名詞 (gerund) と混同しないように注意したい.

Ger: 動名詞 (gerund)

動名詞は動詞と名詞の性質を備えた不定動詞である.英語において動名詞の形式は現在分詞と同一であるため,本タグセットでは両者を区別しない.

VerbForm=Gerの使用は推奨できない.スペイン語などでは_動名詞 (gerund)_という用語が混乱を生むので,別の値を用いることを推奨する: スペイン語 (および他のロマンス諸語) では,これは現在分詞を指すのでTense=Pres|VerbForm=Partとしてラベル付けすべきである; スラブ語では副動詞 (副詞的分詞) を指すので,VerbForm=Convとしてラベル付けすべきである; また,UDv1では動詞名詞 (verbal nouns) に対して用いることが推奨されたので,UDv2ではVerbForm=Vnounを用いる.

ただし,UDv2でも素性VerbForm=Gerは利用可能であリ,他の選択肢がなければ許容される.この素性は将来のバージョンで削除されるだろうが,ともかく包括的な調査が必要である.

Vnoun: 動詞的名詞 (verbal noun, masdar)

動詞的名詞は不定詞 (infinitives) とは区別される.研究者によっては,これは”masdars”と呼ばれることがある (e.g. Haspelmath, 1995)

参考文献

edit VerbForm

VerbType: verb type

POSのレベルで既に助動詞とそれ以外を区別してきたが,タグセットによっては他の区別をさらに設定する.

Aux: 助動詞 (auxiliary verb)

周辺的な動詞形 (時制,受動など) をつくるのに用いられる.多くの言語では助動詞とそれ以外の用法とで曖昧性が存在するので,同じ動詞形がコンテクストによって異なるタグや素性が付与されることもある.

Cop: コピュラ動詞

形容詞,名詞もしくは分詞から名詞述語 (nominal predicates) をつくるのに用いられる.言語によっては,コピュラを省略したり,他の手段を用いて名詞述語をつくることがある.コピュラを有する言語においては,それは”to be”や”to become”に相当する意味を持つことが多い.

例: It is purple. He just became father.

Mod: 法動詞

法動詞 (modal verb) は,いくつかの言語の文法において伝統的に設定されてきた動詞グループである.法動詞は他の動詞不定形 (不定詞を標示する接続詞を伴う言語と,そうでない言語がある) を項にとり,その動詞に可能性や必然性といった意味を加える. 他にも不定詞を項にとる動詞が存在するが,それらは法動詞とは考えられない (e.g. 句動詞 “to begin to do something”).ある言語内で法動詞は閉じたクラスを成すため,種類を数え上げることが可能である.

いくつかの言語 (e.g. トルコ語) では,動詞を法動詞と結合させる代わりに,主動詞の特殊な形式を用いる.

ドイツ語の例:: dürfen (may), können (can), mögen (want/like to), müssen (must), sollen (shall), wollen (want to), wissen (know to)

チェコ語の例: muset (must), mít (shall, have to), moci (can), smět (may, be allowed to), umět (know to), chtít (want to)

Light: 軽動詞・補助動詞

軽動詞もしくは補助動詞は動詞-名詞構文 (verbo-nominal constructions) に用いられ,主たる意味が補部名詞から与えられる.英語の例 to take a nap, では, take が軽動詞である.軽動詞は当該の言語において普通の動詞としても機能することが多い (cf. to take two dollars). 軽動詞構文が多用されるような言語 (e.g. ヒンディー語,日本語) だったり,軽動詞としてしか用いられない動詞が存在する場合には,軽動詞専用の素性の値を設定するのが良いだろう.

日本語の例: suru (する)

edit VerbType

Voice: voice

Values: Act Antip Cau Dir Inv Mid Pass Rcp

ヴォイス・態 (voice) は,典型的には動詞 (verbs) の素性である.動名詞 (gerunds) や分詞 (participles) といった境界線上にあるような語形が動詞として分類されるか否かによって,この素性は他の品詞にも生起する (名詞 (nouns), 形容詞 (adjectives), 副詞 (adverbs)).

印欧語話者にとって,ヴォイスとは主に能動態-受動態の区別を意味する.他言語では,動詞の仄めかす意味がヴォイスとしてカテゴリ化される.

Act: 能動態 (active voice)

動詞の主語が動作主 (agent) であり,目的語は被動作主 (patient) である.

Mid: 中動態 (middle voice)

古代ギリシア語やサンスクリット語で必要となる,能動態と受動態の中間的なヴォイス.

Pass: 受動態 (passive voice)

動詞の主語は被動作主 (patient) である.動作主 (agent) は明示されないか動詞の目的語として生起する.

Examples

Antip: 逆受動態 (antipassive voice)

能格-絶対格言語 (ergative-absolutive languages) において,能格主語が絶対格に降格 (demote) する.

Dir: 順行態 (direct voice)

順行-逆行のヴォイス体系を採用する北アメリカ言語で用いられる.順行態とは,際立ちの階層 (salience hierarchy) の高い項が主語であることを指す.階層の例: 人間 1人称 – 2人称 – 3人称 – 非人間有生物 – 無生物.

Inv: 逆行態 (inverse voice)

順行-逆行のヴォイス体系を採用する北アメリカ言語で用いられる.逆行態とは,際立ちの低い項が目的語として機能することを示すヴォイス標示体系である.

Rcp: 相互態 (reciprocal voice)

Cau: 使役態 (causative voice)

METU Sabanci treebankのドキュメンテーションでは,使役形 (causative) がヴォイスの一種として分類される (p.26).これは動詞の素性であるが,名詞の原因格 (causative case) も同時に持つような言語も存在する.

edit Voice