NINJAL2(2009-2015)

「コーパスアノテーションの基礎研究」 : Basic Research on Corpus Annotation

概要

国立国語研究所基幹型共同研究プロジェクト「コーパスアノテーションの基礎研究」(H21(2009)年10月~H27(2015)年9月) の成果物を公開するWebページです。

成果物はアノテーションデータ・論文・ドキュメントからなります。 プロジェクト成果物一覧

プロジェクト期間外に作成されたデータもこちらに掲載します


サンプルデータの公開について

BCCWJ のサンプルデータは、原著者に著作権があり DVD を購入していない方への再配布はできません。 しかし、以下のサンプルにつきましては、著作権フリーマークが付与されており、再配布が可能です。

  • OW6X_00000 (コアデータ)
  • OW6X_00027
  • OW6X_00165
  • OW6X_00657

アノテーション順序(BCCWJ)

BCCWJコアデータサンプルのアノテーション優先順序です。BCCWJコアデータにアノテーションを行う際には、この優先順位に基づいてサンプルを選択することをおすすめします。


サンプルに対する文体指標


書籍サンプルのNDC情報増補

加藤 祥・森山 奈々美・浅原 正幸 (2019) 「『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC情報増補」『言語資源活用ワークショップ2019 発表論文集』, pp.155-160


BCCWJの小説会話文に対する話者情報アノテーションデータ


れる・られる用法アノテーション

小山田由紀・柏野和佳子・前川喜久雄 (2012).「助動詞レル・ラレルへの意味アノテーション作業経過報告」 第 2 回コーパス日本語学ワークショップ予稿集.p.p.59-68.


助動詞用法アノテーション

れる・られる以外の助動詞の用法アノテーションデータです。

加藤 祥・浅原 正幸・山崎 誠 (2019) 「『現代日本語書き言葉均衡コーパス』新聞・書籍・雑誌データの助動詞に対する用法情報付与」『日本語学会2019年度春季大会』, pp. 169-174.


分類語彙表番号アノテーション

加藤 祥・浅原 正幸・山崎 誠 (2019) 「分類語彙表番号を付与した『現代日本語書き言葉均衡コーパス』の書籍・新聞・雑誌データ」 『日本語の研究』 vol. 15, No. 2, pp. 134-141.


単語係り受けアノテーション

京都大学の単語係り受けアノテーション(Universal Dependencies とは異なります)


単語係り受けアノテーション (Universal Dependencies)

Universal Dependencies に基づく日本語単語係り受けアノテーション

浅原正幸・金山博・宮尾祐介・田中貴秋・大村舞・村脇有吾・松本裕治 (2019), Universal Dependencies 日本語コーパス, 『自然言語処理』, vol. 26, no. 1, pp.3-36. https://doi.org/10.5715/jnlp.26.3

関連パーザ


文節係り受け・並列構造アノテーション (deppara)

浅原 正幸・松本 裕治 (2018),『現代日本語書き言葉均衡コーパス』に対する文節係り受け・並列構造アノテーション, 『自然言語処理』, 25巻4号, pp.331-356, https://doi.org/10.5715/jnlp.25.331

松田 寛・若狭 絢・山下 華代・大村 舞・浅原 正幸 (2020), 「UD Japanese GSD の再整備と固有表現情報付与」, 言語処理学会第26回年次大会, p.133-136.


時間情報・時間的順序関係アノテーション (BCCWJ-TimeBank)

  • BCCWJ-TimeBank

日本語フレームネットアノテーション (jfn)


述語項構造シソーラスアノテーション


述語項構造アノテーション

植田禎子ほか. “『現代日本語書き言葉均衡コーパス』に対する述語項構造・アノテーション.” 第8回コーパス日本語学ワークショップ予稿集 (2015): 205-214. https://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no8_papers/JCLWorkshop_No.8_24.pdf

浅原正幸,大村舞.”BCCWJ-DepParaPAS:『現代日本語書き言葉均衡コーパス』係り受け・並列構造と述語項構造・共参照アノテーションの重ね合わせと可視化” 言語処理学会第22回年次大会発表論文集 (2016): 489–492. http://www.anlp.jp/proceedings/annual_meeting/2016/pdf_dir/P12-2.pdf


節境界アノテーション


節境界アノテーション(意味情報付き)

Satomi Matsumoto, Masayuki Asahara, Setsuko Arita (2018), Japanese clause classification annotation on the ‘Balanced Corpus of Contemporary Written Japanese’, The 13th Workshop on Asian Language Resources, http://lrec-conf.org/workshops/lrec2018/W29/pdf/4_W29.pdf


BCCWJ 名詞述語文アノテーションデータ


読み時間情報

浅原正幸・小野創・宮本エジソン正 (2019),BCCWJ-EyeTrack –『現代日本語書き言葉均衡コーパス』に対する読み時間付与とその分析–, 言語研究, 156巻, pp.67-96. https://doi.org/10.11435/gengo.156.0_67


拡張固有表現アノテーション


拡張モダリティアノテーション

松吉 俊, 江口 萌, 佐尾 ちとせ, 村上 浩司, 乾 健太郎, 松本 裕治. テキスト情報分析のための判断情報アノテーション. 電子情報通信学会論文誌D, Vol. J93-D, No. 6, pp. 705-713, 2010.


否定の焦点情報アノテーション

松吉 俊. 否定の焦点情報アノテーション. 自然言語処理, Vol. 21, No. 2, pp. 249-270, 2014. https://www.jstage.jst.go.jp/article/jnlp/21/2/21_249/_pdf


情報構造アノテーション

宮内拓也・浅原正幸・中川奈津子・加藤祥 (2018) 「『現代日本語書き言葉均衡コーパス』への情報構造アノテーションとその分析」 『国立国語研究所論集』 第16号, pp. 19-33. https://doi.org/10.15084/00001606

Takuya Miyauchi, Masayuki Asahara, Natsuko Nakagawa, Sachi Kato (2017), Information-Structure Annotation for the “Balanced Corpus of Contemporary Written Japanese”. In: Hasida K., Pa W. (eds) Computational Linguistics. PACLING 2017. Communications in Computer and Information Science, vol 781. Springer, Singapore, https://doi.org/10.1007/978-981-10-8438-6_13


翻訳データ


要約データ

浅原正幸,杉真緒,柳野祥子. “BCCWJ-SUMM:『現代日本語書き言葉均衡コーパス』を元文書とした要約文書コーパス.” 第7回コーパス日本語学ワークショップ予稿集 (2015): 285-292.


国立国語研究所基幹型共同研究プロジェクト「コーパスアノテーションの基礎研究」(H21(2009)年10月~H27(2015)年9月) の成果物一覧