Index
アノテーションデータ
概要
国立国語研究所のアノテーションプロジェクトの成果物を公開するWebページです。
-
第4期:国立国語研究所プロジェクト「アノテーションデータを用いた実証的計算心理言語学」(R4(2022)年4月~R10(2028年3月) (4500千円/年)
-
第3期:国立国語研究所コーパス基礎研究プロジェクト「コーパスアノテーションの拡張・包括・自動化に関する基礎研究」(H28(2016)年4月~R4(2022年3月) (1500千円/年)
-
第2期:国立国語研究所基幹型共同研究プロジェクト「コーパスアノテーションの基礎研究」(H21(2009)年10月~H27(2015)年9月)
プロジェクト期間外に作成されたデータもこちらに掲載します
第4期アノテーションプロジェクト成果物
統語班(企業との共同研究も含む)
- https://universaldependencies.org/
- UD Japanese
- UD_Japanese-GSDPUD-CaboCha
- CEJC-DEP (2023/01/01 公開)
- 尾崎太亮・臼井久生・古宮嘉那子・浅原正幸・小木曽智信「日本語 Universal Dependencies の通時的転移可能性について」NLP2024 (2024)
-
赤間怜奈・浅原正幸・若狭絢・大村舞・鈴木潤「日本語日常対話コーパスへの基礎解析アノテーション」NLP2024(2024)
- 日本経済新聞記事オープンコーパス (2023/03/13 公開)
- プレスリリース (2023/03/13)
- 『現代語の助詞・助動詞』分類語彙表番号付与版 (2022/10/25 公開)
- 『形容詞の意味・用法の記述的研究』データベース版 (2022/10/25 公開)
-
『動詞の意味・用法の記述的研究』データベース版 (2022/10/25 公開)
- ChaKi.NET (OSDN から github に移設) (2023/09/12 移設)
リクルート社
- spaCy
- GiNZA
- blog (2020/08/17) プレスリリースを含む
- UD Japanese CEJC+GSD transfomers-based spaCy model (2023/03/24)
LegalOn社 (2021-2023)
ワークスアプリケーションズ社
意味班
- 分類語彙表の紹介
- 初版 pdf
- 増補改訂版 pdf
- (2022/08/06開催 第44回NINJALチュートリアル演習資料) (2022/11/01 公開)
- Cradle(分類語彙表)
- 関連データ
- アノテーション
- 『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号アノテーション
- BCCWJ-WLSP (2019/09/17 公開)
- BCCWJ-WLSP-AUX-OT (2023/10/05 公開)
- BCCWJ-WLSP-AUX-OT 『中納言』ダウンロードサイトから形態論情報つきデータが得られます
- 『現代日本語書き言葉均衡コーパス』分類語彙表番号自動解析済みデータdoi
- BCCWJ-WSD-frequency (2024/01/12 公開)
- 浅田宗磨・古宮嘉那子・浅原正幸「『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号悉皆付与」NLP2024 (2024)
- 自動解析済みデータ BCCWJ-WSD (version 202403) (2024/03/05) を中納言ダウンロードサーバより公開
- BCCWJ-WSD-PNmeta-frequency (2024/03/07) を中納言ダウンロードサーバより公開
- 『日本語歴史コーパス』に対する分類語彙表番号アノテーション
- 浅原ほか (2023) 『日本語歴史コーパス』に対する分類語彙表番号アノテーションとその利用, 日本語の研究
- 『日本語日常会話コーパス』分類語彙表番号自動解析済みデータ doi
- CEJC-WSD-frequency (2024/02/08 公開)
- 自動解析済みデータ CEJC-WSD (version 202403) (2024/03/05) を中納言ダウンロードサーバより公開
- 『中国語・韓国語母語の日本語学習者縦断発話コーパス』(C-JAS) 分類語彙表番号自動解析済みデータ (version 202406) (2024/06/20 公開)
- 中納言ダウンロードサーバより公開
- 『多言語母語の日本語学習者横断コーパス』(I-JAS) 分類語彙表番号自動解析済みデータ (version 202406) (2024/06/20 公開)
- 中納言ダウンロードサーバより公開
- 加藤祥・浅原正幸「『日本経済新聞記事オープンコーパス』に対するメタデータと語義情報付与」NLP2024 (2024)
- 『現代日本語書き言葉均衡コーパス』に基づく指標比喩データベース
- BCCWJ-Simile 『中納言』ダウンロードサイトから得てください。
- 加藤祥・菊地礼・浅原正幸 「『現代日本語書き言葉均衡コーパス』に基づく指標比喩データベース」27(4) (2021)
- Sachi Kato, Rei Kikuchi, Masayuki Asahara, “Figurative Expression Information Database on `Balanced Corpus of Contemporary Written Japanese’”, 15th Researching and Applying Metaphor Conference (2022/09/21-24)
- 『比喩表現の理論と分類』データベース版 (2022/10/25 公開)
- 加藤祥・浅原正幸「比喩指標の収集と喩辞と被喩辞の同一性否定の観点による分類」 認知科学
- BCCWJ-TimeBank (version 3.0.0) (2023/10/29) 中納言ダウンロードサーバより公開
- 『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号アノテーション
認知班
- 『現代日本語書き言葉均衡コーパス』に対する読み時間データ (2022/10/15 公開)
- 機能表現辞書「つつじ」に対する単語親密度情報 (TSUTSUJI-familiarity) (2024/02/11 Version 2.0.0 公開)
- 漢字親密度情報 (KANJI-familiarity) (2024/02/11 Version 1.0.0 公開)
- 『現代日本語書き言葉均衡コーパス』に対する印象評定情報付与
- 『日本経済新聞記事オープンコーパス』に対する言語受容情報収集
- 認知実験用サーバ(2023年度運用開始)
- WLSP-familiarity Version 4.0 (2024/06/30 公開)
その他
学会関連
- NAACL-2024 Resources and Evaluation Senior Area Chair
- The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), Program Comittee member
- 1st International Workshop on Ancient Language Processing (ALP) at RANLP, Program Comittee member
- LREC-2022 Corpora and Annotation Area Chair
- AACL-IJCNLP 2022 Resources and Evaluation Senior Area Chair
- 言語処理学会論文誌副編集長
- 『許容される二次投稿』JNLP 29(3) (2022) (2022/09/15 公開)
- 言語処理分野において、年次大会・国際会議・論文誌に投稿する際の注意点をまとめたもの。
- 言語処理学会論文誌「自然言語処理」における剽窃検知ツールの導入 - 言語処理学会論文誌「自然言語処理」の査読において剽窃検知ツールを導入するとともに、「自然言語処理」全巻号全記事を Similarity Check Database に登録した。(2022/12/25)
- 『許容される二次投稿』JNLP 29(3) (2022) (2022/09/15 公開)
国語研日本語ウェブコーパス
- 『国語研日本語ウェブコーパス』中納言搭載データ語彙表 (2022/10/25 公開)
イベント
- Evidence-based Linguistics Workshop
- 「日本語における評価用データセットの構築と利用性の向上」
- 日本語における評価用データセットの構築と利用性の向上 (JED2022) (2022/03/18)
- 「日本語における評価用データセットの構築と利用性の向上」分科会 (2022/09/07)
- 日本語言語資源の構築と利用性の向上 (JLR2023) (2023/03/17)
- 日本語言語資源の構築と利用性の向上 (JLR2024) (2024/03/15)
- 言語学フェス
- 言語学フェス2023 (2023/01/28)
- 言語学フェス2024 (2024/01/20)
科研費:文体分析を目的としたコーパスの文書情報拡張及びその利用 (2018-2022)
- BCCWJ-NDC (2020/04/10 version 1.0 リリース)
- BCCWJ-PB9X3meta (2023/09/03 version 1.0 リリース)
- BCCWJ-PNmeta (2023/08/24 version 2.0 リリース)
SB Intuitions社(LINE 社) 共同研究 (2022-)
- 日本語有害表現スキーマの提案と評価 NLP2023 小林様ほか (2023/03/13-2023/03/17)
- 語彙と品質を考慮したデータ水増しの言語教育支援への適用 NLP2023 中町様ほか (2023/03/13-2023/03/17)
- Japanese Real Toxicity Prompts: 日本語大規模言語モデルの有害性調査 SIGNL258/SIGSLP149 小林様ほか (2023/12/02-04)
ホンダリサーチインスティチュート 共同研究 (2022,2023)
- Double cross model による位置情報フレームアノテーション NLP2023 (2023/03/13-2023/03/17)
- Spatial Information Annotation Based on the Double Cross Model PACLIC 37 (2023) (2023/12/01-2023/12/03)
- 地図を刺激に用いた位置情報参照表現データベース (HRI-JP-LIRE-DB) (2024/03/04 公開)
- 地図を刺激に用いた経路情報参照表現データベース (HRI-JP-RIRE-DB) (2024/03/04 公開)
第3期アノテーションプロジェクト成果物
音声班
統語班
- https://universaldependencies.org/
- UD Japanese
- Universal Dependencies ドキュメント(日本語版)
- UD_Japanese-GSDPUD-CaboCha
- spaCy
- GiNZA
- 論文
- 『現代語の助詞・助動詞』データベース版 (2022/03/08 公開)
意味班
- 分類語彙表の紹介
- Cradle(分類語彙表)
- 分類語彙表増補改訂版データベース
- 関連データ
- アノテーション
第2期アノテーションプロジェクト成果物
サンプルデータの公開について
BCCWJ のサンプルデータは、原著者に著作権があり DVD を購入していない方への再配布はできません。 しかし、以下のサンプルにつきましては、著作権フリーマークが付与されており、再配布が可能です。
- OW6X_00000 (コアデータ)
- OW6X_00027
- OW6X_00165
- OW6X_00657
アノテーション順序(BCCWJ)
BCCWJコアデータサンプルのアノテーション優先順序です。BCCWJコアデータにアノテーションを行う際には、この優先順位に基づいてサンプルを選択することをおすすめします。
サンプルに対する文体指標
書籍サンプルのNDC情報増補
加藤 祥・森山 奈々美・浅原 正幸 (2019) 「『現代日本語書き言葉均衡コーパス』書籍サンプルのNDC情報増補」『言語資源活用ワークショップ2019 発表論文集』, pp.155-160
BCCWJの小説会話文に対する話者情報アノテーションデータ
- BCCWJ-SpeakersInfo 『中納言』ダウンロードサイトから得てください。
れる・られる用法アノテーション
- BCCWJ_AUX-1.0.0.zip 『中納言』ダウンロードサイトから得てください。
小山田由紀・柏野和佳子・前川喜久雄 (2012).「助動詞レル・ラレルへの意味アノテーション作業経過報告」 第 2 回コーパス日本語学ワークショップ予稿集.p.p.59-68.
助動詞用法アノテーション
れる・られる以外の助動詞の用法アノテーションデータです。
- BCCWJ-WLSP に同梱されています。
加藤 祥・浅原 正幸・山崎 誠 (2019) 「『現代日本語書き言葉均衡コーパス』新聞・書籍・雑誌データの助動詞に対する用法情報付与」『日本語学会2019年度春季大会』, pp. 169-174.
分類語彙表番号アノテーション
加藤 祥・浅原 正幸・山崎 誠 (2019) 「分類語彙表番号を付与した『現代日本語書き言葉均衡コーパス』の書籍・新聞・雑誌データ」 『日本語の研究』 vol. 15, No. 2, pp. 134-141.
単語係り受けアノテーション
京都大学の単語係り受けアノテーション(Universal Dependencies とは異なります)
- 京都大学のページ リンク切れ
単語係り受けアノテーション (Universal Dependencies)
Universal Dependencies に基づく日本語単語係り受けアノテーション
- UD Japanese-BCCWJ
- UD Japanese-GSD
- UD Japanese-GSD (Megagon Labs 版)
- UD Japanese-PUD
- UD Japanese-PUD (Megagon Labs 版)
- UD Japanese-Modern
- UD Japanese-KTC
浅原正幸・金山博・宮尾祐介・田中貴秋・大村舞・村脇有吾・松本裕治 (2019), Universal Dependencies 日本語コーパス, 『自然言語処理』, vol. 26, no. 1, pp.3-36. https://doi.org/10.5715/jnlp.26.3
関連パーザ
文節係り受け・並列構造アノテーション (deppara)
浅原 正幸・松本 裕治 (2018),『現代日本語書き言葉均衡コーパス』に対する文節係り受け・並列構造アノテーション, 『自然言語処理』, 25巻4号, pp.331-356, https://doi.org/10.5715/jnlp.25.331
松田 寛・若狭 絢・山下 華代・大村 舞・浅原 正幸 (2020), 「UD Japanese GSD の再整備と固有表現情報付与」, 言語処理学会第26回年次大会, p.133-136.
時間情報・時間的順序関係アノテーション (BCCWJ-TimeBank)
- BCCWJ-TimeBank
日本語フレームネットアノテーション (jfn)
述語項構造シソーラスアノテーション
- BCCWJ-PT 『中納言』ダウンロードサイトから得てください。
述語項構造アノテーション
植田禎子ほか. “『現代日本語書き言葉均衡コーパス』に対する述語項構造・アノテーション.” 第8回コーパス日本語学ワークショップ予稿集 (2015): 205-214. https://www.ninjal.ac.jp/event/specialists/project-meeting/files/JCLWorkshop_no8_papers/JCLWorkshop_No.8_24.pdf
浅原正幸,大村舞.”BCCWJ-DepParaPAS:『現代日本語書き言葉均衡コーパス』係り受け・並列構造と述語項構造・共参照アノテーションの重ね合わせと可視化” 言語処理学会第22回年次大会発表論文集 (2016): 489–492. http://www.anlp.jp/proceedings/annual_meeting/2016/pdf_dir/P12-2.pdf
節境界アノテーション
節境界アノテーション(意味情報付き)
- BCCWJ-ToriClause 『中納言』ダウンロードサイトから得てください。
Satomi Matsumoto, Masayuki Asahara, Setsuko Arita (2018), Japanese clause classification annotation on the ‘Balanced Corpus of Contemporary Written Japanese’, The 13th Workshop on Asian Language Resources, http://lrec-conf.org/workshops/lrec2018/W29/pdf/4_W29.pdf
BCCWJ 名詞述語文アノテーションデータ
- BCCWJ-COP 『中納言』ダウンロードサイトから得てください。
読み時間情報
浅原正幸・小野創・宮本エジソン正 (2019),BCCWJ-EyeTrack –『現代日本語書き言葉均衡コーパス』に対する読み時間付与とその分析–, 言語研究, 156巻, pp.67-96. https://doi.org/10.11435/gengo.156.0_67
拡張固有表現アノテーション
- GSK2014-A 拡張固有表現タグ付きコーパス 言語資源協会の配布ページ
拡張モダリティアノテーション
- BCCWJ-EME 『中納言』ダウンロードサイトから得てください。
松吉 俊, 江口 萌, 佐尾 ちとせ, 村上 浩司, 乾 健太郎, 松本 裕治. テキスト情報分析のための判断情報アノテーション. 電子情報通信学会論文誌D, Vol. J93-D, No. 6, pp. 705-713, 2010.
否定の焦点情報アノテーション
- BCCWJ-NEG 『中納言』ダウンロードサイトから得てください。
松吉 俊. 否定の焦点情報アノテーション. 自然言語処理, Vol. 21, No. 2, pp. 249-270, 2014. https://www.jstage.jst.go.jp/article/jnlp/21/2/21_249/_pdf
情報構造アノテーション
宮内拓也・浅原正幸・中川奈津子・加藤祥 (2018) 「『現代日本語書き言葉均衡コーパス』への情報構造アノテーションとその分析」 『国立国語研究所論集』 第16号, pp. 19-33. https://doi.org/10.15084/00001606
Takuya Miyauchi, Masayuki Asahara, Natsuko Nakagawa, Sachi Kato (2017), Information-Structure Annotation for the “Balanced Corpus of Contemporary Written Japanese”. In: Hasida K., Pa W. (eds) Computational Linguistics. PACLING 2017. Communications in Computer and Information Science, vol 781. Springer, Singapore, https://doi.org/10.1007/978-981-10-8438-6_13
翻訳データ
- BCCWJ-Trans 『中納言』ダウンロードサイトから得てください。
要約データ
- BCCWJ-SUMM 『中納言』ダウンロードサイトから得てください。
浅原正幸,杉真緒,柳野祥子. “BCCWJ-SUMM:『現代日本語書き言葉均衡コーパス』を元文書とした要約文書コーパス.” 第7回コーパス日本語学ワークショップ予稿集 (2015): 285-292.