東京大学大学院総合文化研究科

言語情報科学専攻

Language and Information Sciences, University of Tokyo

東京大学大学院総合文化研究科

言語情報科学専攻

〒153-8902 東京都目黒区駒場3-8-1

TEL: 03-5454-6376

FAX: 03-5454-4329

言語情報分析実習II(コーパス分析を用いた言語研究)

  • 科目コード: 0824004
  • 開講学期: 夏
  • 曜限: 水曜3限
  • 教室: 18号館1F情報解析室
  • 単位数: 2.0
  • 担当教員: 幸田 薫

授業の目標・概要

語や表現を検索・集計する基本的技術と、それを言語研究において利用する方法を習得することを目標とする。最終的には、具体的な分析を発案し簡単な自作スクリプトを利用してレポートにまとめることが求められる。

授業のキーワード

  • インターネット
  • エディター
  • 演算子
  • カイ二乗検定
  • 関数
  • 共起語分析(コロケーション分析)
  • 共語分析
  • 近接語分析
  • 形態素解析ソフト
  • 言語情報処理
  • 検索
  • 構文(統語)解析ソフト
  • 関数
  • コーパス分析
  • コーパス言語学
  • コンコーダンス
  • スカラー
  • スクリプト言語
  • 相関
  • 正規表現
  • 置換
  • 茶筅
  • 統計
  • トークン
  • 配列
  • ハッシュ
  • 変数
  • レンマ

授業計画

  1. コーパス、コーパス分析とは
  2. エディター、検索エンジン、既存ソフト、Linuxコマンドを用いた検索
  3. スクリプト言語を用いた単純な検索
  4. 語彙の出現形での頻度集計
  5. 文の分析
  6. 共起語分析、近接語分析
  7. コーパスの収集
  8. chasen、tree-taggerによるタグ付けコーパスの作成
  9. スクリプト言語を用いた複雑な検索
  10. 統計的処理
  11. 具体的分析(1)
  12. 具体的分析(2)
  13. 発表(1)
  14. 発表(2)
  15. 発表(3)

授業の方法

言語情報解析室の端末を用いて演習形式で行う。履修者の好みにより、LinuxまたはMS-windowsが選択できる。毎回、コンピュータ上で作業を行い、簡単なスクリプトを書けるようになることが要求される。

成績評価方法

授業への参加と期末レポートによる。

教科書

なし。

参考書

授業で指示する。

履修上の注意

コンピュータを使うことが嫌いでは履修が難しい。