東京大学大学院総合文化研究科

言語情報科学専攻

Language and Information Sciences, University of Tokyo

東京大学大学院総合文化研究科

言語情報科学専攻

〒153-8902 東京都目黒区駒場3-8-1

TEL: 03-5454-6376

FAX: 03-5454-4329

言語情報処理Ⅰ[学際言語科学コース](コーパス分析を用いた言語研究)

  • 科目コード:08C1516
  • 開講学期: 夏
  • 曜限:金曜4限
  • 教室:18号館 言語情報解析室
  • 単位数: 2.0
  • 担当教員: 幸田 薫

授業の目標・概要

 コンピュータで言語コーパス(電子テクスト)を分析する基本的な技術を身につけるとともに、言語の研究においてコーパス分析が有用であるテーマを設定できるようになることが目標。さまざまなコーパスの紹介と既存・自作プログラム(Perl言語が中心)による分析を行う。

授業のキーワード

  • コーパス分析
  • 検索
  • 正規表現
  • 共起語分析(コロケーション分析)
  • 形態素解析ソフト
  • 構文(統語)解析ソフト
  • 統計
  • corpus analysis
  • search
  • regular expression
  • collocation analysis
  • software for morphological analysis
  • software for syntactical analysis
  • statistics

授業計画

 具体的には、webの検索を手始めに、コーパスの取得と作成、既存ソフトと自作ソフトによる分析などを行う。自作ソフトについては、perl言語によって簡単なプログラムを自ら作成できることを目指す。後半は、参加者が何をどうすれば面白い結果が出せるかを発案・発表しながら進めたい。

授業の方法

 授業は、18号館1階の言語情報解析室のunix端末を使って行う。実習形式が中心となるが、各回の最初には講義形式も含まれる。

成績評価方法

 授業中の発表および期末レポートによる(授業では日本語と英語を中心に扱うがレポートでは他の言語を扱うことも可能である)。

教科書

特になし。

参考書

『コーパス言語研究--Perlに よる言語情報処理の方法と実践』(幸田薫、私家版、授業で配布する)。他の参考書は、この冊子に記載してある。