というのを教えていただいた。
http://prairie.lang.nagoya-u.ac.jp/chakoshipub.html
『茶漉』について
『茶漉』はコーパスから用例およびコロケーション情報を抽出するシステムである。以下に特長を挙げる。CGI(ブラウザ環境内で使えるプログラム)の形式をとっているため操作が簡便でわかりやすい
かなり複雑な条件を設定することでデータを絞り込むことができる
語形に加えて品詞情報の指定も可
処理時間は検索条件設定によって異るが、ほぼリアルタイムで会話的に検索ができる
『茶漉』用に処理さえすればどんなコーパスでも検索対象にできる
このシステムは、「日本語学習辞書編纂に向けた電子化コーパス利用によるコロケーション研究」(代表者:名古屋大学国際言語文化研究科日本言語文化専攻教授 大曽美恵子)というタイトルの科学研究費補助金によるプロジェクトの一環として開発されたものである。システム設計・開発には深田淳があたり、名古屋大学国際言語文化研究科日本言語文化専攻の大学院生、寺島啓子氏、寺島佳子氏、萩原由貴子氏の協力を得た。開発はLinux上でC言語(gcc)を用いて行われた。『茶漉』という名称の由来は以下の通りである。当システムは、コーパスを検索可能なデータファイルに変換する段階で形態素解析システム『茶筌』(奈良先端科学技術大学院大学自然言語処理学講座開発による)を用いる。茶筌を用いて立てたお茶(データ)から必要な情報のみを漉し取って取り出すシステムということで『茶漉』とした。
コーパスファイルについて
現在一般公開が可能なコーパスファイルは「青空文庫」から抜粋した小説のコーパスのみである。科研プロジェクトチームが使用可能なコーパスのリストは以下の通り。講談社ブックス
CASTEL/Jプロジェクトで作成されたコーパス。講談社ブルーバックス、白書、学校教科書などが含まれている。
寅さんシナリオ
CASTEL/Jプロジェクトで作成されたコーパス。松竹映画『男はつらいよ』シリーズのシナリオ集。
青空文庫(小説集)
「青空文庫」(http://www.aozora.co.jp)
毎日新聞(1991年〜1999年)
毎日新聞の全記事を一年ごとにファイルにまとめたもの。現在九年分が使用可能。
コーパスについては、基本的にどんなテキストファイルでも『茶筌』で処理をして、さらに数種類のプログラムで処理を施せば、『茶漉』で検索が可能になる。従って、日本語コーパスが増えれば増えるほど、『茶漉』の有用性は増すことになる。