シソーラス

November 26 [Fri], 2010, 1:55
シソーラスとは、概念辞書・類語辞典などのことである。


なんじゃそら。



一般的な辞書は、その読み方をあいうえお順に記している。

これに対しシソーラス(概念辞書)は、単語の上位下位、類義反義などによって分類し、体型化したものである。


どんなものがあるか



一般的な辞書であれば、大辞林や広辞苑など。

シソーラスであれば、WordNetなどがある。

また、研究レベルではWikipediaベースでシソーラスを構築する、というものなどもある。


便利なの?



これらはデータベースとして公開されているため、それらを用いてコンピュータでアクセスすることができる。

そのため、自動での自然言語処理を行うことができる。

つまり、研究にめっちゃつかえるw

MeCab

February 06 [Sat], 2010, 23:22
形態素解析第二弾です。

今度は日本語の形態素解析器MeCabのご紹介。

形態素解析とは、日本語文書を機械的に品詞分解する技術のことです。

ま、細かい説明は以前書いたのでおいといて・・・w


1.Mecabのインストール

MeCabのWindows用インストーラパッケージ
http://sourceforge.net/projects/mecab/files/

ここ以外にもちろんUnix用なんかもあります。その場合が自分でビルドすることになりますが^^;
ちなみにJavaやPerlからも利用できるようなものも準備されています。


2.つかいかた

exeファイル実行w


3.実行

こんな文章を入れてみました。

エレベータがなめらかに移動する。

するとこんな出力が出てきました。

エレベータがなめらかに移動する。
エレベータ 名詞,一般,*,*,*,*,エレベータ,エレベータ,エレベータ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
なめらか 名詞,形容動詞語幹,*,*,*,*,なめらか,ナメラカ,ナメラカ
に 助詞,副詞化,*,*,*,*,に,ニ,ニ
移動 名詞,サ変接続,*,*,*,*,移動,イドウ,イドー
する 動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
。 記号,句点,*,*,*,*,。,。,。


おー、これはすごいwつかえそうだw

・・・でもまてよ?
なめらかって名詞だっけ?w

というわけで調査してみたところ、
「なめらか」は学校で習う文法的には形容動詞だそう。
でも、形容動詞って独立の品詞として認めるかどうか
っていう根本的な部分が議論されているらしく、
たとえば広辞苑には形容動詞っていうものはないとか。
つまり、MeCabも広辞苑的立場を取っていて、
形容動詞を独立の品詞と見ないんだねー。

ふむふむ、なんていうか、日本語の勉強になってしまったw

LingPipe

November 28 [Sat], 2009, 11:02
いま勉強中のツール。
その名もLingPipe

どんなツールかというと、英語の形態素解析をしてくれるというもの。
そして、Javaのライブラリをもっているらしい。
形態素解析はコンピュータで自然言語処理をする技術のことで、
検索エンジンとかでも使われてるとかなんとか?よくしりませんがw
Javaはいわずとしれたプログラミング言語。
つまりLingPipeを使って形態素解析できるプログラムを簡単に書けるってことですなー。


そんなLingPipeの自己満的まとめ。

1.ダウンロード
ダウンロードは以下のサイトからできる。
http://alias-i.com/lingpipe/
左のメニューバーの中にある、Downloadのボックスにあるlingpipe coreというところをクリック
そうすると英語で書かれた謎の表がでてくるので、その一番左の列Royalty FreeのとこのDownload
をクリック。

2.つかいかた
tarファイルでダウンロードできているので、それを適当なフォルダに解凍。
すると、もう使えますw

3.実行
解凍して作成したフォルダ\demos\generic\bin\test.batをクリック。
をー、よくわかんないけどなんか動いたw


test.batで入力してるテキスト
John Smith lives in Washington. He likes it there.

実行結果一部

John
Smith
lives
in
Washington
.

He
likes
it
there
.



これがxmlで出力されます。


・・・



なるほどwなんかすごいww
プロフィール
  • アイコン画像 ニックネーム:melb
読者になる
Yapme!一覧
読者になる




P R