ポドや: 日本語形態素解析器Senを導入する

Sen はJAVAで書かれた日本語形態素解析器です。

辞書を使って日本語の文章をトークナイズします。

下は「Sen はJAVAで書かれた日本語形態素解析器です」をSenでトークナイズした例です。

Solrに組み込むことで、日本語文章を意味のある単語単位にトークナイズして検索・インデキシングができるようになります。

これにによってNグラム方式よりも精度の高い( ノイズの少ない )検索結果を得ることができます。ただし、再現率はNグラム方式より劣ります。この辺の話はちょっとややこしいので改めて。

Sen を Solr に組み込むためには別途 lucene-ja も必要になります。lucene-jaはSen のラッパーとして動いて、Sen と Solr の間の橋渡しをするものです。 lucene-ja のインストールは次の記事で書く予定です。

ここでは文字コードをutf-8で統一しているため、デフォルトでeuc-jpになっているSen や ipadic( 辞書 )をutf-8で使う方法も合わせて記述します。

では、れっつインストール。

ダウンロード

下からsen-1.2.2.1.zipをダウンロードして解凍する。

https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expandFolder=755&folderID=0

unzip sen-1.2.2.1.zip

インストール

utf-8 で使うための設定

% cd sen-1.2.2.1/conf
%vi sen.xml
<!-- charset>euc-jp</charset -->
<charset>utf-8</charset>
 
% vi sen-processor.xml
<!-- charset>euc-jp</charset -->
<charset>utf-8</charset>

% cd sen-1.2.2.1/dic
% vi dictionary.properties
//sen.charset=EUC-JP
sen.charset=utf-8
注) dic.charset=EUC-JPは変更しないこと

辞書のインストール

% cd sen-1.2.2.1/dic
% ant

ここでインストールされる辞書は ipadic-2.6.0 なのですが、ipadic-2.7.0が既に出ているので新し物好きな人は build.xml を修正すると幸せになれると思います。

最近はNAIST-jdicの人気も高いのでこちらをつかうのもオサレです。

インストール

% mv sen-1.2.2.1/ ＄HOME/local

動作確認

環境変数の設定

% vi ~/.cshrc
setenv SEN_HOME ＄HOME/local/sen-1.2.2.1
setenv CLASSPATH $SEN_HOME/lib/sen.jar:$CLASSPATH

bashの人は適当に読み替えてください。

動作確認

% sh $HOME/local/sen-1.2.2.1/bin/sen.sh
適当な日本語を入れてトークナイズされればおｋ。
「すもももももももものうち」　がお約束です。

ではでは

[Solr][Sen] 日本語形態素解析器Senを導入するその1 Senのインストール

[Solr][Sen] 日本語形態素解析器Senを導入するその2 lucene-jaのインストール

[Solr][Sen] 日本語形態素解析器Senを導入するその3 インデキシングする

[Solr][Sen] 日本語形態素解析器Senを導入するその4 再現率が高いNグラム

[Solr][Sen] 日本語形態素解析器Senを導入するその5 精度なら形態素解析

[Solr][Sen] 日本語形態素解析器Senを導入するその6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう

原文先： http://d.hatena.ne.jp/knaka20blue/20080922/1222104683

ポドや

日本語形態素解析器Senを導入する

ダウンロード

0 コメント:

コメントを投稿

About this blog

Blog Archive

Labels

Recent Post

Recent Comments

Flickr Photostream