日本語形態素解析器Senを導入する

SenJAVAで書かれた日本語形態素解析器です。

辞書を使って日本語の文章をトークナイズします。

下は「SenJAVAで書かれた日本語形態素解析器です」をSenでトークナイズした例です。

f:id:knaka20blue:20080923141617j:image

  • Solrに組み込むことで、日本語文章を意味のある単語単位にトークナイズして検索・インデキシングができるようになります。
  • これにによってNグラム方式よりも精度の高い( ノイズの少ない )検索結果を得ることができます。ただし、再現率はNグラム方式より劣ります。この辺の話はちょっとややこしいので改めて。

では、れっつインストール

ダウンロード

下からsen-1.2.2.1.zipダウンロードして解凍する。

https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expandFolder=755&folderID=0

unzip sen-1.2.2.1.zip
インストール

utf-8 で使うための設定

% cd sen-1.2.2.1/conf
%vi sen.xml
<!-- charset>euc-jp</charset -->
<charset>utf-8</charset>

% vi sen-processor.xml
<!-- charset>euc-jp</charset -->
<charset>utf-8</charset>

% cd sen-1.2.2.1/dic
% vi dictionary.properties
//sen.charset=EUC-JP
sen.charset=utf-8
注) dic.charset=EUC-JPは変更しないこと
辞書のインストール
% cd sen-1.2.2.1/dic
% ant
ここでインストールされる辞書は ipadic-2.6.0 なのですが、ipadic-2.7.0が既に出ているので新し物好きな人は build.xml を修正すると幸せになれると思います。

最近はNAIST-jdicの人気も高いのでこちらをつかうのもオサレです。

インストール
% mv sen-1.2.2.1/ $HOME/local

動作確認
環境変数の設定

% vi ~/.cshrc
setenv SEN_HOME $HOME/local/sen-1.2.2.1
setenv CLASSPATH $SEN_HOME/lib/sen.jar:$CLASSPATH
bashの人は適当に読み替えてください。

動作確認

% sh $HOME/local/sen-1.2.2.1/bin/sen.sh
適当な日本語を入れてトークナイズされればおk
すもももももももものうち」 がお約束です。

f:id:knaka20blue:20080923144658j:image

ではでは

[Solr][Sen] 日本語形態素解析Senを導入する その1 Senインストール

[Solr][Sen] 日本語形態素解析器Senを導入する その2 lucene-jaのインストール

[Solr][Sen] 日本語形態素解析器Senを導入する その3 インデキシングする

[Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム

[Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析

[Solr][Sen] 日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう


原文先: http://d.hatena.ne.jp/knaka20blue/20080922/1222104683

0 コメント:

コメントを投稿