投稿者
Aquaeyes
コメント (0)
辞書を使って日本語の文章をトークナイズします。
下は「Sen はJAVAで書かれた日本語形態素解析器です」をSenでトークナイズした例です。
- Sen を Solr に組み込むためには別途 lucene-ja も必要になります。lucene-jaはSen のラッパーとして動いて、Sen と Solr の間の橋渡しをするものです。 lucene-ja のインストールは次の記事で書く予定です。
では、れっつインストール。
ダウンロード
下からsen-1.2.2.1.zipをダウンロードして解凍する。
https://sen.dev.java.net/servlets/ProjectDocumentList?folderID=755&expandFolder=755&folderID=0
unzip sen-1.2.2.1.zipインストール
utf-8 で使うための設定
% cd sen-1.2.2.1/conf辞書のインストール
%vi sen.xml
<!-- charset>euc-jp</charset -->
<charset>utf-8</charset>
% vi sen-processor.xml
<!-- charset>euc-jp</charset -->
<charset>utf-8</charset>
% cd sen-1.2.2.1/dic
% vi dictionary.properties
//sen.charset=EUC-JP
sen.charset=utf-8
注) dic.charset=EUC-JPは変更しないこと
% cd sen-1.2.2.1/dicここでインストールされる辞書は ipadic-2.6.0 なのですが、ipadic-2.7.0が既に出ているので新し物好きな人は build.xml を修正すると幸せになれると思います。
% ant
最近はNAIST-jdicの人気も高いのでこちらをつかうのもオサレです。
インストール% mv sen-1.2.2.1/ $HOME/local環境変数の設定
動作確認
% vi ~/.cshrcbashの人は適当に読み替えてください。
setenv SEN_HOME $HOME/local/sen-1.2.2.1
setenv CLASSPATH $SEN_HOME/lib/sen.jar:$CLASSPATH
動作確認
% sh $HOME/local/sen-1.2.2.1/bin/sen.sh
適当な日本語を入れてトークナイズされればおk。
「すもももももももものうち」 がお約束です。
[Solr][Sen] 日本語形態素解析器Senを導入する その1 Senのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その2 lucene-jaのインストール
[Solr][Sen] 日本語形態素解析器Senを導入する その3 インデキシングする
[Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム
[Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析
[Solr][Sen] 日本語形態素解析器Senを導入する その6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう