Iruca Log

Iruca Log

東京に住むWeb系エンジニアによるデータ分析ブログ

SNSでフォローする!

Amazon Linux (EC2)に形態素解析エンジンMecabを最短でインストール&動作確認まで

この辺を参考に、amazon linux (amazon ec2, t2.microインスタンス) にmecabをインストールします。
http://qiita.com/ikenyal/items/275ca3096002822e8cd6
http://usecase.hatenablog.com/entry/2015/09/18/162018
http://qiita.com/sp6/items/c4897878b6c3de5cb86c
http://qiita.com/wan-liner/items/53250505efb908625b6b



Amazon Linuxのバージョンはこれかな。

https://aws.amazon.com/amazon-linux-ami/2016.09-release-notes/

Groongaという全文検索エンジンの開発チームが用意しているyumリポジトリを使える状態にします。

sudo rpm -ivh http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm

そのrepositoryの中にMecabとその辞書が入っているのでyum installできます。

yum -y install mecab mecab-ipadic mecab-devel

この時点でmecabが使えるようになりました。

[root@ip-172-31-25-63 ec2-user]# mecab
すもももももももものうち
すもも  名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
も      助詞,係助詞,*,*,*,*,も,モ,モ
もも    名詞,一般,*,*,*,*,もも,モモ,モモ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
うち    名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS

このあとのpipによるモジュールのインストールの際にCのコンパイラが必要になるので先にインストールしておきます。

yum -y install gcc-c++

pipを使いたいので、pipコマンドが入っていない場合は、下記の手順をしておいてください。

yum -y install python-setuptools
easy_install pip

pipを使ってmecab-pythonをインストールしておきます。

pip install mecab-python

これで完了です。サンプルコードを書いて確かめます。

[root@ip-172-31-25-63 tmp]# vim mecab-test.py

#!/usr/bin/python
#-*- coding:utf-8 -*-

import MeCab
m = MeCab.Tagger ("-Ochasen")
print(m.parse ("すもももももももものうち"))

実行してみる。

[root@ip-172-31-25-63 tmp]# python mecab-test.py
すもも  スモモ  すもも  名詞-一般
も      モ      も      助詞-係助詞
もも    モモ    もも    名詞-一般
も      モ      も      助詞-係助詞
もも    モモ    もも    名詞-一般
の      ノ      の      助詞-連体化
うち    ウチ    うち    名詞-非自立-副詞可能
EOS

完了です。