KLDP에 은전한닢 프로젝트에 대한 소개가 있더군요.
http://kldp.org/node/75489#comment-593970 (by cleansugar 작성 일시: 수, 2013/03/06)

벼르고 있다가 한번 설치해봤습니다. 참고한 문서는 다음과 같습니다.

제가 페도라 15을 사용중인데, 페도라에서 설치하려고 보니 이미 mecab 패키지가 있더군요. 약간 낡은 버전이지만 설치했습니다. debian이나 우분투의 경우에도 이미 패키지가 있는 것 같습니다.

yum install mecab mecab-devel

그런 다음 mecab용 ko-dic을 받아서 make를 수행하였습니다.

$ rpm -q mecab
mecab-0.98-1.fc15.i686

$ ./configure
checking for a BSD-compatible install... /usr/bin/install -c
checking whether build environment is sane... yes
checking for a thread-safe mkdir -p... /bin/mkdir -p
checking for gawk... gawk
checking whether make sets $(MAKE)... yes
checking for mecab-config... /usr/bin/mecab-config
configure: creating ./config.status
config.status: creating Makefile
$ make
...(생략)
/bin/sh ./config.status --recheck
running CONFIG_SHELL=/bin/sh /bin/sh ./configure --no-create --no-recursion
checking for a BSD-compatible install... /usr/bin/install -c
checking whether build environment is sane... yes
checking for a thread-safe mkdir -p... /bin/mkdir -p
checking for gawk... gawk
checking whether make sets $(MAKE)... yes
checking for mecab-config... /usr/bin/mecab-config
configure: creating ./config.status
 /bin/sh ./config.status
config.status: creating Makefile
/usr/libexec/mecab/mecab-dict-index -d . -o . -f UTF-8 -t UTF-8
reading ./unk.def ... 13
emitting double-array: 100% |###########################################|
reading ./VCP.csv ... 9
reading ./SH-XPN.csv ... 94
reading ./SH-XR.csv ... 4350
reading ./Atomic.csv ... 1
reading ./MM.csv ... 454
reading ./NN-Person.csv ... 12269
reading ./NR.csv ... 483
reading ./XSA.csv ... 20
... (중략)

사전 자체는 설치하지 않고 다음과 같이 테스트할 수 있었습니다.
(현재 디렉토리 아래에 mecab-ko-dic-1.1.3-xxxx 디렉토리가 있는 경우 다음과 같이 디렉토리 지정)

$ echo "이것이 바로 은전한닢을 사용하는 mecab입니다." | mecab -d mecab-ko-dic-1.1.3-20130226
이것    NP,T,이것,*,*,*,이거/NP
이      JKS,F,이,*,*,*,*
바로    MAG,F,바로,*,*,*,*
은전    NN,T,은전,*,*,*,*
한      XSV+ETM,T,한,Inflect,XSV,ETM,하/XSV+ㄴ/ETM
닢      NN,T,닢,*,*,*,*
을      JKO,T,을,*,*,*,*
사용    NN,T,사용,*,*,*,*
하      XSV,F,하,*,*,*,*
는      ETM,T,는,*,*,*,*
mecab   SL,*,*,*,*,*,*
입니다  VCP+EF,F,입니다,Inflect,VCP,EF,이/VCP+ㅂ니다/EF
.       SF,*,*,*,*,*,*
EOS

설치 및 사용법도 간단하고, 속도도 느리지 않고, mecab가 원래 일본어 형태소였으니 띄어쓰기가 잘 되지 않은 경우에도 잘 처리할 수 있을 것으로 생각됩니다.

아무튼 매우 기대되는 프로젝트입니다.
mecab는 java/perl/python/ruby등등의 바인딩을 지원하니, 형태소 분석기에 관심있으신 분들은 한번 사용해보시기 바랍니다~

by dumpcookie 2013. 3. 9. 09:36
| 1 |