검색결과 리스트
분류 전체보기에 해당되는 글 65건
- 2013.03.09 형태소 분석기 mecab와 은전한닢 프로젝트
- 2013.03.05 engdic 사전의 저작권 4
- 2013.03.04 산에디터의 사전 저작권
- 2013.03.02 저작권 문제없는 단어장 1
- 2013.03.01 티스토리 블로그 개설 4
KLDP에 은전한닢 프로젝트에 대한 소개가 있더군요.
http://kldp.org/node/75489#comment-593970 (by cleansugar 작성 일시: 수, 2013/03/06)
벼르고 있다가 한번 설치해봤습니다. 참고한 문서는 다음과 같습니다.
제가 페도라 15을 사용중인데, 페도라에서 설치하려고 보니 이미 mecab 패키지가 있더군요. 약간 낡은 버전이지만 설치했습니다. debian이나 우분투의 경우에도 이미 패키지가 있는 것 같습니다.
yum install mecab mecab-devel
그런 다음 mecab용 ko-dic을 받아서 make를 수행하였습니다.
$ rpm -q mecab mecab-0.98-1.fc15.i686 $ ./configure checking for a BSD-compatible install... /usr/bin/install -c checking whether build environment is sane... yes checking for a thread-safe mkdir -p... /bin/mkdir -p checking for gawk... gawk checking whether make sets $(MAKE)... yes checking for mecab-config... /usr/bin/mecab-config configure: creating ./config.status config.status: creating Makefile $ make ...(생략) /bin/sh ./config.status --recheck running CONFIG_SHELL=/bin/sh /bin/sh ./configure --no-create --no-recursion checking for a BSD-compatible install... /usr/bin/install -c checking whether build environment is sane... yes checking for a thread-safe mkdir -p... /bin/mkdir -p checking for gawk... gawk checking whether make sets $(MAKE)... yes checking for mecab-config... /usr/bin/mecab-config configure: creating ./config.status /bin/sh ./config.status config.status: creating Makefile /usr/libexec/mecab/mecab-dict-index -d . -o . -f UTF-8 -t UTF-8 reading ./unk.def ... 13 emitting double-array: 100% |###########################################| reading ./VCP.csv ... 9 reading ./SH-XPN.csv ... 94 reading ./SH-XR.csv ... 4350 reading ./Atomic.csv ... 1 reading ./MM.csv ... 454 reading ./NN-Person.csv ... 12269 reading ./NR.csv ... 483 reading ./XSA.csv ... 20 ... (중략)
사전 자체는 설치하지 않고 다음과 같이 테스트할 수 있었습니다.
(현재 디렉토리 아래에 mecab-ko-dic-1.1.3-xxxx 디렉토리가 있는 경우 다음과 같이 디렉토리 지정)
$ echo "이것이 바로 은전한닢을 사용하는 mecab입니다." | mecab -d mecab-ko-dic-1.1.3-20130226 이것 NP,T,이것,*,*,*,이거/NP 이 JKS,F,이,*,*,*,* 바로 MAG,F,바로,*,*,*,* 은전 NN,T,은전,*,*,*,* 한 XSV+ETM,T,한,Inflect,XSV,ETM,하/XSV+ㄴ/ETM 닢 NN,T,닢,*,*,*,* 을 JKO,T,을,*,*,*,* 사용 NN,T,사용,*,*,*,* 하 XSV,F,하,*,*,*,* 는 ETM,T,는,*,*,*,* mecab SL,*,*,*,*,*,* 입니다 VCP+EF,F,입니다,Inflect,VCP,EF,이/VCP+ㅂ니다/EF . SF,*,*,*,*,*,* EOS
설치 및 사용법도 간단하고, 속도도 느리지 않고, mecab가 원래 일본어 형태소였으니 띄어쓰기가 잘 되지 않은 경우에도 잘 처리할 수 있을 것으로 생각됩니다.
아무튼 매우 기대되는 프로젝트입니다.
mecab는 java/perl/python/ruby등등의 바인딩을 지원하니, 형태소 분석기에 관심있으신 분들은 한번 사용해보시기 바랍니다~
eAccelerator win32 버그 및 빌드 (0) | 2013.08.28 |
---|---|
모니위키 속도 300RPS 벽을 깨다. (0) | 2013.05.21 |
모니위키 1.2.0 릴리스 준비 진행상황 (0) | 2013.05.18 |
리눅스에서 svox-pico 사용하기 (0) | 2013.03.14 |
php-mecab 바인딩 사용하기 (0) | 2013.03.11 |
engdic은 90년대 리눅스 초창기 배포판에 거의 항상 포함되어있던 유명한 영한사전입니다. 이 영한사전을 요즈음 배포판에서는 찾기가 어려워졌지만, 검색을 통해서 어렵지 않게 자료를 받을 수 있습니다.
engdic 사전 데이터는 Kwangsuk Lee씨가 만든 것이라고 밝히고 있습니다. (FreeBSD ports의 descr 파일)
engdic ------ engdic is a english dictionary for korean working on unix enviroment system. Special thanks to : KwangSuk Lee (Dictionary data maker) Oh Junseon <hollywar@mail.holywar.net>
좀 더 찾아보니 다음과 같은 내용이 freebsd 메일링리스트에 있었습니다. http://www.kr.freebsd.org/ml/ports/1999/06/msg00010.shtml
참.. 그리고 사전 데이타는 이광석 님이 제공해주신것으로서 공개하셨기에 따로 적어주질 않았습니다. Linux 의 edic 에서 사용하는 데이타를 그대로 가져온것이긴 한데.. 말씀을 듣고 보니.. 최소한 이름 석자라도 적어야 도리일듯 싶네요..
위 내용에 대해서 참고적으로 설명하자면, 리눅스에 원래 배포되던(아마도 최초 배포는 알짜 리눅스이며, engdic.tar.gz 파일이 패키징된 날짜는 1998년 6월8일) edic 혹은 engdic이라는 사전 프로그램의 사전 데이터를 그대로 사용하고, 원래 쉘 스크립트로 처리되어 조금 느리던 edic 스크립트를 c언어로 만들어서 속도를 향상시키고, FreeBSD의 패키지로 등록시키고 있는 내용입니다.
(원래의 리눅스 배포판에서 사용되던 edic 쉘 스크립트는 다음의 사이트를 통해서 확인해 보실 수 있습니다. https://github.com/liks79/edic 및 https://github.com/liks79/edic/blob/master/README.md 참조)
다음은 여기에 올려있는 edic 사전의 스크린샷입니다. (출처: https://github.com/liks79/edic)
engdic 사전 저작권은 GPL이 아니다
그런데 engdic의 사전 데이터가 GPL이라고 알려져있나본데, 적어도 위에서 열거한 내용에 의하면 이 사전데이터가 GPL이라고 배포자는 밝히고 있지 않습니다. 사전 데이터는 이광석씨가 만든 것이며 그것을 그대로 가져왔다는 내용 뿐입니다. 프로그램 본체 engdic의 실행파일 edic은 GPL일지는 몰라도 사전데이터는 GPL 라이선스와 무관한 것입니다.
engdic을 등록한 몇몇 배포판을 찾아보아도 이는 마찬가지였습니다.
engdic의 저작권은 GPL일 수 있으나 engdic 사전의 저작권은 GPL일 가능성은 희박한 것입니다.
아무튼 engdic에 대한 여러 추측성 내용을 적어본다면,
재밌는것은 engdic 사전 자료를 GPL로 오해하고, 이것을 바탕으로 해서 개선시키려고 하던 시도가 있었다는 것입니다.
또한 engdic 사전자료는 OpenOffice에서 사용할 수 있는 stardict 사전의 영한사전 자료가 되며, 여기에는 사전 자료의 저작권을 GPL이라고 잘못 표기하고 있습니다만, 이 사전자료 역시 그 출처는 engdic이며 저작권은 GPL이 아닙니다.
http://abloz.com/huzheng/stardict-dic/ko/
널리 애용된 engdic 사전 데이터
그럼에도 불구하고 engdic의 사전 데이터는 산에디터의 사전자료와 함께 많은 사랑(?)을 받게됩니다.
마치며
영어 단어장 앱을 준비하면서 공개된 단어장 데이터에 발목이 잡혀서 몇일동안 사전 자료에 관련된 정보를 분석해보았던 것인데, engdic이 1998년에 배포되었다고 하니 벌써 15년이 넘었습니다만, 그간 engdic보다 낫거나 좋은 영한 사전이 없다는 사실이 안타깝기도 하네요. engdic 정도의 공개 한영사전을 만드는 것은 사실 마음만 먹으면 큰 일은 아닐 것 같습니다만 혼자 하기에는 쉽지도 않은 작업인것 같습니다. 예를 들자면 engdic 단어목록만 사용하고, wordnet에서 뜻을 가져와 이것을 번역하는 것입니다. 다음에 시간이 나면 engdic 수준의 공개 한영사전을 만드는 방법론에 대해서 살펴볼 기회가 있었으면 싶습니다~ ^^
산에디터의 사전 저작권 (0) | 2013.03.04 |
---|
공개된 영-한 사전을 검색해보려다가 우연히 산 에디터에 사용된 사전 데이터에 대해 알게 되었습니다. 예전에 한번 보았던 내용인데, 이번에 좀 더 유심히 살펴보게 된 것이지요.
http://www.114pda.com/language/dic-data/dic-ek-57873.htm (2005년 이후로 업데이트가 없지만, http://www.114pda.com 운영자분은 고맙게도 사이트를 계속 유지시키고 계시네요 ^^)
여기에 써있기를 다음과 같은 내용이 있습니다.
예전의 도스용 산에디터라는 프로그램에서 사용할 수 있는 공개판 영한사전이 있었습니다. 원래는 DbaseIII용 으로 되어있었는데요. 그것을 기반으로 해서 kdic용 영한사전으로 변환 시켰습니다.
과연 산에디터의 영한사전은 공개된 것일까?
산에디터라고 하면 90년대 도스를 사용할 무렵에 Q에디터와 함께 이 편집기를 모르는 사람이 없을 정도로 상당히 유명한 편집기중에 하나였다고 기억합니다.
logo from http://hp.vector.co.jp/authors/VA008289/page2.htm
산에디터는 처음에는 쉐어웨어 형식이었다가, 나중에는 그 당시에는 정말 획기적으로 프로그램의 소스를 공개해서 더욱 유명한 프로그램이였죠. 산에디터에 대해서 검색해보니 산에디터의 원저자 박규현님의 최근 블로그글도 찾을 수 있더군요 ^^
산에디터를 검색해서 다운로드를 받아서 살펴보았습니다.
http://oilman.new21.net/ 자료실 http://oilman.new21.net/zero/zboard.php?id=LXAP&no=88
http://sirjhswin.egloos.com/2203664
압축을 풀어보니 여기에는 DBase III 포맷의 사전데이터가 들어있었는데, 포함된 README파일을 읽어보니, 산에디터에는 원래 영한사전이 들어있지 않았습니다만, 산에디터의 소스가 공개되자 이주형씨가 이 편집기에 영한 사전 기능을 추가하게 된 것이더군요. README파일(당연하게도 문서 인코딩이 조합형으로 되어있어서 iconv로 UTF-8로 변환해서 보면)에 다음과 같은 내용이 있습니다.
산에디터 Version 1.2 영한사전 기능 추가에 대하여산에디터가 공개된 것은 정말 다행스러운 일이다.
화면 스크롤 속도가 빠르고 깔끔한 것이 특징이다.
컴퓨터 통신으로 갈무리한 화일을 보고 간단히 편집하기에는
부족함이 없다. (중략)...엄청나게 큰 영한사전 데이터는 아쉽지만 공개된 것이 아니다.
꼬투리를 잡으려 들면 한이 없겠지만 발뺌하는 것도 마찬가지로
끝이없다. 직접 데이터를 입력했다고 우겨도 별 수가 없는 것이다.
현재는 약 5만여 단어지만 필요한 사람은 더 추가할 수도 있다.
소스를 공개한 박규현님과 사전 데이터를 입력한 순수한 노동의 대가를
치룬 분들께 감사의 말씀을 전하며 이만 줄인다.1996. 8. 12
작성자 : 이주형
@.@ 이주형씨가 밝히길 이 사전자료는 공개된 것이 아니라고 밝히고 있었습니다 ^^;; 이어지는 말이 약간 애매하긴 한데, 약 5만여 단어를 모두 직접 입력했다는 뜻은 아닌 것으로 보입니다.
따라서 이 글에 의하면 산에디터의 영한사전은 자유롭게 쓸 수 있는 공개된 것이 아닌 것으로 생각됩니다.
사전 데이터를 검증해보자
아무튼 이렇게 다운로드 받은 dbase III 파일을 직접 검수해보았습니다.
$ ls *DBF *dbf EDIC_A.DBF EDIC_F.DBF EDIC_K.DBF EDIC_O.DBF EDIC_S.DBF EDIC_W.DBF EDIC_B.DBF EDIC_G.DBF EDIC_L.DBF edic_p.dbf EDIC_T.DBF EDIC_X.DBF EDIC_C.DBF EDIC_H.DBF EDIC_M.DBF _Edic_p.dbf EDIC_U.DBF EDIC_Y.DBF EDIC_D.DBF EDIC_I.DBF edic_n.dbf EDIC_Q.DBF edic_v.dbf EDIC_Z.DBF EDIC_E.DBF EDIC_J.DBF _Edic_n.dbf EDIC_R.DBF _Edic_v.dbf
php에 익숙하다면 dbase 모듈을 이용하거나 간단히 hexdump를 이용해서 살펴볼 수 있더군요.
처음에는 php dbase모듈로 읽어봤더니 몇몇 dbf파일이 오류가 났습니다. 이상해서 hexdump로 살펴보니 파일 자체가 깨진 것이더군요 -_-;;
$ file EDIC_A.DBF EDIC_A.DBF: DBase 3 data file (3460 records) $ hexdump -s 0x62 -e '71/1 "%c" "\n"' EDIC_A.DBF |iconv -f JOHAB -t UTF-8 -c ... auction n.경매;공매 auction off 경매되다 auctioneer n.경매인 vt.경매하다 auctorial a.작가의;저자의 audacious a.대담한;넉살좋은;철면피의;무례 $ hexdump -s 0x62 -e '71/1 "%c" "\n"' EDIC_A.DBF |iconv -f JOHAB -t UTF-8 -c | wc -l 3143
위에서 볼 수 있는 것처럼 A로 시작하는 단어의 개수가 3460이어야 하는데, 3143개밖에 안되고 중간에 끊어진 것입니다. 이렇듯이 일부 DBF파일이 손상이 되어있었습니다. (이것이 제가 받은 DBF파일만 그런 것인지 아니면 원래 손상되어있던 파일인 것인지는 알 수 없었습니다)
(이 사전자료만 따로 뽑아서 변형시킨 자료도 천리안에 있다는 글도 보이는데 http://oilman.new21.net/zero/zboard.php?id=LXAP&no=89 여기의 사전데이터도 살펴보니 일부 내용이 유실되어있기는 마찬가지 였습니다.)
pda114에서 변환된 자료도 약간의 문제가 있기는 마찬가지였습니다.
그런데 이러한 단어들을 구글로 검색해보니 산에디터에서 쓰이는 사전의 원본으로 추정되는 사전을 쓰고 있는 웹 사전 서비스를 하는 곳이 많더군요!! 이 사전을 사용하고 있는 사이트로는 다음과 같습니다.
자세히 살펴보니 원본 DB파일은 engdic파일을 구성하는데 일부 사용되었으며, 산에디터에 포함된 DB만을 쓰고있는 공개 웹사전 사이트는 없었습니다.
이러한 사이트에는 산에디터 DBF파일에서 볼 수 있는 문제점이 전혀 없었습니다. 그리고 이러한 흔적들은 DBF 사전자료가 원본자료가 아니라는 것을 말해주며 어딘가에 이 사전의 원본 사전자료가 있었다는 것을 뜻합니다.
아무튼 원본 사전의 DBF파일이 완전하지는 않지만 그 깨진 단어가 많지 않으므로 원본 사전과 거의 같게 복구할 수 있을 듯 합니다.
원본 사전의 특징
그렇다면 산에디터에서 쓰인 것으로 추정되는 원본 사전 데이터는 어디에서 찾을 수 있을까요? 그리고 그 출처는 어디였을까요? (아마도 이것에 대한 힌트는 하이텔이나 천리안의 자료시에서 얻을 수 있을 것으로 생각됩니다만... 하이텔 자료 CD도 없고 사이트도 폐쇄되어 쉽게 찾기는 어려울 것 같고..)
이 사전을 자세히 살펴보면 다음과 같은 특징이 있습니다. 첫째, n. 혹은 vt. vi. 등등의 품사를 표시하는 기호중에 x. 라는 이상한 기호를 다음과 같이 볼 수 있었습니다. 약 1천여개의 단어가 "x."로 지정되어 있었습니다.
vital power x,생명력 vital signs x,맥,호흡,체온 및 혈압 vital statistics x,인구 동태 통계 vital wound x,치명상 vitamet n,비타머(비타민 작용을 나타내는 물질의 총칭)
둘째, 이 사전의 분류기호가 약간의 일관성이 떨어집니다. 단어 뜻의 구분기호가 ";"인 경우도 있고 ","인 경우도 있습니다. 분류기호도 "n." 이라고 마침표로 끝나는 경우도 있는가 하면, "n," 처럼 쉼표로 끝나는 경우도 있습니다. 이것은 다시 말해서 이 사전 역시 두개의 또 다른 소스에서 유래했을 수 있다는 것을 가정하게 합니다.
상황이 이쯤 되다보니 그 예전에 리눅스 배포판을 비롯해서 FreeBSD까지 광범위하게 사용되던 engdic 영한사전이 떠오르게 된 것입니다.
engdic 사전의 저작권 (4) | 2013.03.05 |
---|
영어 학습에 도움이 될만한 앱을 만드는 중입니다.
영어학습 앱을 떠올리면 단어장/깜깜이/플래시 카드와 같은 기능은 거의 필수적으로 필요하고, 여기에 사용 될 단어장이 필요하게 되어서, 공개된 단어장 리스트를 살펴보게 되었습니다. 그러나 왠만해서는 라이선스가 정확히 명시되고 그 출처가 분명한 단어 리스트를 찾기가 어렵더군요.
단어 리스트를 찾기 전에 먼저 출처 및 라이선스가 분명한 영어 사전 데이터를 찾아보니, 공개된 영어 사전으로는 유명한 WordNet 자료와 GCIDE 프로젝트가 있었습니다.
그밖에 방대한 Wiktionary (http://en.wiktionary.org/wiki/Wiktionary:Main_Page)를 참고할 수 있을 것입니다.
저작권에 관련된 부분을 좀 더 명확히 하기 위해서 관련 정보를 찾아보니 KLDP에 다음과 같은 글이 있었습니다. http://kldp.org/node/83345 - 저작권있는 사전의 발음기호만 수집해서 배포해도 될까요? (글쓴이: xylosper 토,2007/06/16)
이 내용을 일부 적어보면,
아무튼 이러한 사실을 염두해두고 자료를 검색해보았습니다.
출처가 불분명하지만 광범위하게 퍼져있는 자료들
출처가 분명하고 라이선스도 분명한 자료들
사정이 이렇다보니 단어 목록을 가져오는 것은 저작권상 문제가 없다고 하더라도, 그 단어의 뜻은 출처가 불분명하며, 저작권 문제의 소지가 있는 예문이나 단어의 뜻을 그대로 가져다쓰기는 어려운 난점이 있게됩니다. 따라서 저작권 문제가 없는 단어장을 만들기 위해서는,
그밖에 다음과 같은 사항들은 저작권 문제 없는 사전을 만드는데 참고할만하거나 개인적인 메모 사항입니다.
여기까지 정리해놓고나서, 예전에 리눅스에서 유명했던, GPL로 공개되었던 (그러나 그 출처가 불분명하다 하여 슬금슬금 배포판에서 자취를 감추게 된) 영-한 사전인 engdic의 사전 데이터가 궁금하기도 하고, 일부 인터넷에서 공개 사전서비스를 하고 있는 사전 자료 등등이 궁금하기도 해서, 공개 영-한 사전 데이타를 찾아보고 재밌는 사실을 발견하게 됩니다.
공개 영-한 사전인 engdic에 관한 이야기는 다음 포스팅으로 이어집니다~
ringdroid에 JLayer MP3 디코더 적용하기 (0) | 2014.09.12 |
---|---|
ringdroid에서 mp3 waveform이 잘못 나오는 문제 수정 (0) | 2014.09.09 |
apk를 unzip으로 풀어서 다시 압축하는 경우 (0) | 2014.09.05 |
젤리빈 소스트리에서 컴파일한 native 라이브러리가 __open_2 심볼을 찾지 못해 오류나는 경우 (0) | 2014.08.30 |
안드로이드 내장 음성 인식엔진 Nuance SREC (27) | 2013.03.16 |
그동안 블로그없이 네이버 안드로이드해커 카페에서 주로 글을 썼습니다만, http://cafe.naver.com/androidhacker
좀 더 개인적인 일 혹은 안드로이드 주제로 제한되지 않는 이야기, 좀 더 공개적인 이야기를 티스토리에서 쓸 생각입니다~
그리고 그간 써오던 영구땡칠 별명대신에 dumpcookie라는 필명을 사용하게 되었습니다. 쉬운 듯 하면서도 남들이 사용하지 않는 이름 찾기도 참 힘들더군요 :)
개설해놓고보니 오늘이 삼일절이네요ㅎ
RECENT COMMENT