공개된 영-한 사전을 검색해보려다가 우연히 산 에디터에 사용된 사전 데이터에 대해 알게 되었습니다. 예전에 한번 보았던 내용인데, 이번에 좀 더 유심히 살펴보게 된 것이지요.

http://www.114pda.com/language/dic-data/dic-ek-57873.htm (2005년 이후로 업데이트가 없지만, http://www.114pda.com 운영자분은 고맙게도 사이트를 계속 유지시키고 계시네요 ^^)

여기에 써있기를 다음과 같은 내용이 있습니다.

예전의 도스용 산에디터라는 프로그램에서 사용할 수 있는 공개판 영한사전이 있었습니다. 원래는 DbaseIII용 으로 되어있었는데요. 그것을 기반으로 해서 kdic용 영한사전으로 변환 시켰습니다.

과연 산에디터의 영한사전은 공개된 것일까?

산에디터라고 하면 90년대 도스를 사용할 무렵에 Q에디터와 함께 이 편집기를 모르는 사람이 없을 정도로 상당히 유명한 편집기중에 하나였다고 기억합니다.

logo from http://hp.vector.co.jp/authors/VA008289/page2.htm

산에디터는 처음에는 쉐어웨어 형식이었다가, 나중에는 그 당시에는 정말 획기적으로 프로그램의 소스를 공개해서 더욱 유명한 프로그램이였죠. 산에디터에 대해서 검색해보니 산에디터의 원저자 박규현님의 최근 블로그글도 찾을 수 있더군요 ^^

산에디터를 검색해서 다운로드를 받아서 살펴보았습니다.
http://oilman.new21.net/ 자료실 http://oilman.new21.net/zero/zboard.php?id=LXAP&no=88
http://sirjhswin.egloos.com/2203664

압축을 풀어보니 여기에는 DBase III 포맷의 사전데이터가 들어있었는데, 포함된 README파일을 읽어보니, 산에디터에는 원래 영한사전이 들어있지 않았습니다만, 산에디터의 소스가 공개되자 이주형씨가 이 편집기에 영한 사전 기능을 추가하게 된 것이더군요. README파일(당연하게도 문서 인코딩이 조합형으로 되어있어서 iconv로 UTF-8로 변환해서 보면)에 다음과 같은 내용이 있습니다.

산에디터 Version 1.2  영한사전 기능 추가에 대하여

산에디터가 공개된 것은 정말 다행스러운 일이다.
화면 스크롤 속도가 빠르고 깔끔한 것이 특징이다.
컴퓨터 통신으로 갈무리한 화일을 보고 간단히 편집하기에는
부족함이 없다. (중략)...

엄청나게 큰 영한사전 데이터는 아쉽지만 공개된 것이 아니다.
꼬투리를 잡으려 들면 한이 없겠지만 발뺌하는 것도 마찬가지로
끝이없다. 직접 데이터를 입력했다고 우겨도 별 수가 없는 것이다.
현재는 약 5만여 단어지만 필요한 사람은 더 추가할 수도 있다.
소스를 공개한 박규현님과 사전 데이터를 입력한 순수한 노동의 대가를
치룬 분들께 감사의 말씀을 전하며 이만 줄인다.

1996. 8. 12
작성자 : 이주형

@.@ 이주형씨가 밝히길 이 사전자료는 공개된 것이 아니라고 밝히고 있었습니다 ^^;; 이어지는 말이 약간 애매하긴 한데, 약 5만여 단어를 모두 직접 입력했다는 뜻은 아닌 것으로 보입니다.

따라서 이 글에 의하면 산에디터의 영한사전은 자유롭게 쓸 수 있는 공개된 것이 아닌 것으로 생각됩니다.


사전 데이터를 검증해보자

아무튼 이렇게 다운로드 받은 dbase III 파일을 직접 검수해보았습니다.

$ ls  *DBF *dbf
EDIC_A.DBF  EDIC_F.DBF  EDIC_K.DBF   EDIC_O.DBF   EDIC_S.DBF   EDIC_W.DBF
EDIC_B.DBF  EDIC_G.DBF  EDIC_L.DBF   edic_p.dbf   EDIC_T.DBF   EDIC_X.DBF
EDIC_C.DBF  EDIC_H.DBF  EDIC_M.DBF   _Edic_p.dbf  EDIC_U.DBF   EDIC_Y.DBF
EDIC_D.DBF  EDIC_I.DBF  edic_n.dbf   EDIC_Q.DBF   edic_v.dbf   EDIC_Z.DBF
EDIC_E.DBF  EDIC_J.DBF  _Edic_n.dbf  EDIC_R.DBF   _Edic_v.dbf

php에 익숙하다면 dbase 모듈을 이용하거나 간단히 hexdump를 이용해서 살펴볼 수 있더군요.

처음에는 php dbase모듈로 읽어봤더니 몇몇 dbf파일이 오류가 났습니다. 이상해서 hexdump로 살펴보니 파일 자체가 깨진 것이더군요 -_-;;

$ file EDIC_A.DBF
EDIC_A.DBF: DBase 3 data file (3460 records)
$ hexdump -s 0x62 -e '71/1 "%c" "\n"' EDIC_A.DBF |iconv -f JOHAB -t UTF-8 -c
...
auction             n.경매;공매
auction off         경매되다
auctioneer          n.경매인 vt.경매하다
auctorial           a.작가의;저자의
audacious           a.대담한;넉살좋은;철면피의;무례
$ hexdump -s 0x62 -e '71/1 "%c" "\n"' EDIC_A.DBF  |iconv -f JOHAB -t UTF-8 -c | wc -l
3143

위에서 볼 수 있는 것처럼 A로 시작하는 단어의 개수가 3460이어야 하는데, 3143개밖에 안되고 중간에 끊어진 것입니다. 이렇듯이 일부 DBF파일이 손상이 되어있었습니다. (이것이 제가 받은 DBF파일만 그런 것인지 아니면 원래 손상되어있던 파일인 것인지는 알 수 없었습니다)

(이 사전자료만 따로 뽑아서 변형시킨 자료도 천리안에 있다는 글도 보이는데 http://oilman.new21.net/zero/zboard.php?id=LXAP&no=89 여기의 사전데이터도 살펴보니 일부 내용이 유실되어있기는 마찬가지 였습니다.)

pda114에서 변환된 자료도 약간의 문제가 있기는 마찬가지였습니다.

  • 일부 단어의 뜻 내용이 잘려있다. 예) vulpicide /// n,(사냥개 이외의 방법에 의한)여우 잡아 죽이기,그러....???
  • 따옴표가 잘못 들어가 있다. 예) vie /// "vi,경쟁하다,다투다(with)"
  • 단어가 잘 못 되어있다. 예) psychological techno /// "logy                x,심리공학" ^^;;

그런데 이러한 단어들을 구글로 검색해보니 산에디터에서 쓰이는 사전의 원본으로 추정되는 사전을 쓰고 있는 웹 사전 서비스를 하는 곳이 많더군요!! 이 사전을 사용하고 있는 사이트로는 다음과 같습니다.

  • http://ko.oldict.com - 영한 사전을 사용하고 있습니다. 가장 원본 데이터를 충실하게 보존하고 있는 듯.
  • http://dic.impact.pe.kr/ - 약간의 가공된 부분이 있으나 원본 사전데이터를 사용하는 것으로 보입니다.
  • 그밖에 몇몇 공개 웹사전에서 쓰이고 있었습니다.

자세히 살펴보니 원본 DB파일은 engdic파일을 구성하는데 일부 사용되었으며, 산에디터에 포함된 DB만을 쓰고있는 공개 웹사전 사이트는 없었습니다.

이러한 사이트에는 산에디터 DBF파일에서 볼 수 있는 문제점이 전혀 없었습니다. 그리고 이러한 흔적들은 DBF 사전자료가 원본자료가 아니라는 것을 말해주며 어딘가에 이 사전의 원본 사전자료가 있었다는 것을 뜻합니다.

아무튼 원본 사전의 DBF파일이 완전하지는 않지만 그 깨진 단어가 많지 않으므로 원본 사전과 거의 같게 복구할 수 있을 듯 합니다.


원본 사전의 특징

그렇다면 산에디터에서 쓰인 것으로 추정되는 원본 사전 데이터는 어디에서 찾을 수 있을까요? 그리고 그 출처는 어디였을까요? (아마도 이것에 대한 힌트는 하이텔이나 천리안의 자료시에서 얻을 수 있을 것으로 생각됩니다만... 하이텔 자료 CD도 없고 사이트도 폐쇄되어 쉽게 찾기는 어려울 것 같고..)

이 사전을 자세히 살펴보면 다음과 같은 특징이 있습니다. 첫째, n. 혹은 vt. vi. 등등의 품사를 표시하는 기호중에 x. 라는 이상한 기호를 다음과 같이 볼 수 있었습니다. 약 1천여개의 단어가 "x."로 지정되어 있었습니다.

vital power         x,생명력
vital signs         x,맥,호흡,체온 및 혈압
vital statistics    x,인구 동태 통계
vital wound         x,치명상
vitamet             n,비타머(비타민 작용을 나타내는 물질의 총칭)

둘째, 이 사전의 분류기호가 약간의 일관성이 떨어집니다. 단어 뜻의 구분기호가 ";"인 경우도 있고 ","인 경우도 있습니다. 분류기호도 "n." 이라고 마침표로 끝나는 경우도 있는가 하면, "n," 처럼 쉼표로 끝나는 경우도 있습니다. 이것은 다시 말해서 이 사전 역시 두개의 또 다른 소스에서 유래했을 수 있다는 것을 가정하게 합니다.

상황이 이쯤 되다보니 그 예전에 리눅스 배포판을 비롯해서 FreeBSD까지 광범위하게 사용되던 engdic 영한사전이 떠오르게 된 것입니다.


'사전' 카테고리의 다른 글

engdic 사전의 저작권  (4) 2013.03.05
by dumpcookie 2013. 3. 4. 18:26