영어 학습에 도움이 될만한 앱을 만드는 중입니다.

screenshot


영어학습 앱을 떠올리면 단어장/깜깜이/플래시 카드와 같은 기능은 거의 필수적으로 필요하고, 여기에 사용 될 단어장이 필요하게 되어서, 공개된 단어장 리스트를 살펴보게 되었습니다. 그러나 왠만해서는 라이선스가 정확히 명시되고 그 출처가 분명한 단어 리스트를 찾기가 어렵더군요.

단어 리스트를 찾기 전에 먼저 출처 및 라이선스가 분명한 영어 사전 데이터를 찾아보니, 공개된 영어 사전으로는 유명한 WordNet 자료와 GCIDE 프로젝트가 있었습니다.

그밖에 방대한 Wiktionary (http://en.wiktionary.org/wiki/Wiktionary:Main_Page)를 참고할 수 있을 것입니다.

저작권에 관련된 부분을 좀 더 명확히 하기 위해서 관련 정보를 찾아보니 KLDP에 다음과 같은 글이 있었습니다. http://kldp.org/node/83345저작권있는 사전의 발음기호만 수집해서 배포해도 될까요? (글쓴이: xylosper 토,2007/06/16)
이 내용을 일부 적어보면,

  • 특별한 창작성이 없는 단어 목록은 저작권 보호를 받지 못한다고 한다.
  • 대부분의 공개되어있는 한-영사전은 창작성이 있는 부분(뜻, 예문이나, 발음기호 등등)에 대한 정확한 출처를 명시하지 못하고 있다. (engdic이 대표적인 예)

아무튼 이러한 사실을 염두해두고 자료를 검색해보았습니다.

출처가 불분명하지만 광범위하게 퍼져있는 자료들

  • 교과부 지정 초등영어 기본 800단어 - 검색해보면 무수한 HWP/엑셀 자료를 찾아볼 수 있었습니다.
    예) 
    http://goo.gl/xNyqO
    • 단어목록이 거의 유사하나 내용이나 몇몇 단어들이 추가된 경우도 있고, 그 원 출처가 일치하지는 않는 듯.
  • 교과부 지정 중고교 2067단어 - 역시 검색하면 무수한 HWP 자료들.
    • 중고교 2800단어라고 불리는 자료는 2067 단어 + 초등학교 수준의 단어를 합한 것
    • 2067단어라고 이름 붙여놓고 여기에 새로운 단어를 추가한 경우도 있다.
    • 이 자료들 역시 그 원래의 출처가 일치하지 않는 것으로 보였다.
  • 그밖에 많은 자료들은 그 출처가 불분명하며, HWP파일이나 엑셀 파일을 열어서 살펴보면 학원에서 배포하던 자료이거나, 기타 개인이 만든 자료인 듯 편집이 투박하고 일관성이 없는 경우도 많았다.
  • Barron's GRE 3500 단어 : Barron's GRE 3500 책 시리즈에 나온 단어목록에 간략한 뜻과 함께 누군가가 추가로 단어를 합하여 올린 자료가 비교적 광범위하게 퍼져있다. 예를 들어 4759 단어 http://quizlet.com/47571/barrons-gre-wordlist-4759-words-flash-cards/ - quizlet에 올라온 이 자료가 바로 Barron's GRE 단어목록.
    -> 아마도 누군가가 Barron's GRE 3500 단어목록 + alpha를 하고, 단어 뜻을 추가한 듯 하다. (원 출처가 제대로 명시가 안되어 있으므로, 단어의 뜻을 누가 추가한 것인지 알기 어려웠다)

출처가 분명하고 라이선스도 분명한 자료들

  • http://www.freevocabulary.com/ SAT용 5천 단어 - 개인 및 학급에서 사용 가능. 상업적 사용 불가 - 그런데 이 자료가 몇몇 잘 알려진 사이트에서 그대로 사용되고 있었다. (이것이 허락을 받아서 쓰이고 있는 것인지 아닌지는 알 수 없었으나, 그 출처가 제대로 명시되지 않은 것으로 보아서는 도용일 것으로 추축됩니다)
  • 그밖에 몇몇 사이트에서 올려놓은 단어목록들은 개인 및 학급에서 사용 가능하나 상업적으로 사용이 불가한 경우가 대부분이었다.

사정이 이렇다보니 단어 목록을 가져오는 것은 저작권상 문제가 없다고 하더라도, 그 단어의 뜻은 출처가 불분명하며, 저작권 문제의 소지가 있는 예문이나 단어의 뜻을 그대로 가져다쓰기는 어려운 난점이 있게됩니다. 따라서 저작권 문제가 없는 단어장을 만들기 위해서는,

  1. 영-영 사전의 경우라면 Wordnet에서 사전의 뜻을 최대한 단순화시키거나, 여러가지 뜻이 있는 경우에는 주요한 뜻 두어개 + 동의어 위주로 추출 + 예문 1개정도만 추출하는 방식으로 만든다. (이 작업도 만만하지 않을 것입니다)
  2. 영-한 사전의 경우라면 사전의 뜻을 1) 원저작자에게 허락을 받거나 2) 직접 수동으로 입력하여 만들거나 ^^;;

그밖에 다음과 같은 사항들은 저작권 문제 없는 사전을 만드는데 참고할만하거나 개인적인 메모 사항입니다.

  1. 빈도수 단어목록을 사용하여 빈도수가 높은 단어를 우선순위를 높게 둘 수도 있으며, 다른 단어장과의 차별점이 될 수 있다.
    Wiktionary의 단어 빈도수 목록 http://en.wiktionary.org/wiki/Wiktionary:Frequency_lists
    http://invokeit.wordpress.com/frequency-word-lists/ 참고
  2. 네이버나 다음의 사전 사이트에서 중/고교 단어 목록 자료를 긁어온 후에 이를 바탕으로 빈도순/중복단어 우선순 등등의 2차 가공을 한 단어 목록을 만드는 것도 가능할 것이다

여기까지 정리해놓고나서, 예전에 리눅스에서 유명했던, GPL로 공개되었던 (그러나 그 출처가 불분명하다 하여 슬금슬금 배포판에서 자취를 감추게 된) 영-한 사전인 engdic의 사전 데이터가 궁금하기도 하고, 일부 인터넷에서 공개 사전서비스를 하고 있는 사전 자료 등등이 궁금하기도 해서, 공개 영-한 사전 데이타를 찾아보고 재밌는 사실을 발견하게 됩니다.

공개 영-한 사전인 engdic에 관한 이야기는 다음 포스팅으로 이어집니다~

by dumpcookie 2013. 3. 2. 01:42