2005. 12. 『민족문화』 28, 민족문화추진회


한국 고전적 전산화의 발전 방향

- 고전 문집 지식 정보 시스템 개발 전략 -


김    현 

(한국학중앙연구원 교수, 인문정보학연구실장)


 

목    차

 

 

 

  1. 머리말

  2. 고전 정보화 사업의 성과

    1) 정보 이용 측면에서의 성과

    2) 정보 검색 기술 개발의 성과

  3. 고전 정보화 사업의 발전 과제

    1) 지식 정보화의 과제

    2) 고전 정보 시스템의 지식 기반

  4. 고전용어 시소러스 개발 전략

    1) 용어 수집 방안

    2) 용어간 관계 정의 방안

    3) 분류체계 개발 방안

  5. 맺음말


1. 머리말


  민족문화의 보전 전승을 위해 고전 문헌의 정리, 편찬, 국역 사업을 수행해 온 민족문화추진회는 1995년 『국역조선왕조실록의 CD-ROM』 간행을 비롯하여 1998년부터 시작한 『고전국역총서 CD-ROM』 간행, 2000년의 『한국문집총간총목차 CD-ROM』 간행을 통해 우리나라 고전 문헌 자료의 디지털화 분야에서도 선도적인 역할을 담당하기 시작하였다. 민족문화추진회의 초기 정보화 사업은 민간기업 주도의 사업에 저작자로서 참여하는 형태 또는 자체 사업예산을 활용한 소규모 전자 편찬 사업 형태였으나, 이 기관이 정보통신부에서 공공 근로 정보화사업의 일환으로 추진한 “지식정보연계활용체제구축사업” 및 그 후속 사업인 “지식정보자원관리사업”의 참여를 통해 정보화 사업비를 정부로부터 지원받기 시작한 2000년 이후부터는 대규모 지식 자원 데이터베이스 구축사업을 자체적으로 기획하고 관리하는 형태로 수행해 오고 있다.

  민족문화추진회에서 구축하여 인터넷을 통해 서비스하고 있는 고전 문헌 데이터베이스는 이미 원전의 종수로 500여 종, 책수로는 800여 책에 달하는 방대한 규모에 이르렀으며, 매년 시행되는 정보화 사업을 통해 자료량을 계속 증대시켜 갈 예정이다.1)

  이러한 정보화 사업의 성과를 통해 민족문화추진회는 이미 우리나라의 대표적인 전문 지식 정보 센터로서의 입지를 확립하였다고 할 수 있다. 그러나 이 기관에서 추진하는 정보화 사업이 단순히 책자로 간행한 기존 자료를 디지털 매체에 재수록하는 형태에서 탈피하여 고전 지식에 대한 전자적인 연구 개발 환경을 조성하고 이를 통해 21세기의 지식 문화를 창출하는 데 기여하기 위해서는 기존의 방법과는 다른 새로운 정보화 방법론을 도입하는 노력을 적극적으로 기울여야 할 필요가 있다. 이 글은 민족문화추진회가 현재까지의 정보화 사업 성과를 바탕으로 더욱 발전된 형태의 고전 지식 정보 시스템을 구축하기 위해서 새롭게 추진해야 할 과제를 짚어 보기 위한 것이다.


2. 고전 정보화 사업의 성과


1) 정보 이용 측면에서의 성과

  민족문화추진회의 대표적인 고전 문헌 데이터베이스는 고전국역총서로 분류된 문집 및 일반고전국역서, 국역승정원일기, 국역일성록 등 3종의 국역 자료 데이터베이스와 국학원전 및 한국문집총간(목차 및 해제 포함) 등 2종의 한문 원전 데이터베이스이다. 이러한 디지털 지식 자원들은 고전 문헌을 연구 자료로 삼는 인문사회 분야 전문 연구자들이나, 고전에서 창작의 소재를 찾는 저술가, 우리의 전통문화에 관심을 갖는 일반 대중 모두에게 자료에 대한 접근성과 이용의 편리성을 획기적으로 향상시켜 주었다.

  민족문화추진회의 고전 정보 데이터베이스의 특징은 그 속에 수록된 자료가 모두 국학 연구자들 심지어는 일반인들도 개인 장서로 보유할 필요가 있을 만큼 이용도가 높은 자료라는 점이다. 『고전국역총서』와 『한국문집총간』은 우리나라의 역사나 철학, 고전문학을 전공하는 연구자의 서재 어디에서나 찾아 볼 수 있는 책이었다. 그러한 책 800여 권에 담긴 내용이 이제는 컴퓨터 화면 위에서 마우스 버튼의 클릭만으로 얻어질 수 있다고 하는 것은 실로 혁명적인 일이 아닐 수 없다. 개인별로 그러한 규모의 장서를 소장하기 위해 쓰여졌던 물리적 공간의 비용만을 따져 보아도 고전 정보 데이터베이스의 사회․경제적 기여도는 결코 작지 않을 것이다.

  민족문화추진회의 고전 정보화 성과 중에서도 특히 주목되는 것은 우리나라의 대표문집 1,200여 종의 본문 텍스트를 모두 디지털화 할 계획으로 추진되고 있는 “한국문집총간 데이터베이스”이다. 현재 인터넷을 통해 483종 198 책 분량의 데이터가 서비스되고 있고 2005년 말에는 250집까지에 대한 DB 구축이 이루어지게 되며, 한국문집총간 정편 350책 수록 문집 663종 전체에 대한 DB화는 2007년에 완료될 예정이다.2) 이 데이터베이스가 의미를 갖는 이유는 그것이 우리나라의 고전 연구의 주요 자료들을 거의 망라했다고 할 수 있기 때문이다. 정보화에 있어서 이 “망라성”이 갖는 의미는 대단히 중요하다. 대상 자료의 일부만이 정보화되어 있는 상황에서는 그 자료에 대한 접근이 항상 전자적인 방법과 비전자적인 방법으로 이원화되게 된다. 컴퓨터를 통해 어떠한 정보를 검색했다고 하더라도 그것이 망라성 있는 결과가 되지 못하기 때문에 비전자적인 자료를 추가적으로 조사하는 수작업이 따라야 하는 것이다. 이러한 이중 작업의 불편은 이용자의 정보 시스템 의존도를 낮추게 된다. 한국문집총간 데이터베이스는 제작 완료가 되지 않은 현시점에서도 일정기간(고대 - 조선후기) 동안의 주요 문집 자료 대부분을 전자적으로 활용할 수 있는 환경을 제공한다. 고전 문헌 연구자들은 이제 이 데이터베이스를 편리하게 이용한다기보다 이 데이터베이스에 의해 연구방법을 바꾸게 되었다고도 해도 과언이 아니다.

  한국문집총간 데이터베이스는 한문 원전을 DB화 한 다른 기관의 데이터베이스들과 비교해도 “편찬의 우수성”에서 월등한 면모를 보인다. DB에 수록된 자원 전체의 목록을 일목요연하게 확인할 수 있고, 본문 기사가 체계적으로 계층화, 분절화되어 있어서 질의어 입력에서 출발하여 결과 목록의 열람을 거쳐 필요한 기사의 본문에 도달하기까지 과정이 순조롭다. 총목차, 해제, 본문 DB가 각기 다른 사업기간 동안 제작되어 독립된 DB로 존재하는 것이 아쉬움으로 남기는 하나, 이는 향후 시스템 보완 작업을 통해 용이하게 개선될 수 있을 것으로 보인다.

  한국문집총간 데이터베이스가 한문 원전 데이터베이스의 모범적인 사례로 꼽힐 수 있는 이유는 그것의 소스 데이터인 『한국문집총간』 책자가 전문적인 연구 편찬 성과물이었기 때문이다. 전문적인 편찬자들이 원시 자료의 편집에 기울인 세심한 노력은 정보화 과정에서 데이터베이스 내의 자료 구조에 그대로 반영되게 된다. 그 결과, 편집자의 노력이 부가되지 않는 채, 단순 작업자의 손에 의해 기계적으로 입력된 자료들에 비해 차별화된 이용 효과를 가져다 주는 것이다. 이 점이 규장각이나 장서각과 같은 도서관 장서의 정보화와 다른 점이다. 편찬자들이 한국문집총간 책자의 편찬에 쏟아 부은 노력이 책뿐 아니라 정보 시스템 상에서도 가치를 드러내고 있는 것이다.


2) 정보 검색 기술 개발의 성과

  민족문화추진회의 고전 정보 데이터베이스 개발은 한문으로 쓰인 고전 자료를 정확․신속하게 검색해 내는 기술을 개발하는 데에도 크게 기여한 바가 있다.

  컴퓨터의 저장 장치에 입력된 문자 데이터를 짧은 시간에 정확하게 검색해 내는 것은 정보 시스템의 기본적인 기능으로 너무도 당연시 되는 것이다. 그러나 한문 고전 데이터베이스의 경우 이것을 당연한 것으로만 여길 수 없는 이유가 있다. 그것은 바로 한자라고 하는 문자의 특성에서 오는 문제이다. 몇 년 전까지만 해도 한문 고전 문헌의 정보화에 필요한 많은 종류의 한자들이 정보 검색 및 데이터 반출3)이 가능한 형태로 데이터베이스에 수록될 수 없었다.4)

  한자를 제약 없이 사용할 수 있는 유니코드5) 기반의 정보검색 시스템은 민족문화추진회의 고전정보화사업을 비롯한 역사분야 지식정보자원관리사업을 통해 비로소 실제적으로 활용되게 되었다. 한국과학기술정보연구원에서 개발한 KRISTAL 2002 정보검색 엔진은 우리나라의 고전 자료의 데이터베이스 개발과 정보 검색 서비스의 환경을 제공하기 위한 목적으로 유니코드 한자 처리 기능을 강화한 시스템인데, 한문 고전 정보화 분야에서 이를 처음으로 실용화 한 조직이 민족문화추진회와 국사편찬위원회, 서울대 규장각 등이었으며, 한국국학진흥원, 경상대 문천각, 한국학중앙연구원 등이 그 성과를 이어받았다.

  정보기술 분야의 전문 연구기관에서 고전 분야의 정보화를 위해 특화된 시스템을 개발한 사실도 고무적이지만, 이 시스템의 실용화를 가져온 사용 기관의 노력도 이 분야의 기술 발전에 큰 기여를 한 것이라고 할 수 있다. 이러한 기술적 기여에 힘입어 한문 고전 문헌의 검색․활용에 더 이상의 큰 장애는 없게 되었으며, 이로써 데이터베이스에 수록된 한문 자료들을 순식간에 찾고, 복사하고, 그 내용의 일부를 수정하여 다시 데이터베이스에 올리는 일이 가능해진 것이다.

  한편, 한문 정보의 처리를 원활히 하는 과제는 아직도 몇 가지 해결되지 못한 문제를 안고 있다. 한문 검색의 특성상 본문 속의 개별 한자를 2중 3중으로 색인화하기 때문에 신규 데이터의 저장 속도가 느려지는 문제의 처리, 국제문자부호계 자체가 과도하게 포함하고 있는 각종 이체자, 이형자를 정보 검색시에 적절하게 통합 또는 구분하여 찾을 수 있게 하는 문제, 한문 데이터의 한글 독음 검색시 개별한자에는 적용되지 않는 음가가 특정단어에 적용되는 경우의 처리 등은 아직 그 해결 방안이 완전하지 않은 기술적 문제들이다. 그러나 이러한 문제들도 고전 정보 데이터베이스의 개발 과정에서 지속적으로 개선되어 가고 있으며, 특히 민족문화추진회는 이체자 정보 데이터베이스 구축 등의 방법으로 한문 정보 검색의 정확성과 신속성을 높이는 데 크게 기여하고 있다.6)


3. 고전 정보화 사업의 발전 과제


1) 지식 정보화의 과제

  우리나라의 고전 문헌 연구․편찬 관련 조직에서 현재까지 수행해 온 정보화 사업의 형태는 그 기관이 간행하였거나 소장하고 있는 문헌자료의 내용을 전자 매체로 옮기는 것이었다. 현재까지 그 목표를 순조롭게 완수해 내었다고 해도 그러한 매체의 전환이 정보화의 최종 목표는 아니다.

  우리가 힘들여 아날로그 데이터를 디지털 신호로 바꾸는 이유는 무엇인가? 자료에 대한 접근성의 향상과 자료 찾기의 효율화는 그것조차 불가능했던 상황에 비하면 혁명적인 진보이지만, 컴퓨터는 우리에게 그 이상의 것을 줄 수 있는 잠재력을 가지고 있다. 지식 정보화 시대의 정보 시스템에 거는 기대는 그것이 새로운 지식을 만들어 내는 지식 생산의 동반자여야 한다는 것이다.

  한국문집총간 데이터베이스가 우리의 한문 고전 문헌에서 옛 문화에 대한 지식 자원을 여러 가지 형태로 신속하게 제공해 주고 있는 것은 사실이지만, 현 단계의 데이터베이스는 그 점에서도 분명한 한계가 있다. 현재까지 구현된 한문 고전 데이터베이스의 정보 검색 기능은 단 한 가지 종류의 검색, 즉 한자 낱자에 대한 검색 기능에만 한정되어 있다. “天”, “地”, “人”, “物”과 같은 개별 한자 하나 하나가 색인화 되어 있음으로써 그 글자가 포함된 기사들을 몇 초 이내에 찾아 주는 것이다. 문집별, 집수별, 장르별 색인이 수반되어 있다고 해도 그것은 자료에 대한 접근 경로와 자료의 정렬 형태를 다양하게 하기 위함이지 내용 검색에 도움을 주는 것은 아니다.

  “天地”, “人物”과 같은 단어를 포함하는 기사를 찾는 것은 가능하나, 그것도 어디까지나 “天”이라는 글자와 “地”라는 글자가 연속하여 위치한 경우를 찾는 것일 뿐이다. 컴퓨터는 “天地”라는 글자가 하나의 단어를 이룬다는 사실조차 알지 못한다.

  조선시대 사대부가 여인들에게 금기시되었던 재혼에 관한 자료를 찾기 위해 “再嫁”라는 단어를 입력하면, 그 두 글자가 나란히 입력된 모든 기사를 찾는 것은 가능하되, 내용상 관련이 있어도 “再嫁”라는 문자열을 포함하지 않는 기사는 찾을 수 없다. 좀더 범위를 넓혀 조선시대 여인들의 생활에 대해 언급한 기사들을 찾고자 한다면 어떠한 방법을 써야 할까? “女性”이나 “女人”이라는 단어를 입력해서 원하는 자료를 망라적으로 얻을 수 있는 가능성은 희박하다. “女”, “妻”, “妾”, “婦”, “婢” 등의 글자를 일일이 검색할 경우, 관련 없는 자료의 홍수 속에서 자료찾기를 단념하게 될 가능성이 높다.

  고전 문헌 데이터베이스가 글자를 찾아 주는 기능에서 더 발전하여 내용에 대한 질문에 답을 줄 수 있도록 하는 방법은 무엇인가? 컴퓨터에게 그 스스로 자료의 내용을 판단할 수 있도록 하는 능력을 심어 주어야 한다.

  컴퓨터가 부분적으로 인간의 지적 판단을 대신하는 일은 결코 상상 속의 이야기가 아니다. 오늘날 누구나 이용하고 있는 인터넷 정보 포털 서비스의 기능을 보자. 질의어를 입력하면 경우에 따라 수천 건의 검색 결과가 나오기도 한다. 포털 사업체의 시스템 개발자들은 수많은 검색 결과 중에 어떠한 것을 결과 목록의 상위에 올려놓을지에 대해 고민한다. 이용자들은 몇 개의 상위 결과만 확인하고 그것에 의해 검색 서비스의 품질에 대한 판단을 내릴 것이기 때문이다. 하루에도 수 백만 건의 정보 검색이 이루어지는 포털 서비스상에서 검색 결과의 랭킹에 일일이 사람의 판단을 개입시킬 수는 없다. 포털 서비스의 정보 검색 엔진은 그 자신의 판단 능력에 의해 검색 결과의 순차를 결정한다. 정보 검색 엔진이 판단하는 랭킹의 기준은 예를 들면 이러한 것들이다. “역사”라고 하는 용어를 입력하였을 때 그와 관련된 업무를 취급하는 기관들의 홈페이지를 상위에 올린다. 역사 연구 기관의 웹 사이트에는 역사 관련 자료가 풍부하게 축적되어 있을 가능성이 높기 때문이다. 문서의 본문보다는 제목에 “역사”라는 단어가 포함되어 있는 문서를 우선시 한다. 그리고 본문 속에서는 “역사”라는 단어뿐 아니라 “한국사”, “세계사”, “고대사”, “근세사”와 같은 관련어가 많이 포함되어 있는 문서가 이용자가 원하는 자료에 근접할 가능성이 있기 때문에 관련어의 발생 빈도를 좇아 검색 결과의 등위를 결정한다. 일반 대중의 관심 동향을 좇아 “고구려”, “동북공정”, “교과서 왜곡”처럼 그 시기의 사회적 핫 이슈에 관련된 키워드를 우선시 하는 경우도 있다. 보다 진보한 이용자 특화 서비스를 제공하는 경우, 특정 이용자의 정보 검색 이력을 참조하여 그가 선호하는 것으로 판단되는 유형의 문서를 선별해 주기도 한다.

  아직까지는 단순하고 미흡한 장치에 불과하지만, 단어 검색의 수준을 넘어서서 지식이 될 수 있는 자료를 기계적으로 선별하고자 하는 시도는 정보 기술 분야에서 치열하게 경주되고 있다. 중요한 사실은 정보 시스템의 “지능”이라고도 이야기할 수 있는 기계적 판단의 모든 근거들은 사람에 의해서 미리 주어져야만 한다는 것이다. 고전 문헌 데이터베이스가 문자 검색 기능을 넘어서서 유용한 지식 정보를 선별해 주도록 하기 위해서는 그 지식의 기초 자원을 생산하여 컴퓨터가 그것을 학습하도록 하는 과정이 필요하다.


2) 고전 정보 시스템의 지식 기반

  한국문집총간과 같은 고전 문헌 데이터베이스를 고전에 대한 지식 생산의 동반자로 만드는 첫 번째 과업은 독립적인 글자의 집합으로만 이해되던 텍스트 데이터 중에 어떠한 것이 의미있는 키워드인지를 알게 해 주는 것이다. 한문 문헌 데이터베이스의 정보 단위를 “글자”에서 “용어”로 향상시키는 이 일은 현재까지 민족문화추진회에서 해 오던 연구 편찬 사업과 전혀 무관하지 않다. 표현을 바꾸어 말하면 데이터베이스 내에 용어 색인을 포함시키는 일인 것이다.

  민족문화추진회에서는 1993년부터 2004년까지 『한국문집총간』에 담긴 주요 용어에 대한 색인집을 간행하는 사업을 수행하여, 조선 전기까지 간행된 문집 212종의 용어 색인을 간행한 바 있다.7) 이 사업이 중단된 것은 서책색인이 사업의 성격상 인력과 시간의 소요가 너무 많은 일이었기 때문일 것이라고 판단된다. 용어 색인집을 책자로 간행하는 것은 이용의 편의성 측면에서 재고할 여지가 있는 일이기는 하나, 용어 색인을 생산하는 업무 자체를 중단한 것은 아쉬운 일이다. 새로운 방법론의 도입으로 지식 정보 생산에 직결되는 성과를 만들어내는 것도 가능한 것이기 때문이다.

  다행히 민족문화추진회는 2005년 하반기부터 교육인적자원부가 지원하는 국학진흥사업의 일환으로 “고전용어 시소러스 개발 사업”을 신규 사업으로 추진하게 되었다.8) 중단되었던 고전용어 색인 작업을 새로운 형태로 재개할 수 있게 된 것이다. 이 “고전용어 시소러스”를 어떠한 형태로 개발하면, 한국문집총간이나 국역총서와 같은 고전 정보화 사업 성과물이 지능적인 지식 검색 서비스를 수행하는 데 보탬이 될 수 있을까?

  민족문화추진회에서는 “고전용어 시소러스”가 지식 검색의 도구가 되도록 하기 위해 추출된 용어의 분류 작업에 “개념형 분류 체계”(Ontology)를 적용한다는 계획을 밝히고 있다.9) 온톨로지란 무엇인가?

  정보과학 분야에서는 정보 검색이나 전자상거래, 인공지능 시스템에서 중요한 기능을 담당하는 “어휘나 개념의 명세”에 대해 “온톨로지”라는 이름을 부여하고 있다. 온톨로지(ontology)는 철학에서 “존재론”이라고 번역되는 용어로서 “존재에 대한 이해를 추구하는 학문”의 의미를 갖는 말이었다. 그러한 용어가 정보과학 분야에서 중요한 개념으로 등장하게 된 것은 인간이 세계를 이해하는 틀과 컴퓨터가 정보화 대상(콘텐츠)을 이해하는 틀 사이에 유사성이 있다고 보았기 때문이다. 그 틀은 바로 대상을 구성하는 요소들에 대응하는 개념들 또는 그 개념들간의 연관관계이다. 다시 말해, 정보 기술 용어로서의 온톨로지는 “정보화 대상이 되는 분야의 기본 개념과 그 개념들간의 상관 관계를 정리한 명세서”를 의미한다.


구분

주체

온톨로지

대상

철학적

온톨로지

인간

존재론

세계

정보과학적

온톨로지

컴퓨터

체계적 개념 명세

대상 자료


<철학적 온톨로지와 정보과학적 온톨로지의 비교>


  그렇다면 고전 문헌 자료의 수록 어휘를 대상으로 하는 “고전용어 시소러스”는 어떠한 형태로 개발되었을 때 “온톨로지”라고 이야기할 수 있는가?  일반적인 용어사전과 온톨로지의 차이점은 데이터의 형식에 있다기보다 그것의 활용 목적, 즉 그것이 사람을 위한 것이냐, 컴퓨터를 위한 것이냐 하는 데 있다고 보아야 한다. “고전용어 시소러스”를 만드는 목적이 “고전 정보 시스템”이 “고전 정보 자료”를 처리하는 능력을 강화하는 데 있다면, 그것은 정보과학에서 말하는 온톨로지의 일종으로 이해할 수 있다.

  “고전용어 시소러스” 개발의 목적을 지능적인 고전 정보 지식 검색 시스템의 구현에 둔다면, 그 실천 방안은 어떻게 강구되어야 할까? 무엇보다도, “고전용어 시소러스”는 “고전 정보 시스템”의 지식 검색 기능을 구현하기 위한 선행 작업으로 추진되는 것이며, 사람들에게 쓰이기 위한 사전에 그치는 것이 아니라, 기계가 활용할 수 있는 사전으로 만들어져야 한다는 목표 의식을 분명히 할 필요가 있다. 이 목표 의식의 여하에 따라 세부적인 작업의 내용과 성격이 달라지게 되며, 결과적으로 지식 정보 시스템 개발에의 적용 가능 여부가 판가름 나게 된다. 출발점은 일반적인 용어사전의 개발 과정과 다르지 않다. 고전 문헌의 자료 속에 등장하는 유의미한 용어들을 수집하고, 그것들 사이의 연관관계를 정의하는 일은 향후 몇 년간 지속적으로 추진해야 할 과제이다. 본격적인 고전 지식 온톨로지의 개발은 이 기초 단계의 작업이 어느 정도 이루어지고 난 후에 그 토대 위에서 이루어질 수 있다. 다만, 사업의 첫단계에서부터 유념해야 할 것이 있다면, 이 사업의 최종 산출물의 소비자가 기계라는 사실, 그렇기 때문에 용어의 선정이나 관계 설정에서 모호성의 발생 여지를 최소화하는 방안을 여러 각도에서 강구해야 한다는 것이다.

  필자는 민족문화추진회에서 추진하고자 하는 “고전용어 시소러스” 개발의 세부 과제를 다음과 같이 제안한다.


① 색인어 추출:고전 문집 원문에서 지식의 단위 요소가 될 수 있는 “용어”들을 추출하여 목록화

② 시소러스 개발:①에서 추출된 용어를 사전 형태로 정리. 의미적 연관 관계가 있는 것 사이의 관계 정의

③ 분류체계 개발:고전에 관한 지식의 분야별 분류 체계의 구성

④ 용어 기반 지식 분류 데이터베이스 구축:분류 체계에 등록된 분류 주제어를 그와 관련 있는 용어사전 용어와 결합시킨 형태의 지식 데이터베이스 개발    

  여기서 중요한 것은 고전 문집 텍스트에서 유의미한 어휘를 추출하고 그 어휘간의 의미적 연계성을 찾아 관계를 맺어 주는 일과 (①, ②) 고전에 대한 지식의 트리를 구성하는 (③) 작업은 별개의 일이며 그것이 서로 혼동되어서는 안된다는 것이다.10) 별개의 영역에 속하는 두 분야의 성과물을 연계시켜서 지식 검색을 위한 용어 분류 데이터베이스를 만들어 내는 것(④)은 마지막 단계의 일이다.


4. 고전용어 시소러스 개발 전략


1) 용어 수집 방안

  민족문화추진회의 “고전용어 시소러스” 개발 계획은 1차년도의 용어 수집 방안을 다음과 같이 예정하고 있다.


①『한국문집총간색인』 1〜8집 데이터를 활용하여 수집 정리한다.

국역서, 인명사전, 고법전 용어집 등 관련분야 참고자료를 활용한다.

③ 인명, 지명, 서명, 관직명, 제도명, 일반 용어 등을 수집한다.

④ 출현 빈도와 중요도에 대한 등급을 설정하여 통계정보와 함께 정리한다.

⑤ 최소 구축 목표량의 5배수인 40,000개 이상을 수집한다.


  “고전용어”를 막연히 “우리 고전”에 쓰인 용어라고 정의해도, 그 가운데에는 한문 용어, 국문 용어, 한문 용어의 국역 또는 현대어역 등 여러 가지가 있다고 할 수 있다. 민족문화추진회에서 계획하고 있는 “고전용어 시소러스”는 그 가운데에서도 한문 고전 문집(『한국문집총간』 수록 문집)에 실제로 수록된 한문 용어들을 대상으로 한다.

  『한국문집총간』과 같은 한문 문집에서 의미있는 용어(키워드, 색인어)를 추출하는 작업은 대상 자료의 내용을 잘 알고 있는 전문가가 사전에 정해진 원칙에 따라 수작업으로 행하는 것이 가장 바람직하다. 그러나, 앞에서 언급하였듯이 이러한 방식의 수작업에 의한 용어 색인 추출 작업은 인력, 비용, 시간의 문제로 중단된 상태이기 때문에 컴퓨터를 이용한 대안을 찾는 것이 당면과제라고 할 수 있다. 컴퓨터를 활용한 효과적인 색인어 추출 작업에는 어떠한 것이 있을 수 있을까?

  민족문화추진회는 한국문집총간 초기 발간분 1집~48집의 내용에 대한 용어 색인을 간행하는 과정에서 색인어 추출의 상세한 원칙을 정하고, 실무 작업의 경험을 축적하였다. 여기에서 확보된 지식과 경험은 컴퓨터를 활용한 고전용어 추출 작업을 위해서도 유용하게 활용될 수 있다. 무엇보다도 이 기추출 색인어가 분석되지 않은 나머지 문집 자료에서 새로운 색인어를 뽑는 기준이 될 수 있기 때문이다.11)    

  이러한 색인어 범주는 오랜 기간 동안 고전 문집을 편찬하고, 그 저작물에 기초한 학술 연구에도 종사해온 민족문화추진회 전문 연구진들이 실무 작업의 경험 위에서 만들어낸 것이므로, 한문 고전 문집의 용어 색인 범주로서 그 타당성을 충분히 인정할 수 있을 것으로 생각한다. 아직 분석되지 않은 한국문집총간 잔여분의 색인어도 이러한 범주에 속하는 어휘들을 추출하면 될 것이다. 그것은 기계적인 방법으로도 가능할까?

  가장 용이하게 생각할 수 있는 방법은 기추출된 색인어의 전자화된 목록을 기초 데이터로 삼아 한국문집총간 텍스트 전체에 대한 순차 검색을 진행하여, 목록의 단어와 일치하는 텍스트 속의 문자열을 추출하는 것이다. 하지만, 이 방법은 한국문집총간 색인의 정교한 구조와 그로 인한 복잡성 때문에 실효를 거두기 어렵다. 한국문집총간 색인은 단순히 본문 속의 용어를 추출한 데 그치는 것이 아니고, “내용색인”을 겨냥하여 상당수 용어에 대해 주항목과 종속항목을 구분하여 서술적으로 표현하였고, 또 그러한 편찬 방식에 적합하도록 용어 자체를 가공한 부분도 적지 않다.12) 따라서 『한국문집총간색인』에 수록된 항목이나 어휘들을 단순 정렬하여 참조 데이터로 삼는 방법은 실효를 거두기 어렵다. 기존 데이터를 성급하게 응용하려 하기에 앞서 그것을 정밀하게 분석하여 유용한 참조 데이터로 재가공해야 한다.

  기계적 방법에 의한 고전용어 추출 작업의 첫단계는 『한국문집총간색인』 등재 용어 하나 하나에 대해 고전 문헌의 검색 키워드로서의 역할을 할 것인지를 다시 살펴서 유효한 것을 가려내는 것이다. 그 다음 과정은 유효한 용어들을 유형별로 범주화 하여 몇 개의 유형별 “참조 사전”을 만드는 것이다. 이때 『한국문집총간』 색인 자료가 아니라도, “인명사전”이나 “지명사전” 등의 데이터를 부가적으로 활용하는 것이 반드시 필요하다.13) 

  “참조 사전” 구축에 관해 필자가 제안하고 싶은 것은 “인명”, “지명”, “서명”, “관직명”, “연호”, “개념․용어”, “사물명”, “시문의 제목” 등 유형별로 정리된 색인어 후보들을 하나로 묶기보다 각각 별개의 사전으로 관리하라는 것이다. 그렇게 하면 매칭 작업 결과 문집 텍스트에서 추출된 용어들에 대해서도 유형 분류를 어느 정도 자동적으로 할 수 있기 때문이다. 그 용어의 유형이 무엇이냐 하는 것은 향후 그 용어 사전을 지식 검색의 도구로 활용할 때 매우 유용하게 쓰일 수 있다.

  “참조 사전” 구축과 병행하여 수행해야 할 기술적인 작업은 이 사전 등재 용어를 참조하여 문집 본문으로부터 키워드를 기계적으로 추출하는 프로그램을 만드는 일이다. 이러한 기능의 프로그램은 소프트웨어 개발 기술자들에게 의뢰하여야 할 일이지만, 그 프로그램의 설계에는 고전용어의 특징에 대해 잘 알고 있는 전문가가 깊숙이 관여해야 한다. 한문 문장 속에 쓰인 인명, 지명, 관직명, 개념․용어 등은 영어 문장에서처럼 분명하게 단어별로 구분되어 있지 않은 경우가 많다. 사람을 지칭하는 표현만해도, 완전한 형태의 성명이나 자, 호 외에 “성+존칭”, “성+지명”, “성+관직명”, “성+신분”, “성+가족관계”, “지명+존칭”, “지명+신분”, “국명+묘호” 등 다른 유형의 용어와 결합한 다양한 형태가 있어서, 이러한 문자열을 단순한 문자열 비교 방법으로만 분석해 내기가 어렵기 때문이다.

  키워드 자동 추출 프로그램은 그 다양한 용례의 패턴에 대한 정보를 풍부하게 가지고 있어야만 한다. 한글이나 영문 텍스트에서 사전(辭典)에 등록된 키워드를 뽑아내는 프로그램의 개발은 여러 각도에서 연구된 바 있지만, 한문 문장을 대상으로 한 프로그램의 개발은 적어도 우리나라에서는 아직까지 시도된 바가 없다고 보여진다.14) 결국 민족문화추진회에서 구상하는 고전용어의 기계적 추출은 이 분야에서도 처음 시행하는 선도적 연구․개발의 성격을 지니며, 그 점에서 리스크가 높은 시도가 아닐 수 없다. 즉각적인 유용성을 기대하기 보다는 참조 사전의 구축 및 용어 사용 패턴 분석 등 기초적인 작업을 충실히 하면서 점진적으로 프로그램의 수준을 높여가는 인내심이 필요하다고 보여진다.15)

  색인어의 기계적 추출을 어느 정도 신뢰성 있게 수행하는 프로그램의 개발이 이루어지면, 그 프로그램을 이용하여 문집 텍스트로부터 유의미한 고전용어가 포함된 문장을 뽑아내는 작업16) 및 그 용례 예문을 사람의 눈으로 검증하여 유효성 여부를 확정하는 작업이 이어지게 된다.

  기계적 작업의 결과를 인력으로 확인하는 것은 매우 비능률적인 작업 방식으로 생각되겠지만, 컴퓨터 프로그램과 친화하지 않은 고전 한문 텍스트의 분석에서는 불가피한 일이다. 아마도 이러한 작업의 초기 단계에서는 기사 하나 하나를 사람이 읽어서 용어를 추출하는 것보다 더 많은 시간과 노력이 필요할지도 모른다. 하지만 반복 시행에 의해 참조할 수 있는 데이터가 더 많이 축적되고, 프로그래밍의 노하우가 쌓이면서 점진적으로 작업의 능률을 높일 수 있을 것이다.17)


2) 용어간 관계 정의 방안

  고전용어 시소러스가 고전 문집에 수록된 어휘들의 평면적 나열이 아니라 어휘간 상관 관계를 밝혀 주는 기능까지 수행하기 위해서는 유의어, 관련어, 상위어, 하위어 등 용어간 관계를 지정하는 작업이 필요하다. 민족문화추진회의 사업 계획에 의하면 아래와 같은 방식으로 용어의 속성 및 용어간 관계를 정의하고자 계획하고 있다.


가. USE : 우선어

나. SN(Scope note) : 초점 의미

다. UF(Use for) : 비우선어(유의어, Synonym)

라. BT(Broader term) : 상위어

마. NT(Narrow term) : 하위어

바. RT(Related term) : 관련어

사. LK : 분류체계

아. TI(Time Information) : 시기 정보

자. PE(Period) : 시대


  이와 같은 시소러스 구조는 자료 검색의 편의를 위해 정보 편찬자가 부여하는 주제어 색인 시소러스의 일반적인 형태이고,18) 또 가장 단순한 형태에 속하기 때문에 이 형식을 고전용어 시소러스에 적용하는 데에 큰 이견은 없을 것이다. 그러나 현대적인 학문 분야의 주제어 색인어는 “학술 용어”로서 어느 정도 명확한 의미를 공유하기 때문에 용어간 관계를 정의하기가 용이하나, 고전용어의 관계 정의는 매우 난이도가 높은 작업이다. 다음은 동 사업계획 상에서 예시하고 있는 사례이다.


USE : 歸去來辭

SN : 중국 동진(東晉)의 시인인 도연명(陶淵明)이 지은 시.

UF : 去來辭 去來篇 歸去來歌 歸去辭 歸去詞 歸去賦 歸去篇 歸來 歸來曲 歸來賦 歸來辭 歸來引 歸來篇 歸田賦 歸田吟 今是篇 陶賦 來歸

RT : 陶淵明

PE : 東晉


  도연명의 “귀거래사(歸去來辭)”라는 작품명이 우리 고전 문집에서 얼마나 다양한 형태로 나타나는지 이 예시가 잘 보여주고 있다. 그러나 이 예시에서 보여주는 우선어와 유의어의 관계는 그 단어들의 사전적 의미에 기초한 것이 아니라, 어느 문장 속에서 그렇게 쓰인 적이 있다는 사례에 근거를 두고 있다. 이것은 무엇을 의미하는가? 위에 예시한 용어간 관계는 텍스트로부터 시소러스 등재 대상 용어를 선정하는 과정에서 파악될 수 있는 것이며, 용어들을 추출해 놓은 후에는 그 용어들 사이의 의미 연관관계를 파악하기가 용이치 않은 것들이다.

  이러한 사실은 수작업을 통해 이미 용어간 관계가 파악된 기추출 용어 외에 기계적인 방법으로 발굴해 낸 새로운 용어들에 대해서는 관계성 부여를 해 주기가 어렵다는 얘기가 된다. 고전용어 시소러스 개발 사업은 고전용어의 특성에서 오는 이러한 한계를 명확히 인식하고 현실적인 관계성 부여 전략을 세워야 한다. 그것은 『한국문집총간』 기존 색인 등에서 이미 조사된 용어간 관계, “참조 사전”에 등재된 후보어들의 속성에 의해 미리 정의할 수 있는 용어간 관계를 최대한 활용하고, 기계적으로 추출된 용어에 대해서 새롭게 관계성을 부여하는 일, 기존 용어에 대해서라도 관계성을 추가로 부여하는 일은 그 시행 여부를 매우 신중하게 결정해야 한다는 것이다.

  기존 『한국문집총간색인』의 경우 우선어(USE)와 유의어(UF), 관련어(RT)에 대한 정보는 풍부하게 보유하고 있으나, 상위어(BT), 하위어(NT) 정보를 포함하고 있지는 않다. 이러한 상황에서 새롭게 종합적으로 구축되는 고전용어 시소러스에서 상위어와 하위어의 관계를 무리하게 정의하려 할 필요는 없다. 지식 범주의 상하 관계는 용어사전 구축과는 별도로 진행되는 분류체계(개념 계층도)에서 다룰 것이기 때문이다. 다만, “관서명”, “관직명”, “법전의 조항”, “행정지명”, “서책의 편명”처럼 이미 계층적으로 조직된 대상에 대해서는 “기초사전”에 그 상하 관계를 미리 정의해 두고, 『한국문집총간』에서 추출된 단어들은 그 기초사전의 관계를 그대로 계승하도록 하면 된다. 특정 인명에 대한 각종 별호 역시 “참조 사전”에서 정의된 것을 기초로 한다. 문집의 원문 용례 중 인명사전에 없는 특별한 이칭은 한국문집총간 기존 색인에서 조사된 것을 “참조 사전”에 미리 포함시켜 놓도록 한다.


3) 분류체계 개발 방안

  한국문집총간 데이터를 전자적인 지식 생산 도구로 발전시키기 위해 시행해야 할 다음 단계의 과제는 고전 문집에 대한 지식 개념의 분류 체계 (개념의 계층적 구조, Concept Hierarchy)를 구성하고 수집된 고전용어와의 관계를 맺어 주는 일이다.19) 

  민족문화 추진회는 고전용어 시소러스를 위한 분류체계 개발 계획을 다음과 같이 수립하고 있다.


① 정리된 용어와 관련 자료를 분석하여 고전용어를 효율적으로 분류할 수 있는 체계를 마련한다.

② 주제형 분류 체계(Taxonomy)를 중심으로 설계하되 개념형 분류 체계(Ontology)를 혼합 적용한다. 

③ 기존의 한국학 관련 분류체계를 검토하여 참조한다.

④ 전문가들의 관심과 지식 체계를 반영한다.


  이 계획에서는 문집에서 추출된 용어들을 분석하면, 그 용어들을 묶을 수 있는 체계가 귀납적으로 도출될 것이며, 여기에 용어 분류, 학문 분류에 대한 기존의 성과들을 이용하면 그 용어의 범주 체계를 구성할 수 있을 것으로 기대하고 있다. 그러나 철학이나, 경제학, 전자공학과 같은 전문적인 학문 분야가 아니고 “고전”이라고 하는 막연한 범위의 지식 영역에 대해 체계적인 개념 분류의 틀을 마련하는 것은 분명 용이한 일이 아니다. 모범적인 선행 사례를 찾는 것도 쉽지 않다. 고전용어 시소러스에 대해 유사성, 중복성 논의가 있는 국사편찬위원회의 “역사 용어 시소러스”20)의 분류체계를 보아도, 거기에서 취급하고 있는 각종 분류 주제들과 앞으로 개발될 고전용어 시소러스의 분류 주제 사이에 밀접한 연관성이 있을 것으로 보기 힘들다.21)

  고전용어 시소러스를 위한 분류 체계의 구성은 민족문화추진회에서 보다 치밀한 연구․조사 과정을 거쳐서 신중하게 현실성 있는 방법을 찾아가야 할 과제이다. 용어의 의미와 성격에 기반한 분류 작업은 고전 문집 기사를 오랜 기간 다루어 온 민족문화추진회의 연구 편찬자들이 누구보다도 전문적인 지식을 많이 축적하고 있을 터이므로 개발 목적과 응용 분야가 상이할 수 있는 기존의 지식 분류 체계에 얽매이기보다는, 매우 한정된 범위라 할지라도 우리 고전에 담긴 전통적인 지식의 요소들을 파악할 수 있는 새로운 분류 체계를 개발할 것을 기대한다.

  이러한 요청과 관련하여 필자는 “용어 분석 + 기존 분류체계 응용”의 방법이 아닌 다른 방법, 즉 문집에 실린 기사의 내용으로부터 고전 지식의 주제 분야를 도출하는 방안을 제안하고자 한다. “용어의 분류체계”가 아니라 “기사의 분류체계”를 만든다고 해야 할 이 작업은 문집 총간 문집에 수록된 기사 하나 하나의 내용에 부합하는 주제 표목을 추출하고 그 표목들로 이루어진 계층적 체계도를 구성하는 것이다. 이 방법을 작업 과정의 예시를 통해 설명하면 다음과 같다.


① 다양한 성격의 기사를 담고 있는 주요 문집 수록 기사 가운데 본문 속 키워드와 기사 내용과의 상관 관계가 높을 것으로 추정되는 기사를 일정 비율로 선정한다.22) 예를 들어 인문사회과학의 학문적 연구 자료로 많이 쓰이는 잡저(雜著), 기(記), 설(說,), 서(書) 등의 장르에 속하는 기사로서, 앞에서 수행한 용어사전 구축 작업의 결과 키워드의 포함 빈도가 높은 자료를 기사 분류 작업 대상 자료로 선정한다. 여기에 시대별, 인물별 안배도 고려할 필요가 있다.

② 선정된 자료에 대한 내용 분류 작업을 시행하면서, 거기서 산출된 결과를 가지고 개연성 있는 기사 분류 체계를 만들어 나아간다. 즉 임의로 추출된 기사 주제 표목이 일정 분량 축적되면, 그 표목의 내용적 유사성, 상호 관련성에 따라 표준화된 표목 체계를 구성하고, 그 이후의 작업은 표준 표목표를 활용하되 추가로 발생하는 정보를 가지고 표준 표목표를 확대 개선해 가자는 것이다.    

  이러한 방식의 기사 분류에 대해 기대할 수 있는 성과는 색인어와 기사 주제간의 관련성에 대한 데이터의 축적이 가능하다는 것이다. 즉, 특정 색인어 군을 포함하는 기사는 특정 주제의 내용일 수 있다는 개연적인 규칙이 만들어질 수 있다. 개연성을 기대하는 이 경험적 규칙을 아직 분류되지 않은 다른 기사에 적용하여 정보 검색시에 특정 주제와 관련이 있을법한 기사를 컴퓨터가 기계적으로 제공하도록 할 수 있을 것이다.

  물론 이러한 방법이 유효한 성과를 내기 위해서는 기초 데이터의 축적뿐 아니라 색인어 군과 기사 내용 주제 사이의 상관성에 따라 개별 색인어에 여러 단계의 가중치를 부여하고, 색인어 군의 변이에 따라 내용 주제 관련성의 정확도를 달리 판단해 주는 정교한 데이터 분석 알고리즘이 개발되어야 한다. 이와 관련한 정보과학적 기술23)은 신문기사정보나 산업기술정보와 같은 타분야의 지식 정보 처리 영역에서 심도 있게 연구되고 있으므로, 인문학이나 고전 문헌 분야에서도 유효한 데이터의 축적만 이루어진다면 유사한 수준의 성과를 기대해 볼 수 있다.


<용어 기반 지식 검색 시스템의 개발 및 활용 프로세스>



5. 맺음말


  한국문집총간 데이터베이스는 1,200여 종에 달하는 우리나라 역대 주요 문집의 본문을 모두 담게 될 방대한 규모의 전자적 지식 베이스이다. 자료의 양이 방대할 뿐 아니라, 그 편찬을 위한 인적․물적 투입의 규모도 다른 어떤 정보화 사업 성과물에 뒤지지 않는다. 이미 이 지식 자원 데이터베이스는 연구자들이 수백 권의 책을 서재에 비치해야 하는 수고의 필요성을 소멸시켰으며, 자료를 찾기 위해 몇 년씩 책장을 넘겨야 하는 노고도 현저하게 절감시켰다. 하지만 보다 중요한 것은 이미 만들어낸 성과보다도 더 놀라운 이용 가능성이 이 전자 자료에 잠재되어 있다는 것이다.

  현재 본문 속의 낱글자만을 찾아 주는 이 데이터베이스의 기능을 “지식”을 제공해 주는 수준으로까지 업그레이드하는 것이 언젠가는 가능할 것이기 때문이다. 그러나 그 잠재적 가능성은 컴퓨터 전문가들이 추구하는 정보 기술의 발전만으로 현실화되지 않는다. 어린아이의 지능이 반복되는 학습을 통해 성장하는 것처럼, 이 데이터베이스도 인간이 가르쳐 주는 지식의 단위 요소들을 부단히 섭취해야만 보다 수준 높은 지식 생산의 보조자, 또는 동반자로 성장할 수 있다.

  컴퓨터에게 언어 분석의 능력과 그것에 기반한 논리적 추론 능력을 부여하려고 애쓰는 자연어 처리 연구자들도 그것만으로 컴퓨터가 인간의 지식 활동을 보좌하는 역할을 할 수 있으리라고는 기대하지 않는다. 특정 분야의 전문 지식을 체계적으로 습득하는 학습 과정이 반드시 필요하다는 것을 인정하고 있는 것이다.

  현재의 한국문집총간 데이터베이스는 덩치만 컸지, 그 지능은 갓 태어난 영아의 수준이라고 해도 과언이 아니다. 그것이 우리 고전에 대한 지식을 얻고자 하는 정보 이용자의 요구에 지능적으로 대응할 수 있도록 하기 위해서는 고전 문헌 속의 가장 기본적인 어휘가 무엇인지를 가르치는 일부터 시작해야 한다. 이 글의 본론에서 다룬 고전용어사전의 구축과 분류체계의 구성은 한국문집총간 데이터베이스를 위해 고전 자료의 연구․편찬자들이 담당해야 할 역할이다. 이들에 의해서 만들어지는 지식 자원 데이터가 한국문집총간 원문 데이터와 결합하여 지능적인 지식 검색 기능을 수행할 수 있도록 하는 프로그래밍 기술은 정보 기술 분야의 전문가들이 지원해 줄 수 있을 것이다.

  한국문집총간 데이터베이스를 위한 현재까지의 노력은 “원시자료의 디지털화”를 위주로 한 것이었기 때문에 고급 정보 기술의 도입이 시급하지 않았으며, 데이터의 정확한 입력과 교열만이 사업 완수의 관건이었다고 할 수 있다. 그러나 이 데이터베이스가 현재의 수준에 머물지 않고, 차세대의 지식 베이스로 발전하기 위해서는 지금까지와는 다른 차원의 학제적 연구 노력이 필요하다. 민족문화추진회에서 민족 고전 데이터베이스의 미래화를 위해 기획하고 있는 고전용어 시소러스 개발 등의 차기 과제는 사업 시행 초기 단계부터 역량 있는 정보과학 전문가들의 참여가 필요하다는 점을 강조해 둔다.




[영문초록]


A Strategy for Development

of Korean Classics Knowledge Information Systems


     Korean Classics Research Institute has been doing various database construction projects on Korean classics. One of the most representative databases compiled by the institution is the Database of Korean Literary Collections. The content of the database is the Korean literary works of distinguished writers who lived in the pre-1910 period. Korean Classics Research Institute has launched a new project in 2005 to enhance the usability of the database. It is to develop a comprehensive thesaurus of Korean classic terms, using the key words abstracted from the text of the Korean Literary Collections.

     In this study, observations have been made on how to develop the "Thesaurus of Korean Classic Terms." And the detail process is proposed as follows:

     1. Keyword Abstraction: Abstract the terms from the text of the Korean Literary Collections. The terms will be used as the basic unit of  knowledge on Korean classics. 

     2. Thesaurus Compilation: Arrange the abstracted key words, define the type of relations between related terms, and organize them into a thesaurus type word list.

     3. Development of Classification Scheme: Classify the individual articles in the Korean Literary Collections according to the major subject of each article. And then, construct a structural scheme of those subject headings.

     4. Construction of Term-based Knowledge Classification Database: Develop a database where the registered classification subjects have relations with certain natural terms abstracted from the text of the Korean Literary Collections.

     In the current information system of the Database of Korean Literary Collections, the text is only recognized as sequence of individual characters. For that reason the retrieval function of the system is restricted to that of "character search." The development of the "Thesaurus of Korean Classic Terms" is purported to make the information System more intelligent. If the thesaurus is developed being based on the conception of knowledge classification database, semantic-based information retrieval will be available, and it will be applied to  not only the Database of Korean Literary Collections but also other various databases of Korean studies materials.



Key words:

한국문집총간, 고전 용어 시소러스, 온톨로지, 의미 기반 정보 검색, 자동 분류

Korean Literary Collections, Thesaurus of Korean Classic Terms, Ontology, Semantic-based Information Retrieval, Automatic Classification




1) 고전 정보화 사업 데이터베이스 구축 및 서비스 현황(www.minchu.or.kr)

분류

내용

간행 자료

DB 구축 및 Web 서비스

국역

(고전국역총서)

국역승정원일기

196 책

179책

국역일성록

44 책

33책

고전 문집, 기타

99종 935책

46종 237책

한문

원전정리

한국문집총간

663종 350책

483종 198책

국역원문

국학원전

 

12종 58책

난해원전

오주연문장전산고

25책

25책

자료실

청소년

민족문화문고

68종 133책

어린이 자료실

회보

민족문화

76호

목차

회지

민족문화추진회보

27집

본문

서지

국학고전국역서서지정보

550건

목록

멀티미디어

사서성독

 

음성자료

   당해연도 사업이 종료되는 2005년 말에는 다음과 같은 자료가 추가될 예정이다: 고전국역총서 송시열의 송자대전(宋子大全), 허목의 미수기언(眉叟記言), 승정원일기 등 8종 44책, 한국문집총간 총번 193집에서 242집까지 수록된 이익의 성호전집(星湖全集), 안정복의 순암집(順菴集) 등 69종 50책


2) 한국문집총간 데이터베이스 구축 현황 및 계획 (민족문화추진회 편찬실 제공)

연도

지식정보자원관리사업

자체전산화사업

비고

2000년

53종 15책

1종 3책

 

2001년

65종 17책

1종 6책

 

2002년

247종 72책

 

2003년

72종 57책

 

2004년

44종 28책

 

소계

481종 189책

2종 9책

483종 198책

2005년

69종 50책

-

 진행중

2006년

60종 52책

-

 계획

2007년

51종 50책

-

 계획

소계

180종 152책

-

180종 152책

총계

661종 341책

2종 9책

663종 350책


3)정보 검색의 결과로 얻어진 데이터를 문서편집기 등의 외부 프로그램에서 사용하기 위해 데이터베이스로부터 전송받는 것.


4) 1995년에 간행된 국역조선왕조실록 CD-ROM의 경우 당시의 컴퓨터 시스템에서 제공하지 못했던 1만 자 이상의 한자를 처리하기 위해 별도의 코드 체계를 개발하고, 그에 따른 디지털 한자 폰트를 제작하여 사용하였다. 이러한 방법으로 정보의 검색과 출력은 가능했으나, 그것이 비표준 문자부호계였기 때문에 외부 프로그램을 위한 데이터 반출시 문자의 소실을 수반하였다.


5) ISO/IEC 10646 Universal Multiple-Octet Coded Character Set


6) 민족문화추진회는 “지식정보자원관리사업”의 일환으로 우리나라 고전 문헌에 나타나는 한자 이체자의 용례 조사 사업을 시행하고 있다. 여기에서 만들어진 데이터는 한국과학기술정보연구원에 제공되어 KRISTAL 정보 검색 엔진의 한자 이체자 검색 기능을 강화하는 데 활용될 예정이다.


7) 한국문집총간색인 간행 현황

색인 집수

간행년

대상 한국문집총간 집수

대상 문집 종수

1

1993

제1집∼제5집

崔致遠의 桂苑筆耕集 등 25종

2

1994

제6집∼제12집

金九容의 惕若齋學吟集 등 42종

제13집∼제19집

3

1995

崔淑精의 逍遙齋集 등 40종

4

1996

제20집∼제25집

金安國의 慕齋集」등 22종

5

1997

제26집∼제32집

尙震의 泛虛亭集」등 21종

6

2002

제33집∼제38집

金麟厚의 河西全集」등 30종

7

2003

제39집∼제43집

具鳳齡의 栢潭集」등 20종

8

2004

제44집∼제48집

李珥의 栗谷全書」등 12종


8)  “고전용어 시소러스 개발 사업”은 민족문화추진회 주관으로 2005. 9. 1부터 2010. 7. 31까지 5개년 사업으로 추진하기로 되어 있으며,『한국문집총간』1〜350집을 대상 자료로 삼아 그 속에서 정보 검색의 키워드 역할을 할 수 있는 색인어 51,000 개를 추출하고, 이를 분류하여 체계화 하는 것을 목표로 한다.

   이 사업계획서가 제시하는 사업의 목적은 다음과 같다.

   ① 효율적인 검색 시스템 제공

   - 이용자들이 용어의 의미를 정확히 이해하고 적절한 색인어를 선택하여 검색할 수 있도록 함.

   ② 텍스트 관리 위주의 정보화 사업 보완

   - 효과적인 정보 접근 시스템의 개발로 전산화된 자료의 활용을 극대화함.

     (민족문화추진회, 고전용어 시소러스 개발 사업 계획, 2005. 8.)


9) 민족문화추진회, 고전용어 시소러스 개발 사업 계획, 2005. 8. 이하 고전용어 시소러스 개발 사업 계획에 대한 검토는 이 문건의 내용 및 민족문화추진회 관계자와의 면담 내용에 의거하였다.


10) 용어사전은 어떤 분야에서 실제로 쓰이고 있는 용어들을 모으고, 그 용어들 사이의 관계를 몇 가지 유형으로 정의한 것이다. 반면, 분류체계라는 것은 어떤 분야의 내용 체계를 계층적으로 개념화 한 것이다. 온톨로지의 한 가지 형태인 “개념의 계층적 구조”(Concept Hierarchy)가 이에 해당한다.


11) 기발간된 한국문집총간 색인에 수록된 단어의 유형은 대체로 다음과 같은 것들로 파악된다.

구분

범례

비고

인물

인명

 * 성명, 별호(자, 아호, 호, 시호, 봉호, 당호)

 * 왕의 호칭

 * 종실․의빈의 호칭

 * 왕비, 공주, 옹주의 호칭

 * 기생, 노비, 여자의 호칭

 * 혼합 호칭 또는 전성된 호칭 (‘성+관직명’, ‘지명+존칭’ 등)

 

공간

지명

 * 일반지명 

 * 자연지명

 * 관향

 * 가상의 지명

 * 막연한 지명 (방위 등으로 특정 지역을 일컫는 경우)

 

국명

 * 국명, 왕조명

 * 수식어가 붙은 국명

 

건물명

 * 궁전의 명칭

 * 樓, 臺, 亭, 館, 院, 書院, 鄕校, 橋 등

 * ‘人名, 地名+廟, 祠’ 형태의 건축물명

 

시간

연호

 * 왕의 연호

 

간지,

절기,

월, 일

 * 연 간지

 * 절기명, 월의 이칭, 날의 이칭, 명절 및 날짜로 된 절기

 

서명

서명,

작품명

 * 경전, 문집의 본서명과 이칭, 약칭

 * 판본명

 * 지명 + 錄, 誌

 * 중국고전의 편․장․괘명

 * 그림 이름 등의 작품명

 

용어,

사물

관직명,

관청명

 * 관직 관청의 공식명칭 및 이칭

 * 고사에 의거해 쓰인 명칭

 * 임시관청명

 * 사신 관계 용어

 * 공신호

 

용어

 * 고사용어

 * 숫자용어(숫자와 함께 구성된 용어로서 관용적으로 쓰이는 것)

 * 제도, 세금 관련 용어

 * 과거 시험의 명칭

 * 제사이름이나 상례 용어

 * 성리학 관련 용어

 * 도가, 불교 관련 용어

 * 日蝕, 月蝕, 地震 등 특별한 자연이나 천문 현상을 나타내는 용어

 * 서적 간행 형식에 관련된 용어나 판본 및 간본에 관련된 용어

 

사물

 * 수식어가 붙어 성어를 이룬 사물의 이름

 * 특정 사물에 대한 관용적인 이칭

 * 고사와 관련된 사물

 * 별이름

 

제목

문목

 * 問目, 疑義의 항목명

 

시제목

 * 시 제목에 쓰인 고유명사 및 시의 주제가 되는 용어 및 물명

 * ‘韻’, ‘詩’가 붙은 고유명사, 물명, 작품명

 * 樂府, 賦, 歌, 辭, 曲, 調, 行, 引의 제목

 

문제목

 * 문 제목에 쓰인 고유명사 및 주제가 되는 용어 및 물명

 * 墓道文字(年譜, 行狀, 墓碑銘, 神道碑銘, 祭文, 世系圖, 遺墨, 畵像 등)가 붙은 문 제목

 * 문집 부록의 제목(年譜, 行狀, 墓碑銘, 神道碑銘, 祭文, 挽詞, 哀辭, 世系圖, 遺墨, 畵像 등)

 * 문집의 序, 跋, 識

 * 策問, 對策의 제목

 * 日錄, 日記, 雜記, 漫錄, 隨錄 등으로 표기된 제목

 * 古人의 유명작품을 의방한 문제목

 


   민족문화추진회 편찬실 색인업무 지침」(2003. 1) 및 한국문집총간색인 1~8집 수록 데이터를 참고.


12) 한국문집총간색인에는 다음과 같은 색인어가 등재되어 있다.

      異端/弊, 異端/學, 社倉/穀, 社倉/法, 丁字閣/火, 京畿/大饑, 京畿/大水, 家禮/圖式, 家禮/祠堂章, 徐敬德/著書, 徐敬德/贈職請, 熙川/金宏弼謫所,  (한국문집총간색인제8집)

   예시한 “異端/弊”, “社倉/法” 등은 그것이 무엇을 의미하는지 독자에게 명료하게 이해된다. 다른 문집 기사 속에도 이단의 폐혜나  사창 제도에 대한 기사가 적지 않게 있겠지만,  “異端弊”, “社倉法” 등과 정확하게 일치하는 문자열이 기계적으로 검색되리라고 기대하기는 어렵다.  그렇다고 해서 “異端”, “社倉” 등의 단어와 “弊”, “法”이라는 문자를 각각 독립된 색인어로 처리하게 되면, 이 용어 색인이 담고 있던 의미는 소실될 뿐 아니라 무의미한 색인 항목이 대량으로 추출될 것이다.


13) 색인어로 사용될 인명 정보는 기간행된 인명사전류나 타 기관에서 구축한 데이터베이스의 자료를 활용하는 것이 충분히 가능하다. 디지털화된 인명 데이터 중 가장 망라적인 것은 한국학중앙연구원의 “역대인물 DB”일 것으로 생각되는데, 이 데이터베이스에 수록된 인물의 성명 및 자, 호 등에 대한 정보를 입수하여 인명 부분의 참조 데이터로 사용할 수 있다. 그밖에 국사편찬위원회에서 편찬한 “한문 원전 조선왕조실록 데이터베이스”는 역대 실록 본문에 등장하는 모든 인명 요소에 대해서 식별자를 부가하였으므로 이 요소들만을 기계적으로 추출하면 그것도 매우 유용한 인명 목록이 될 수 있다.

    우리나라 문집 속에 포함된 중국 명인들의 이름은 그 다양한 사례가 한국문집총간 및 고전국역서 기존 색인 작업을 통해 확인이 된 상태이므로 이 부분에 대해서는 민족문화추진회가 자체적으로 축적한 기초 데이터가 가장 유효할 것으로 보인다. 부가적으로 중국에서 간행한 분야별 전문 인명사전 데이터를 활용하는 방법도 생각할 수 있다.

    지명에 대해서는 국사편찬위원회의 역사용어 시소러스의 “지명전거사전”이나 그밖에 고지명 데이터를 디지털화 한 각종 자료들을 활용할 수 있다. 원전 조선왕조실록 DB의 지명 요소 역시 인명 요소와 마찬가지로 활용될 수 있는데, 특히 원전 실록 데이터베이스에서는 일반 지명사전에서 지명 요소로 취급하지 않고 있는 “건물명”에 대해서도 요소 식별자를 부가하였으므로 이 부분에 대한 적용도 가능하다.

    용어․사물명 관련 “참조 사전”은 한국학중앙연구원에서 역대인물종합DB를 위해 디지털화한 관직명 사전, 그밖의 각종 고사용어사전, 유학용어사전, 고법전용어사전 등이 유용하게 활용될 수 있을 것이다.


14) 중국, 일본 등 한문문화권 국가에서 이루어진 한문 고문 텍스트 검색 시스템이 어느 정도 수준의 키워드 자동 추출 기능을 보유하고 있을 것으로 추정되지만, 이 부분에 대해서도 전문적인 조사 연구가 이루어지지 못하였다.


15) 이 프로그램의 개발은 “프로토타이핑”(prototyping)이라고 할 수 있는 첫 버전을 만든 후에 고전 문집 텍스트에 적용해 보는 수 차례의 필드 테스트(field test)를 거치면서 그 기능을 향상시켜 가는 방법으로 개발되어야 한다. 처음에는 수작업 방식으로 색인어를 산출해 낸 텍스트를 대상으로 삼아 수작업에 의한 결과와 전산 작업에 의한 결과를 비교하면서 미비한 부분을 보완하는 방식으로 프로그램의 기능을 개선해 가야 할 것이다.


16) 용어만을 추출한 결과를 가지고는 작업의 정확성을 판단하기 어렵기 때문에 추출된 용어의 전후 문자열까지 포함하는 용례 예문을 생산하여 검증한다.


17) 한국학중앙연구원에서 수행하는 한국향토문화전자대전데이터베이스 개발 사업에서는 본문 텍스트로부터 키워드(인명, 지명, 기관명, 서명, 연호 등)를 추출하여 XML 요소 식별자를 부가하는 작업을 수작업과 기계적 작업을 병행하여 수행하고 있다. 이 작업이 부분적으로 고전용어 추출 작업과 유사한 부분이 있으므로 그 작업 공정을 소개한다. 한문 텍스트보다 전산 처리가 용이한 우리말 자료임에도 불구하고 상당한 규모의 수작업이 병행되고 있다.

    <향토문화전자대전 내용 태깅 작업 공정>

    ① 개별 기사의 제목을 우선 분석하여 인명, 지명, 기관명, 서명 추출

    ② 추출된 단어들로 후보 리스트 구성

    ③ 후보 리스트의 단어 검증, 등록 단어의 변형 가능 형태 추가 등록

    ④ 본문에 적용하여 검증 데이터 생산

    ⑤ 검증 데이터를 수작업으로 검토 수정 (반복 시행, 잡음 발생을 최소화 하는 알고리즘 개발 적용)

    ⑥ 본문에만 등장하는 키워드의 수작업 태깅

    ⑦ 기작업분에서 추출된 데이터를 가지고 잔여 데이터에 적용 검증, 계속적으로 범위 확대

    ⑧ 태깅 데이터의 일관성 검증, 수작업에 의한 최종 수정


18) 시소러스 형식에 대한 표준안은 ANSI Z39.19 (Guidelines for Thesaurus Structure, Construction and Use), ISO 2788-1986 (Guidelines for the Establishment and Development of Monolingual Thesauri), ISO 5964-1985 (Guidelines for the Establishment and Development of Multilingual Thesauri) 등이 있는데, “고전용어 시소러스” 구성 시안은 그 가운데 가장 단순한 형태인 ISO 2788을 응용한 것이다.


19) 분류체계에 관해 반드시 유념해야 할 사실은, 분류체계와 용어사전은 사실상 별개의 것이어야 하며, 2차적인 작업에 의해서 부분적으로 결합할 수 있는 것이라는 점이다. 분류체계가 추구하는 것은 “개념의 체계”이지 “용어의 분류”가 아니다. 개별 용어가 분류체계상의 특정 분류주제를 자신의 속성의 하나로 가질 수는 있어도 그 주제에 종속될 수는 없는 것으로 보아야 한다.


20) 국사편찬위원회의 “한국 역사 용어 시소러스 개발 사업”은 2001년에 시작되어 현재까지 역사 용어 39,000여 단어(용어 및 분류 주제어 포함), 인명·지명·서명은 10,000여 단어를 수집 정리하였다. “분류체계”와 “용어사전”을 구분하지 않고, 모든 용어가 하나의 분류체계상의 노드를 이루는 구조로 만들어졌다.


21) 국사편찬위원회의 “한국 역사 용어 시소러스” 상위 분류 주제

최상위 분류 주제

차상위 분류 주제

역사 일반

국가명/시기․시대명/연호/왕호/종족․부족명

정치 행정 법제

법․법령/사법/선거/인사/입법/정치/정치사상․정책/행정

국방 군사

국방사상․정책/군사기구/군사기술/군사방어시설/군사법령/군사사건/군수품/군역/군직/군편제/의병/전략․전술/전쟁․전투/준군사기구

외교 국제관계

외교기관․사절/외교분쟁/외교사항․정책/외교협상․협약/재한외국인/해외동포․단체/국제기구/

북한/중국/일본/미국/러시아/기타지역

경제 산업

경제관련행사/경제관련회의/경제단체․기구/경제법령․조치/경제사건/경제사상․정책/도량형/무역․수출/소비/

광공업/농업/상업․유통․서비스업/수공업/수산업/임업/축산업

재정 금융

물가/임금․소득/재정/주식/화폐․금융

교통 통신

교통로/교통수단/교통시설/통신․우편/통신기관․단체

사회 생활

가족․친지/관광지/마을․촌락/보건․복지/사회단체/사회사건․사고/신분․계급/유람․여행/일상생활/자연현상․재해/취미․오락/풍속․의례

사회운동 독립운동

농민운동․항쟁/독립운동/사회사상/사회운동/일본제국주의/천민운동․항쟁

문화 예술

기념물/무형문화재/문학/문화기구․단체/문화시설/문화정책/문화행사/미술․민속자료/언론․출판/유물/유적/유형문화재/음악/종합예술/체육․스포츠

전통사상 종교

종교기관단체/종교정책/

유교/불교/도교/동학(천도교)/대종교/천주교(서학)/개신교/무교․민간신앙/풍수․도참/기타종교

학술 과학기술

공학․기술/사회과학/의약학/인문학/자연과학/학술행정단체

교육

교과과정/교육기구․단체/교육사상․정책/교육행정/근대교육기관/전근대교육기관/해외유학


22) 분석 대상 기사의 분량은 기술적 요건보다 투입 인력과 재원 규모에 의해 정해질 것이지만, 결과의 유효성을 보장하기 위해서는 최소한 전체 기사의 10% 이상에 대한 분석이 필요할 것이다.


23) 정보과학의 자연어 처리(natural language processing) 기술의 일환으로 다루어지는 문서 자동 분류(automatic document classification) 기술 등이 이에 해당한다.