UTF8, 그 짧은 역사
여기에 있는 글들은 2002년에 오간 전자우편을 모아서 이곳에 옮긴 것입니다.
무림 강호의 고수들과 대화를 한 것 같은데, 내공이 부족해서 사실 아직도 제대로 이해를 못하고 있습니다. 그래서 그런지, 아직까지도 저는 Linux/Unix/FreeBSD계열에서 옛한글을 쓰는 것이 좀 불편하다고 생각합니다. 아무래 애를 써도 화면에 제대로 예쁘게 안 보이는 것을 어쩌겠습니까?
우리글 원전 문헌이 Internet에 별로 없는 상황에서, 직지 Porject에 여러 사람이 참여를 하기 시작했습니다. 이와함께, 저는 합법적으로 지적 재산권을 지켜가며 전산화 작업을 해야겠다는 생각을 하게 되었습니다. 그런데, 정작 우리 문학 작품중에 지적 재산권에서 자유로운 원전은 거의 없더군요. 중국글자든지, 아니면 옛한글로 나타낸 작품이든지, 그 두 가지 밖에는 없었습니다. 그런 이유로 해서, 현대작품과 중국글자는 손도 못대고, 그래도 만만한 옛한글로 쓰여진 작품을 있는 그대로 전산화하여 지적재산권에서 자유로운 문서를 만들어내는 것이 최대 목표인 저에게, utf-8관련한 이런 근본적인 지식은, 그게 중요하지 않다는 것이 아니라, 저에게는 잡다하게 느껴질 뿐이었습니다. 그저, "내가 원하는 것을 할 수 있는 도구를 달라"는 정말 간절한 부탁이었는데, 다시 읽어보니 제가 아는 것이 짧아서 그저 부끄러울 따름이네요.
그리고, 이 자리를 빌어 박원규님이 만드신 moniwiki를 아직도 직지 Project Wiki로 사용하지 않는 것에 대해서 많은 죄송함을 가지고 있다는 것을 알려드리고 싶습니다. 그리고 만들어 주신 직지 banner 감사히 쓰고 있습니다!
이러한 배경으로, 옛한글 나타내기를 정리합니다.
To: hangul-patch@xxxxxxxxxxxxxx Subject: Re: antiword -m UTF-8.txt (Ǒ±۠¿¾¹® ǥǶ) From: Jungshik Shin <jshin@xxxxxxxxxxx> Date: Fri, 23 Aug 2002 03:14:55 -0400 (EDT) Cc: questions@xxxxxxxxxxxxxx Content-transfer-encoding: 8BIT Content-type: TEXT/PLAIN; charset=UTF-8 Delivered-to: questions-outgoing@kr.freebsd.org Delivered-to: questions@kr.freebsd.org In-reply-to: <009e01c24603$f1c10440$e1fea8c0@849334002180411> Reply-to: questions@xxxxxxxxxxxxxx Sender: owner-questions@xxxxxxxxxxxxxx -------------------------------------------------------------------------------- On Sat, 17 Aug 2002, Min-Soo Kim wrote: > 혹시나 해서, utf-8로 변환한 문서를 <?php > include($file);?>로 했더니(결과: http://test.jikji.org/test/ ), > 옛문자가 제대로 표현이 되는 것 같습니다... 역시 예상했던 것처럼 Unicode/ISO 10646의 PUA (private use area) code point를 옛한글 음절에 대응시킨 글꼴을 썼군요. 이렇게 해서는 특정 글꼴을 가진 사용자가 아니면 제대로 볼 수 없습니다.(예를 들어, 위 페이지는 Linux 사용자는 전혀 볼 수 없습니다.) 또, 다른 사람과의 문서 교환도 받는 상대방이 같은 글꼴을 가지고 있지 않는 한 제대로 하기 힘듭니다. 원문을 작성하실 때 MS Word 2000을 사용하셨나 보군요. MS Word 2002 (Office XP)을 쓰셔서 문서 입력을 하면 이처럼 PUA codepoint에 한글 음절을 대응시키지 않고, U+1100 한글 자모를 써서 옛한글을 표현해 주므로 글꼴에 얽매이지 않고 자유로이 문서 교환이 가능합니다. 단, 이 경우 문제는 아직 웹 브라우저에서 이런 방식(앞으로 가야할 방향)의 중세 국어 지원이 미약해서 (한국어판 MS Office XP가 깔린 상태에서 - 중세 국어를 지원하는 Uniscribe가 여기에 들어 있으므로 - MS IE 6 - 아마도 Mozilla도 -는 잘 동작해야 하지만, 제가 한국어판 MS Office XP가 없어서 시험해 보지 못 했습니다. Linux/Unix/X11에서는 박원규 님의 글꼴을 쓰면 모질라에서 일단 모양은 그리 안 이뻐도 내용은 잘 볼 수 있습니다.) 많은 사람이 볼 수 없습니다. 위 단락의 앞뒤가 모순인 것 같아 보이는데, 현재 중세 국어 지원 상황이 어중간해서 그런 식으로 보입니다. 신정식 -- Please look and take part in KFUG FAQ: <http://www.kr.freebsd.org/FAQ-kr/> To Unsubscribe: send mail to majordomo@kr.FreeBSD.org with "unsubscribe questions" in the BODY of the message
To: <jshin@xxxxxxxxxxx>, <hangul-patch@xxxxxxxxxxxxxx> Subject: RE: antiword -m UTF-8.txt ( ? ? ) From: "Min-Soo Kim" <minsukim@xxxxxxxxx> Date: Fri, 23 Aug 2002 15:07:35 -0400 Cc: <questions@xxxxxxxxxxxxxx>, <chsong@xxxxxxxxxxxxx>,<project@xxxxxxxxx> Content-transfer-encoding: quoted-printable Content-type: text/plain;charset="EUC-KR" Delivered-to: questions-outgoing@kr.freebsd.org Delivered-to: questions@kr.freebsd.org Importance: Normal In-reply-to: <Pine.LNX.4.44js.0208230305440.20580-100000@www.ykga.org> Reply-to: questions@xxxxxxxxxxxxxx Sender: owner-questions@xxxxxxxxxxxxxx -------------------------------------------------------------------------------- 안녕하십니까? 사실은 지난 3~4월경에 송창훈님과 이런 저런 중세국어 관련한 토론이 오고갔었습니다. (http://korea.gnu.org/people/chsong/jikji/ 또는 http://www.jikji.org/~chsong/ 참조) 직지프로젝트는 95년에 시작했고, 정식 도메인을 받은 것은 98년입니다만, 동일한 로마문자를 수세기에 걸쳐 써왔던 서구 문학을 전산화했던 구텐베르그 프로젝트와는 다른 문제, 즉 중세국어를 제대로 표현해야하는 문제 때문에 아직까지도 답보상태입니다... 인터넷은 다음 세기의 금속활자라는 인식으로 출발했기 때문에, 중세국어를 인터넷에서 제대로 표현하느냐 못하느냐는 우리 중세국어의 생존이 걸린 중요한 과제였지만, 이를 해결할 능력이 없어 전전긍긍하다가 최근에야 utf-8을 통해서 가까스로( 비록 반쪽이지만) 표현할 수 있게 되었다는 것을 알게 되었습니다. 그래서 하안글이나 워드를 통해서 표현한 중세국어가 들어간 자료를 변환하여 DB에 넣고, xlst를 통해 xlm로 추출해서 보여주는 자료실을 구축하려 하고 있기 때문에 hwp --> utf8(16), word --> utf8(16)로 변환하는 도구가 필요한 것이었고, FB용으로는 hwp --> utf8 converter가 없기에 anti-word로 시작한 것이었습니다. 저도 window 98에서 멈쳐있고, word 2000도 싼맛(9,900원)에 산 것이기 때문에, 그 이상의 windows version에서는 시험을 할 수가 없는 상황입니다. 바람이 있다면, 무슨 version의 wordpro를 사용했던 간에, anti-word와 같은 converter를 통해 신정식님께서 말씀하신, "> U+1100 한글 자모를 써서 옛한글을 표현해 > 주므로 글꼴에 얽매이지 않고 자유로이 문서 교환이 가능합니다" 가 진정으로 가능했으면 합니다. 읽어주셔서 감사합니다... 김민수.To: hangul-patch@xxxxxxxxxxxxxx Subject: Re: antiword -m UTF-8.txt ( ? ? ) From: Won Kyu Park <wkpark@xxxxxxxxxxxxxxx> Date: Sat, 24 Aug 2002 17:32:43 +0900 Cc: jshin@xxxxxxxxxxx, questions@xxxxxxxxxxxxxx, chsong@xxxxxxxxxxxxx, project@xxxxxxxxx, kle@xxxxxxxx Content-disposition: inline Content-transfer-encoding: 8bit Content-type: text/plain; charset=euc-kr Delivered-to: questions-outgoing@kr.freebsd.org Delivered-to: questions@kr.freebsd.org In-reply-to: <NGBBJOEFOLIEJPKEHBELKEAMCAAA.minsukim@jikji.org> References: <Pine.LNX.4.44js.0208230305440.20580-100000@www.ykga.org> <NGBBJOEFOLIEJPKEHBELKEAMCAAA.minsukim@jikji.org> Reply-to: questions@xxxxxxxxxxxxxx Sender: owner-questions@xxxxxxxxxxxxxx User-agent: Mutt/1.3.28i -------------------------------------------------------------------------------- On Fri, Aug 23, 2002 at 03:07:35PM -0400, Min-Soo Kim wrote: > 안녕하십니까? > > 사실은 지난 3~4월경에 송창훈님과 이런 저런 중세국어 관련한 토론이 오고갔었습니다. > (http://korea.gnu.org/people/chsong/jikji/ 또는 http://www.jikji.org/~chsong/ 참조) > 4월경에 송창훈님의 메일을 받았었습니다. 그 때에 고어에 대한 관심이 KTUG에서도 있었기 때문에 그 상황과 맞물려서 저도 xterm최신을 이용하여 한글 중세국어를 표한하는 방법을 알아보게 되었고, 그리고 4월 말의 결과물이 바로 고어글꼴입니다. http://list.kldp.org/pipermail/kle/2002Apr/date.html (토론들) http://list.kldp.org/pipermail/kle/2002May/date.html http://list.kldp.org/pipermail/kle/2002Apr/0506.html (첫번째 결과물?) http://chem.skku.ac.kr/~wkpark/baekmuk/iso10646/ (글꼴 있는 곳) 이때에 신정식님은 Ami와 hanterm을 패치하셔서 한글음절 11172글자를 모두 입력 가능한 패치와, KS C 5601 - 1992 정보 교환용 부호 해설에 의한 한글출력을 hanterm 패치를 만들었던 것을 알렸습니다. 또 신정식님께서는 Yudit도 고쳐서 중세국어를 모두 쓸 수 있도록 하셨습니다. (Yudit은 윈도우즈에서도 유닉스에서도 모두 사용 할 수 있습니다) 관련된 링크가 어디있는지 모르겠네요 ㅡㅡ;; 일단 이것을 링크로 걸어둡니다. http://www.ktug.or.kr/jsboard/read.php?table=contrib&no=105&page=2 (아래쪽에는 Yudit 설치에 관련된 얘기도 했습니다) > 직지프로젝트는 95년에 시작했고, 정식 도메인을 받은 것은 98년입니다만, > 동일한 로마문자를 수세기에 걸쳐 써왔던 서구 문학을 전산화했던 구텐베르그 프로젝트와는 다른 문제, > 즉 중세국어를 제대로 표현해야하는 문제 때문에 아직까지도 답보상태입니다... > > 인터넷은 다음 세기의 금속활자라는 인식으로 출발했기 때문에, > 중세국어를 인터넷에서 제대로 표현하느냐 못하느냐는 우리 중세국어의 생존이 걸린 중요한 과제였지만, > 이를 해결할 능력이 없어 전전긍긍하다가 최근에야 utf-8을 통해서 가까스로( 비록 반쪽이지만) 표현할 수 있게 되었다는 > 것을 알게 되었습니다. 그래서 하안글이나 워드를 통해서 표현한 중세국어가 들어간 자료를 변환하여 DB에 넣고, > xlst를 통해 xlm로 추출해서 보여주는 자료실을 구축하려 하고 있기 때문에 hwp --> utf8(16), word --> utf8(16)로 변환하는 > 도구가 필요한 것이었고, FB용으로는 hwp --> utf8 converter가 없기에 anti-word로 시작한 것이었습니다. > > 저도 window 98에서 멈쳐있고, word 2000도 싼맛(9,900원)에 산 것이기 때문에, 그 이상의 windows version에서는 > 시험을 할 수가 없는 상황입니다. 바람이 있다면, 무슨 version의 wordpro를 사용했던 간에, anti-word와 같은 > converter를 통해 신정식님께서 말씀하신, > "> U+1100 한글 자모를 써서 옛한글을 표현해 > > 주므로 글꼴에 얽매이지 않고 자유로이 문서 교환이 가능합니다" > 가 진정으로 가능했으면 합니다. > 그러니까, 고어를 입력하여 편집하는 것이 가능 하게 되었다는 것이죠. 자유로운 문서 교환까지 가능하려면, 고어글꼴이 우선 필요하고요, 유닉스 상에서는 모질라가 지원하고 있으므로 <http://jshin.net/i18n/korean/hunmin.html>를 볼 수 있습니다.(세벌 빨래줄 글꼴을 이용해야 함) 윈도우즈에서도 쉽게(!) 가능하리라고 봅니다. 첫가끝 글꼴만 만들면 됩니다. (현재 30%정도 윤곽선 글꼴 만들다가 작업 중단 상태입니다 http://list.kldp.org/pipermail/kle/2002May/0591.html 세벌 빨래꼴 글꼴이라 미려하진 않지만 가능합니다.) http://list.kldp.org/pipermail/kle/2002May/0579.html(Yudit 관련 링크같네요) 여기서 http://www.yudit.org/download 으로 가서 Yudit을 설치하고, Ogulim이라는 ttf를 받아서 설치하시면 다음과 같이 중세국어가 입력되는 것을 확인하실 수 있습니다. http://chem.skku.ac.kr/~wkpark/screenshot/2002_05_22_184651_shot.png (위 그림은 고치고 있던 중이라서 조금 문제가 있어 보이는 그림이지만 ㅡㅡ;;) 안녕히 계세요 > 읽어주셔서 감사합니다... > > 김민수. > > >
To: Min-Soo Kim <minsukim@xxxxxxxxx> Subject: RE: antiword -m UTF-8.txt : 중세 한국어 표현 From: Jungshik Shin <jshin@xxxxxxxxxxx> Date: Sun, 25 Aug 2002 11:24:36 -0400 (EDT) Cc: hangul-patch@xxxxxxxxxxxxxx, <questions@xxxxxxxxxxxxxx>,<chsong@xxxxxxxxxxxxx>, <project@xxxxxxxxx> Content-transfer-encoding: 8BIT Content-type: TEXT/PLAIN; charset=UTF-8 Delivered-to: questions-outgoing@kr.freebsd.org Delivered-to: questions@kr.freebsd.org In-reply-to: <NGBBJOEFOLIEJPKEHBELKEAMCAAA.minsukim@jikji.org> Reply-to: questions@xxxxxxxxxxxxxx Sender: owner-questions@xxxxxxxxxxxxxx -------------------------------------------------------------------------------- > On Fri, 23 Aug 2002, Min-Soo Kim wrote: 안녕하세요? > 사실은 지난 3~4월경에 송창훈님과 이런 저런 > 중세국어 관련한 토론이 오고갔었습니다. > (http://korea.gnu.org/people/chsong/jikji/ 또는 > http://www.jikji.org/~chsong/ 참조) > 직지프로젝트는 95년에 시작했고, 정식 도메인을 대단히 의미 있는 일을 하고 계시는군요. 그동안 중세 국어 지원의 필요성을 역설했지만, 실제로 웹에서 볼 수 있는 그런 문헌이 거의 없어서 (<http://www.korean.go.kr>을 제외하고. 여기서도 현재는 PUA를 쓰고 있습니다.) 설득력이 적었습니다. > 받은 것은 98년입니다만, 동일한 로마문자를 > 수세기에 걸쳐 써왔던 서구 문학을 전산화했던 > 구텐베르그 프로젝트와는 다른 문제, 즉 중세국어를 동일한 로마/라틴 글자라고 쉽게 얘기할 수 없습니다. :-) 온갖 복잡한 역사와 사정이 있으니까요. 사실은 구텐베르크 프로젝트도 - 정도가 다를지 몰라도 - 거의 비슷한 문제를 안고 있습니다. Unicode를 쓰지 않고는 서유럽 - 동유럽이나 라틴/시릴릭/그리스 알파벳을 쓰는 유럽 및 비유럽 언어로 된 문헌은 물론이고- 문헌을 제대로 담아낼 수 없습니다. 다른 언어로 된 문헌은 차치하고라도 영어로 된 문헌조차도 US-ASCII는 말할 나위도 없고 ISO-8859-1에 있는 글자만으로 표현하는 것은 절대 불가능합니다. 맛보기로 <http://www.columbia.edu/kermit/st-erkenwald.html>를 한번 보십시오. 그 페이지가 제대로 표시되면 (xterm에서 w3m-m17n으로 거의 제대로 보입니다.) 'gh' 위에 'overline'이 가야 합니다.(w3m-m17n은 xterm이 'combining character'를 잘 처리하는 덕분에 이것은 잘 보여 줍니다. w3m-m17n의 경우 superscript/subscript가 문제입니다.) 하지만, 현재 그것을 제대로 보여 주는 GUI 브라우저가 별로 없습니다. MS Windows의 rendering engine인 Uniscribe는 글꼴(한글 자모 조합 기능이 들어 있는 OpenType 글꼴: MS Office XP 한국어판에 들어 있답니다. 저도 구경해 보지 못 했습니다.)만 있으면 중세 한국어를 제대로 표현해 줄 능력이 있습니다. 하지만, 'gh' 위에 overline 같은 것은 아직도 제대로 표시해 주지 못 합니다. 또, MS IE와 Mozilla 모두 이것을 제대로 처리해 줄 능력이 없습니다. (Uniscribe와 Opentype 글꼴이 이것을 지원해도 application 프로그램에서 해 줘야 할 일이 있답니다. 이것은 Mac OS X에서 쓰이는 AAT와 다른 점입니다. AAT에 쓰이는 OT 글꼴은 글꼴에 거의 모든 정보가 들어 있어서, application 프로그램이 해 줘야 할 일이 더 적답니다.) Mozilla의 경우 <http://bugzilla.mozilla.org/show_bug.cgi?id=85373>를 보십시오. > 제대로 표현해야하는 문제 때문에 아직까지도 > 답보상태입니다... 어떤 경우에는 (모든 응용에 다 해당하는 것은 아니고) U+AC00 영역에 있는 한글 완성 음절의 사용을 완전히 중단하고 전적으로 U+1100 영역에 있는 한글 자모만을 현대 한국어이든 중세 한국어이든 미래 한국어이든 일관성 있게 쓰는 것이 좋을 수 있습니다. 하지만, 여기까지 가기에는 아직 길이 멉니다. 더구나, W3C에서는 html/xhtml 문서에서 NFC(Normalization Form Composed)만을 쓸 것을 표준으로 이미 정해 버렸기 때문에 현대 한국어의 완성 음절을 이렇게 표시한 html/xhtml 문서는 표준을 위반한 셈입니다. NFC란 여러 가지 방식으로 표현 가능한 글자가 있을 때 precomposed form을 쓰는 방식으로 정규화한 것을 말합니다. 예를 들어, 한글 음절 '가'는 U+AC00으로도 표현할 수 있지만, U+1100(초성 기역)과 U+1161(중성 ㅏ)를 나열해서 표현할 수도 있습니다. 이 경우 W3C 표준에 따르자면 precomposed form인 U+AC00으로만 표현해야 하고, U+1100과 U+1161을 써서 '가'를 표현하는 것은 표준 위반입니다. 결국, 중세 한국어나 현대 한국어이거나 관계 없이 한글 표현의 일관성을 위해 NFD(Normalization Form Decomposed)를 쓰는- 즉, 한글 자모를 쓰는 것- 것은 적어도 html 문서에서는 표준을 어기지 않고 불가능합니다. 따라서, 일관성 있는 처리를 위해 NFD로 자료를 저장하고 있는 DB로부터 문서를 생성해 낼 때 NFD -> NFC 변환 (즉,11,172자의 현대 한국어 음절을 가려내서 U+AC00의 완성 음절 영역으로 표현하고, 이렇게 표현 불가능한 음절만 U+1100 자모를 쓰도록 남겨 두는 일)을 해야 합니다. (아마 IBM의 ICU나 Perl의 Unicode 지원 모듈을 쓰면 아주 쉽게 이런 일을 할 수 있을 것입니다.) 여기서 또 한가지 해결해야 할(아직 해결되지 않았다면) 문제는 DB 엔진에서 U+1100 한글 자모를 제대로 지원하도록 하는 것입니다. UTF-8은 이제 대부분의 DB에서 지원합니다. (예외가 MySQL입니다.) 하지만, 이런 식으로 표현한 한글 레코드의 음절 갯수 세기 (자모 갯수 세기와 별도로)와 레코드 정렬하기 등은 아직 제대로 지원하지 않을 것입니다. ㅤ > 인터넷은 다음 세기의 금속활자라는 인식으로 출발했기 > 때문에, 중세국어를 인터넷에서 제대로 표현하느냐 > 못하느냐는 우리 중세국어의 생존이 걸린 중요한 > 과제였지만, 이를 해결할 능력이 없어 전전긍긍하다가 > 최근에야 utf-8을 통해서 가까스로( 비록 반쪽이지만) > 표현할 수 있게 되었다는 것을 알게 되었습니다. > 그래서 하안글이나 워드를 통해서 표현한 중세국어가 > 들어간 자료를 변환하여 DB에 넣고, xlst를 통해 xlm로 > 추출해서 보여주는 자료실을 구축하려 하고 있기 > 때문에 hwp --> utf8(16), word --> utf8(16)로 변환하는 도구가 > 필요한 것이었고, FB용으로는 hwp --> utf8 converter가 없기에 > anti-word로 시작한 것이었습니다. PUA에 넣은 중세 한국어 표현을 위한 완성 음절의 숫자는 아주 많지는 않습니다. 아마 수천 자 정도일 것입니다. 이것을 다시 U+1100 자모로 누군가가 대응시키는 표(HWP와 MS Word가 같은 PUA code point를 쓰지 않는다면 각각에 대해)를 만드는 수고를 (어려운 작업이 아니라 대단히 지겨운 작업이겠지요.) 한다면 HWP나 MS Word에서 UTF-8로 뽑은 후 이 대응표에 따라 PUA code point를 다시 U+1100 자모로 바꿀 수 있을 것입니다. 즉, 이 대응표만 만들어지면 이것은 쉽게 자동화할 수 있습니다. > 저도 window 98에서 멈쳐있고, word 2000도 싼맛(9,900원)에 산 > 것이기 때문에, 그 이상의 windows version에서는 시험을 할 > 수가 없는 상황입니다. 바람이 있다면, 무슨 version의 > wordpro를 사용했던 간에, 오래된 문서 편집기나 오래된 운영 체계를 쓰는 경우까지 고려하려면 일이 너무 힘들어집니다. 어느 정도 제한을 하는 것은 불가피합니다. 다행히, 아래에 언급할 박원규님의 글꼴(아직 truetype으로는 안 만들어졌지만)이나 Jamse Kass의 글꼴(곧 나올)을 쓰면 Win98 등에서 문서를 보는 것에는 최소한 문제가 없습니다. > anti-word와 같은 converter를 통해 > 신정식님께서 말씀하신, > "> U+1100 한글 자모를 써서 옛한글을 표현해 > > 주므로 글꼴에 얽매이지 않고 자유로이 문서 > 교환이 가능합니다" > 가 진정으로 가능했으면 합니다. <http://www.yudit.org>에 있는 Yudit를 쓰면 U+1100 자모를 써서 약 130만자 가량의 한글 음절을 표현할 수 있습니다. <http://www.vim.org>에 있는 Vim을 써서도 이런 식으로 한글 입력이 가능합니다. (Unix/Linux/X11 환경에서) <http://www.ktug.or.kr>에 가시면 이렇게 표현한 한글 문서를 PDF로 만들 수 있는 방법이 나와 있습니다. 지난 봄에 조진환님과 저, 그리고 다른 몇 분이 이 작업을 했습니다. 아직 문서로 정리하지 않았기 때문에 게시판에 올라온 수많은 글을 읽고 일일이 따라 하셔야 합니다. (박원규님이 관련 링크를 다 찾아서 앞선 글에서 알려 주셨습니다.) 이렇게 만든 문서의 보기는 <http://jshin.net/i18n/korean/hunmin.html>에 가면 구할 수 있습니다. 이렇게 U+1100 한글 자모(와 두 개의 한국어 성조 표시 기호)만으로 된 한국어 문서를 웹에서 어떻게 보느냐는 문제가 있습니다. 박원규님이 적으신 바와 같이 구식 한글 타자기로 찍은 것 같은 모양이긴 하지만, 초성, 중성, 종성 한 벌씩만 가진 글꼴(박원규님의 글 참고)을 써서 Unix/Linux/X11의 모질라에서는 내용 전달에는 아무 문제 없이 이런 문서를 표시할 수 있습니다. James Kass란 이가 만들어 배포하는 CODE2000이란 글꼴의 다음 판도 이런 식으로 한글 자모를 지원할 예정입니다. CODE2000은 Opentype 글꼴로 MS Windows와 Unix/X11, MacOS X에서 모두 쓸 수 있습니다. (<http://home.att.net/~jameskass/>) 박원규님도 비슷한 작업을 하고 계신데, 완성하면 널리 쓰이는 백묵 글꼴과 통합할 수도 있고, 따로 배포할 수도 있을 것입니다. James Kass는 최종적으로 여러 벌수가 있고 opentype의 gsub와 gpos를 한글 자모에도 적용한 글꼴을 만들 것입니다. (이런 글꼴이 한국어판 MS Office XP에 들어 있습니다.) 신정식 -- Please look and take part in KFUG FAQ: <http://www.kr.freebsd.org/FAQ-kr/> To Unsubscribe: send mail to majordomo@kr.FreeBSD.org with "unsubscribe questions" in the BODY of the message
To: <jshin@xxxxxxxxxxx>, <wkpark@xxxxxxxxxxxxxxx>, <project@xxxxxxxxx> Subject: RE: antiword -m UTF-8.txt : 중세 한국어 표현 From: "Min-Soo Kim" <minsukim@xxxxxxxxx> Date: Sun, 25 Aug 2002 15:29:26 -0400 Cc: <questions@xxxxxxxxxxxxxx>, <chsong@xxxxxxxxxxxxx>, <hangul-patch@xxxxxxxxxxxxxx> Content-transfer-encoding: quoted-printable Content-type: text/plain; charset="euc-kr" Delivered-to: questions-outgoing@kr.freebsd.org Delivered-to: questions@kr.freebsd.org Importance: Normal In-reply-to: <Pine.LNX.4.44js.0208240207080.20580-100000@www.ykga.org> Reply-to: questions@xxxxxxxxxxxxxx Sender: owner-questions@xxxxxxxxxxxxxx -------------------------------------------------------------------------------- > > 동일한 로마/라틴 글자라고 쉽게 얘기할 수 없습니다. :-) > 온갖 복잡한 역사와 사정이 있으니까요. > > 사실은 구텐베르크 프로젝트도 - 정도가 다를지 > 몰라도 - 거의 비슷한 문제를 안고 있습니다. Unicode를 쓰지 않고는 > 서유럽 - 동유럽이나 라틴/시릴릭/그리스 알파벳을 쓰는 유럽 및 비유럽 언어로 > 된 문헌은 물론이고- 문헌을 제대로 담아낼 수 없습니다. 다른 언어로 > 된 문헌은 차치하고라도 영어로 된 문헌조차도 US-ASCII는 말할 나위도 > 없고 ISO-8859-1에 있는 글자만으로 표현하는 것은 절대 불가능합니다. 이해가 됩니다... 저는 외국인에게 한글을 설명할 때 한글이 'chracter'가 아닌 'alphabet'임을 강조해서 얘기하곤 합니다. 쉽게 믿지는 않지만, 풀어쓰기를 하면서 한글 현대어에 24자의 'alphabet'이 있음을 설명하고, 마치 'character'처럼 생긴 모양은 '음절(syllable)'을 표현했기 때문에 그리 보이는 것이라고 얘기하고, 우리에게 우리만의 글자판이 있다고 말하면 그제야 절반(?) 정도나 믿어 줍니다. 그외에 발성기관의 모양을 딴 글자 모양, 천,지,인... 그리고 현대에와서 그 천,지,인을 이용해서 모든 모음을 구현하는 휴대폰...등등등, 한 마디로 뻑가게 할 수 있는데, 영어가 짧아서 거기까지는...^^;; 문제의 시작은 바로 여기에 있을 것 같습니다. 한글이 'alphabet'이라면 애초에 28자에 해당하는 키값을 배분하고, 그 값을 조합하여 중세국어를 포함한 모든 우리말과 글을 온전하게 표현할 수 있어야 하는데, 왜 그런 방향으로 가지 못했었는지? 호적을 중시하는 가부장적인 한국 사회와 위정자들을 탓해야 할런지, 정말 알수가 없는 대목입니다. 사실 '직지프로젝트'같은 것도 국가가 나서서 해주면 좋을 일인데, 그리 쉬 될 것 같지는 않습니다. 또한 세종계획을 보더라도 정부주도 프로젝트의 결과물들을 쉽게 접근할 수 있을 것 같지도 않고.... 지재권 문제라도 정부에서 제대로 좀 풀고 넘어가주면 좋겠는데, 그도 참 어려운 문제고... 말씀드렸던 중세국어의 표현문제는 직지프로젝트 관점에서는 지재권 문제와도 연결이 되어 있는 문제입니다. 저는 프로젝트 초기부터 문헌의 출전을 반드시 밝혀야 한다고 생각했습니다. 언어는 시대와 함께 변하며, 그 출전이 그 시대의 언어 단면을 보여주는 것일테니까요. 그런데 대부분 출전을 안밝히더군요... 아마도 밝혀서 지재권상 좋을 이유가 없을 터이니까 당연한 것인지도 모르지요. 출전이 없는 자료를 출전을 찾아 교정을 보는 일은 오히려 새로 입력하는 것보다도 힘이 든 것 같았습니다.... 하지만 제가 생각하기에, 그러한 해적판 자료는 몇 십년후에는 쓰레기가 됩니다. 이해할 수 있는 사람이 없을 테니까요... 언어가 사회성을 띄고 있고 역동적으로 변화하듯이, 그 언어를 담고 있는 자료(또는 자료실) 또한 역동적으로 변해야 하는데, 'time stamp'가 없는 자료가 변화할 수 있는 근거가 있을지.... 제가 http://test.jikji.org/에 올려놓은 '금수회의록'은 놀랍게도 중세국어가 아닌 근세국어입니다. 엄밀한 의미에서 본다면 이 원문외에 현대어로 된 '금수회의록'은 현대어로 바꾼 분들에게 지재권이 있겠지요. 직지프로젝트의 바람은, 원문을 전산화해서 모든 사람들이 접근할 수 있고 쉽게 사용할 수 있는 자료실을 구축하고, 많은 사람들에게 노출된 원문을 통해서 누군가가 다시 현대적으로 해석한 자료(외국어 포함)들이, 그 일부만이라도, 직지프로젝트의 자료가 되고(지재권 관련 문제 해소), 또 다른 형식(드라마, 영화, 등)으로 재창출되는 모습입니다. 그리고 그러한 모습이 금속활자가 지닌 진정한 뜻을 현재에 되살리는 일이라고 생각합니다. 시작한지 30년이 넘은 구텐베르그와 이제 4 년 남짓된 직지프르젝트와는 당연한 수준차이가 있겠지요. 저도 이제 4년만에야 좀더 system적인 접근을 하기 시작했고, 기존의 문서를 웹에서 표현할 수 있도록 변환해주는 도구는 사실 그 system적인 접근의 시작이었습니다... 그래서 한 30년 정도 후에는 직지프로젝트가 구텐베르그보다는 좀 더 나은 위치에 있어야겠지요.... 희망사항입니다... 그리고, 지적하신 내용 중에, > 여기서 또 한가지 해결해야 > 할(아직 해결되지 않았다면) 문제는 DB 엔진에서 U+1100 한글 자모를 > 제대로 지원하도록 하는 것입니다. UTF-8은 이제 대부분의 DB에서 > 지원합니다. (예외가 MySQL입니다.) 하지만, 이런 식으로 표현한 한글 > 레코드의 음절 갯수 세기 (자모 갯수 세기와 별도로)와 레코드 > 정렬하기 등은 아직 제대로 지원하지 않을 것입니다. 의 문제는 아직 DB design도 들어가지 않았기에 뭐라 더 드릴 말씀이 없습니다... (놀랍게도 저는 MySQL을 생각하고 있었네요) utf-8을 지원하는 검색도구를 찾고 하는 것들이 다 향후 구축될 uft-8기반의 자료실을 염두에 둔 것이었는데, 앎이 생각을 따라가지를 못하고 있으니 답답할 뿐입니다. 직지프로젝트가 둥지를 틀고 있는 server가 FreeBSD기반이어서 questions@kr.freebsd.org 에 올린 질문이었는데, 그 덕분에 여러 좋은 분들 알게되어 기쁘고, 또한 깊이 감사드립니다... 김민수.To: Min-Soo Kim <minsukim@xxxxxxxxx> Subject: RE: antiword -m UTF-8.txt : _¼¼ Ǒ±¹¾¥Ƕ From: Jungshik Shin <jshin@xxxxxxxxxxx> Date: Tue, 27 Aug 2002 08:02:32 -0400 (EDT) Cc: project@xxxxxxxxx, <questions@xxxxxxxxxxxxxx>, Hangul Patch list <hangul-patch@xxxxxxxxxxxxxx> Content-transfer-encoding: 8BIT Content-type: TEXT/PLAIN; charset=UTF-8 Delivered-to: questions-outgoing@kr.freebsd.org Delivered-to: questions@kr.freebsd.org In-reply-to: <NGBBJOEFOLIEJPKEHBELOEBCCAAA.minsukim@jikji.org> Reply-to: questions@xxxxxxxxxxxxxx Sender: owner-questions@xxxxxxxxxxxxxx -------------------------------------------------------------------------------- On Sun, 25 Aug 2002, Min-Soo Kim wrote: > 저는 외국인에게 한글을 설명할 때 한글이 'chracter'가 아닌 > 'alphabet'임을 강조해서 얘기하곤 합니다. 쉽게 믿지는 않지만, > 풀어쓰기를 하면서 한글 현대어에 24자의 'alphabet'이 있음을 설명하고, > 마치 'character'처럼 생긴 모양은 '음절(syllable)'을 표현했기 때문에 > 그리 보이는 것이라고 얘기하고, 우리에게 우리만의 글자판이 있다고 > 말하면 그제야 절반(?) 정도나 믿어 줍니다. 그외에 발성기관의 모양을 > 딴 글자 모양, 천,지,인... 그리고 현대에와서 그 천,지,인을 이용해서 > 모든 모음을 구현하는 휴대폰...등등등, 한 마디로 뻑가게 할 수 > 있는데, 영어가 짧아서 거기까지는...^^;; 저라면 '천,지,인' 같은 것은 안 들먹이겠습니다. 한글 모음을 긴 가로 획 ,긴 세로 획, 점(나중에 짧은 가로/세로 획으로 바뀐)의 세 가지로 '분해'해서 나타낼 수 있다는 것은 말할 수 있겠지만요. 한글이 여러 단계의 표현 방법을 가진다는 것은 큰 장점입니다. 휴대용 전화기의 문자 메시지를 입력할 때 불과 몇 개의 키로 비교적 쉽게 입력이 가능한 것도 그런 특성 덕분일 것입니다. 한글은 featural (음운 자질 문자. 발성 기관의 모양을 흉내 내었고, 비슷한 음가를 지닌 자음의 모양이 서로 비슷함.), phonetic alphabet(음소 문자), alphasyllabary, syllabic 표기 체계의 특징을 지니고 있고, 기본적으로 표음 문자이기는 하지만 어떤 의미에서 ideographic하고 (?? 천,지,인 얘기를 ....) logographic한(음절 단위 모아 쓰기와 현대 한국어 맞춤법이 채택한 morphophonemic 접근 덕분에) 면도 있습니다. 물론, 어느 표기 체계나 다 이런 면을 지니고 있습니다. 표의 문자라고 하는 한자도 표음 문자로서의 성질이 있고(한자의 대다수를 차지하는 형성자), 라틴 알파벳도 영어에 쓰일 경우에는 - 표기와 발음 사이에 존재하는 아주 큰 간극이 읽는 이로 하여금 특정 문자열과 특정 단어 사이를 쉽게 연결해 주어서 - logographic한 면이 있습니다. <곁가지> 항상 읽기와 쓰기, 듣기와 말하기는 서로 대립하는 관계입니다. 한쪽이 편해지면 반대쪽은 불편해집니다. 그럼에도 불구하고 한글은 읽기와 쓰기 사이의 이런 '갈등'을 상당히 효율적으로 해소할 수 있는 성질을 지니고 있습니다. 하지만, 이런 한글의 우수함에 대해 지나치게 우쭐해져서는 안 된다고 봅니다. 불과 500년 전에 만들어진 (표기 체계의 역사를 볼 때 대단히 늦게 만들어진) 한글이 그보다 훨씬 오래 전에 만들어진 다른 표기 체계보다 우수한 것은 어쩌면 너무나 당연하니까요. 하지만, 너무나 늦게 만들어지는 바람에 우리는 한글이 만들어지기 전에 한국어가 어떤 형태를 띄었는지 알기가 아주 어렵습니다. 이두/구결/향찰로 기록된 신라 향가나 고려 가요의 연구는 거의 천재적인 추리 능력을 요구합니다. </곁가지> 우리조차도 도대체 어떤 단계의 표현 방법을 어떤 경우에 써야 하는지 잘 모를 때가 있다는 점에서 단점이고 심지어는 걸림돌이 될 때도 있습니다. 예를 들어, '앎흙끄'는 몇 글자입니까? 답은 3, 8, 10, 11 등으로 다양하게 나올 수 있습니다. 컴퓨터에서 표현할 경우에도 어떻게 해야 하는지 헛갈리기는 마찬가지이고요. 컴퓨터가 나오기 전에 인쇄용 활자는 모두 음절 단위로 만들었습니다. (세종 때부터 시작해서 현대까지. 음소 단위로 활자를 만들어서 그것을 모아 찍은 것을 본 적이 있습니까? 한글 타자기 정도가 예외겠군요. 물론, 컴퓨터 글꼴에서는 우선 자모 단위로 만든 다음에 모아 쓰는 일을 했고, 지금도 하고 있지요.). 그러면서, 한글은 모음 11자와 자음 17자라고 합니다. 이렇게 셀 때에는 모음군과 자음군을 넣지 않습니다. 또, 종성과 초성을 구분하지도 않습니다. ( '종성부용초성'이라고 했으니까요.) 하지만, 한글 음절은 초성과 중성, 종성으로 이뤄진다고 말할 때에는 무의식적으로 초중종성에 올 자음과 모음이 하나 뿐이라고 생각하고 있습니다. 모음 11자와 자음 17자라면 초중종성 자리에 오는 것은 기본 자모 하나일 때도 있지만, 기본 자모가 모인 모음군과 자음군일 때도 있습니다. 초중종성 자리에 자모가 하나씩만 온다고 생각하려면, 자모군도 자모수를 셀 때 더해야 하고 한글 자모의 수는 엄청나게 많아집니다. 또,음소 글자이면서도 음절 단위 모아 쓰기를 하기 때문에 인쇄용 활자가 되었든 컴퓨터용 글꼴이 되었든 글꼴 개발을 무척 어렵게 만들어서 라틴 알파벳에 비해 글꼴의 종류가 다양하지 못 하고, 질도 많이 떨어집니다. 이런 이유로 20세기 초에 주시경 선생을 비롯한 여러 한국어 학자들은 풀어 쓰기를 할 것을 주장했고 (연해주의 한인 공동체에서는 1910년대에 이런 식으로 상당량의 출판물을 내기도 했습니다.), 여러 가지 시도를 했지만, 결국 실패하였습니다. 결국 풀어 쓰기를 하기 보다는 모아 쓰기의 문제점을 기술의 진보에 따라 해결해 나가는 수 밖에 없는 듯 합니다. > 문제의 시작은 바로 여기에 있을 것 같습니다. 한글이 'alphabet'이라면 > 애초에 28자에 해당하는 키값을 배분하고, 그 값을 조합하여 > 중세국어를 포함한 모든 우리말과 글을 온전하게 표현할 수 있어야 > 하는데, 왜 그런 방향으로 가지 못했었는지? 호적을 중시하는 > 가부장적인 한국 사회와 위정자들을 탓해야 할런지, 정말 알수가 없는 > 대목입니다. 그렇게 간단한 문제가 아닙니다. 1980년대 중반에 현대 한국어 맞춤법에서 허용하는 한글 기본 자음과 자음군,모음군에 대해 코드 포인트를 할당하고 그것을 나열해서 음절을 표시하는 코드를 썼습니다. 예를 들어, 16bit MC 68000을 CPU로 쓴 SSM-16이라는 국산 최초의 '미니 컴퓨터'에서 돌아가던 V7 Unix에서 한국어 구현을 그렇게 했습니다. US-ASCII와 한글 사이의 전환은 SO/SI로 하고요. 8bit 글자를 쓸 수 없었기 때문에 두 개의 7bit 문자 집합을 SO/SI로 전환해 가면서 쓴 것입니다. 8bit를 모두 쓸 수 있다면 ISO 8859-X에서 하듯이 US-ASCII를 부분 집합으로 하고, MSB가 1인 영역(GR)에 한글 자모를 이런 식으로 배치해서 쓸 수 있었습니다. 참, 이제 와서 무슨 쓸모가 있을지 모르지만, 남북한과 중국의 한국 언어학자, 컴퓨터 과학자들이 모인 회의에서 ISO 2022에 부합하는 이런 식의 8bit 문자 집합을 새로 하나 만들기로 합의했다고 하더군요. 그러면, 왜 그렇게 하지 않고, 1987년에 나온 KS C 5601-1987은 한글을 음절 단위로 (KS C 5601-1992 부록에서 공식 규정한 조합형도 음절 단위로 처리한다는 점에서는 별로 다를 것이 없습니다.) 처리했을까요? 물론, 제가 거기에 참여한 것이 아니므로 알 수 없습니다. 하지만, 짐작은 할 수 있지요. 한자를 완전히 무시할 수 없다는 것이 하나의 이유였을 것입니다. 한자 때문에 어차피 16bit 문자 집합을 만들어야 했으니까요. 그렇더라도, 한글 음절에 대해 따로 따로 코드 포인트를 주지 않고, 한글 자모에 대해 16bit 코드 포인트를 부여하고, 이들을 모아서 한글 음절을 표시하는 방법도 쓸 수 있지 않았느냐고 물을 수 있습니다. 하지만, 그렇게 할 경우 당시의 기억 장치 용량과 전송 속도 등을 고려할 때 최소 2배에서 최고 9배(9배는 사실 좀 비현실적인 경우입니다. 한글 기본 자모 28자만 코드 포인트를 부여하고, 초,중,종성에 모두 3개의 기본 자모로 이뤄진 자음군과 모음군이 온다는 가정 하에서 9배가 나옵니다. <http://jshin.net/i18n/korean/cluster.pdf>를 보십시오. 또, <http://jshin.net/i18n/uyeo.html>도 보십시오.) )까지 크기 증가는 가볍게 여길 수 없었을 것입니다. 커서 이동, 삭제, 삽입 등에서 음절 단위 작업을 하려면 음절 경계 나누기가 음절 단위로 코드 포인트를 부여한 경우보다 복잡해진다는 점도 고려했을 것입니다. 이렇게 했다면, 일본어용으로 만들어진 프로그램을 살짝만 손보아서 한국어용으로 쓸 수 없었겠지요. 반면에 80년대 말부터 이렇게 했다면, 지금은 U+1100 한글 자모 처리를 위한 기반이 충분히 확보되어서 "1933년 이전 문헌" 처리가 훨씬 원활하게 할 수 있었을 것입니다. 또, BMP (Basic Multilgual Plane) 65536 코드 포인트 (PUA와 상위 plane을 접근하기 위한 영역을 제외하면 더 적지만) 가운데 무려 11,172자나 한글 완성 음절에 할당해서 다른 나라 사람들한테서 받았던/받고 있는 눈총도 피할 수 있었을 것이고요. 참, KS C 5601-1987(KS X 1001:1998)에서는 실제로 위에 적은 방법을 정보 교환용 부호 해설에서 언급했습니다. 2350자는 완성 음절에 대해 부여한 코드 포인트를 써서 '경제적'으로 표현하고, 나머지 부분 및 완성 음절과 현대 한국어 맞춤법에서 쓰지 않는 자모가 들어간 음절은 한글 채움 문자를 써서 8byte로 나타낼 수 있다는 규정이 있습니다. 극소수의 프로그램을 제외하고는 이것을 구현하지 않았지만요. 어쨌든, U+1100에 있는 한글 자모는 이런 일을 가능하게 해 줍니다. 여전히 위에 적은 몇몇 문제는 남아 있지만, 확실히 1980년대 말보다 사정이 훨씬 낫습니다. 한국 표준 당국이 U+1100 한글 자모 영역에 있는 자음군과 모음군을 기본 자모의 나열로 표시하는 compatibility decomposition을 제거하도록 요청했고, 그 요청이 받아 들여지는 바람에 (이제 절대 고칠 수 없습니다.) 모음 11자와 자음 17자만으로 모든 것을 처리할 수는 없지만 (중국 발음 표기를 위한 정치음 시옷 등의 자모는 일단 논외로 하고), 그것이 꼭 나쁜 것만은 아닙니다. <http://jshin.net/i18n/middle.html>을 보십시오. > 사실 '직지프로젝트'같은 것도 국가가 나서서 해주면 좋을 일인데, . > 그리 쉬 될 것 같지는 않습니다 또한 세종계획을 보더라도 정부주도 . > 프로젝트의 결과물들을 쉽게 접근할 수 있을 것 같지도 않고... . > 지재권 문제라도 정부에서 제대로 좀 풀고 넘어가주면 좋겠는데, . > 그도 참 어려운 문제고.. . > 말씀드렸던 중세국어의 표현문제는 직지프로젝트 관점에서는 지재권 > 문제와도 연결이 되어 있는 문제입니다. 따로 주해를 달거나 하지 않은 원문만이라면 1933년 이전 맞춤법으로 쓰인 문헌의 대부분은 더 이상 저작권 문제를 걱정하지 않아도 되지 않나요? (그런 문헌 저자의 대부분이 타계한 지 50년이 지났을 것이므로) > 제가 http://test.jikji.org/에 올려놓은 '금수회의록'은 놀랍게도 > 중세국어가 아닌 근세국어입니다. 엄밀한 의미에서 본다면 이 안국선의 금수회의록이 지난 세기 초에 나온 신소설이라는 것을 모르는 사람은 별로 없을 것입니다. :-) 제가 편의상 '중세 한국어 문헌'이라고 쓴 것은 사실 1933년 조선어 학회의 맞춤법 통일안에서 현대 한국어 맞춤법에서 쓸 한글 자모 수를 제한하기 전에 나온 (그리고, 그 후에도 한참 동안 나온) 문헌이라고 해야 합니다. 당연히 20세기 초에 나온 금수회의록을 비롯한 신소설도 여기에 들어 갑니다. <http://jshin.net/i18n/orth1933.pdf>를 보시면 맞춤법 통일안에서도 많은 '옛' 글자를 쓰고 있음을 알 수 있습니다. 왜냐하면, 이런 글자는 더 이상 쓰지 않는다는 보기를 들어야 하니까요. > 그리고, 지적하신 내용 중에, > > 여기서 또 한가지 해결해야 할(아직 해결되지 않았다면) 문제는 > > DB 엔진에서 U+1100 한글 자모를 제대로 지원하도록 하는 것입니다. > > UTF-8은 이제 대부분의 DB에서 지원합니다. (예외가 MySQL입니다.) > > 하지만, 이런 식으로 표현한 한글 레코드의 음절 갯수 세기 (자모 > > 갯수 세기와 별도로)와 레코드 정렬하기 등은 아직 제대로 지원하지 > > 않을 것입니다. > 의 문제는 아직 DB design도 들어가지 않았기에 뭐라 더 드릴 말씀이 > 없습니다... (놀랍게도 저는 MySQL을 생각하고 있었네요) utf-8을 > 지원하는 검색도구를 찾고 하는 것들이 다 향후 구축될 uft-8기반의 > 자료실을 염두에 둔 것이었는데, 앎이 생각을 따라가지를 못하고 > 있으니 답답할 뿐입니다. UTF-8 지원 문제가 아니라도 제 눈에는 MySQL보다 PostgrSQL(http://www.postgresql.org)이 더 나아 보입니다. SQL 표준을 더 잘 지원하고 (MySQL은 transaction을 지원하지 않습니다.), 참, 아무리 메모리나 디스크 값이 싸졌다고 해도 DB 내부에 한국어 문헌을 저장할 때에는 UTF-16을 쓰는 것이 더 나을 것입니다. UTF-16은 BMP에 들어 있지 않은 글자는 surrogate pair로 나타내야 한다는 점은 알고 계셔야 합니다. (직지 프로젝트에 앞으로 올라올 문헌 가운데에는 Plane 2에 할당된 한자가 들어간 것도 있을 것입니다.). 물론, DB 엔진이 이런 것은 잘 처리해 주어야겠지요. 웹에 출판할 때에는 UTF-8을 쓰는 것이 더 낫겠지만요. (UTF-16을 웹 페이지에서 못 쓸 이유는 없습니다. <http://jshin.net/i18n/utftest> 참고.) <http://test.jikji.org>에 PDF로 된 '금수회의록'도 올려 놓으면 좋겠습니다. Acrobat을 가지고 계시지 않는다면, ghostscript로 PDF를 만들 수 있습니다. <http://www.cs.wisc.edu/~ghost/redmon/>을 참고하십시오. 글꼴을 포함한 PDF 파일은 PUA 코드 포인트를 썼을지라도 어느 플랫폼에서나 볼 수 있습니다. 반면에 PUA 코드 포인트를 쓴 html 문서는 Win2k/XP나 MS Word 2000에 들어 있는 '새굴림/새바탕' 등의 글꼴로만 제대로 볼 수 있고, 그나마 Unix/X11에서는 볼 수 없습니다. 또, 직지 프로젝트 첫 화면에서 CSS2와 Netscape 4.7x 문제에 대한 팝업 창이 뜨는데, 낡아 빠진 Netscape 4.7x보다 비교할 수 없이 나은 (CSS2 지원, Unicode 지원 뿐 아니라 다른 여러 가지 면에서) 모질라를 쓰도록 하는 것이 좋지 않을까요? (<http://www.mozilla.org>에 가면 1.1beta를 다운로드할 수 있습니다.) 하나 더 말씀 드리겠습니다. 갑오경장에서 광복 때까지를 하나의 시기로 묶어 놓으셨던데, 그렇게 하는 것은 좀 무리가 아닐까요? 이인직,안국선,이해조 등의 신소설과 현진건,김동인,나도향, 이상 등의 소설을 하나로 묶기에는 제 짧은 국문학사 지식으로 보면 너무 두 부류 사이의 차이가 큽니다. 후자와 광복 이후 현재까지의 소설의 차이가 전자와 후자 사이의 차이보다 비교할 수 없을 정도로 작으니까요. > 직지프로젝트가 둥지를 틀고 있는 server가 FreeBSD기반이어서 > questions@kr.freebsd.org 에 올린 질문이었는데, 그 덕분에 여러 좋은 분들 > 알게되어 기쁘고, 또한 깊이 감사드립니다... 직지 프로젝트에 대해 알려 주셔서 감사합니다. 또, 누군가 해야 하지만, 하기 힘든 일을 시작하고 또 추진해 나가고 계신데 대해서도 감사의 말씀을 드립니다. 신정식 덧붙임: 사족을 하나만 붙이겠습니다. 이메일을 쓰실 때 띄어쓰기에 좀더 신경을 써 주시면 좋겠습니다. 직지 프로젝트를 기획하신 분이 쓴 이메일에 띄어쓰기 틀린 곳이 너무 많으면 뭔가 어울리지 않은 느낌이 들지 않을까요? -- Please look and take part in KFUG FAQ: <http://www.kr.freebsd.org/FAQ-kr/> To Unsubscribe: send mail to majordomo@kr.FreeBSD.org with "unsubscribe questions" in the BODY of the message


