引用:
Originally posted by Lucas
小弟最近對unicode略有涉略,就我的認知
unicode 中的漢字已經比單一DBCS的標準字多(BIG5,GB,KCS,JIS)
日文字部分基本上是 50音x2 (片平假名),符號不考慮
韓文字部分本來只有兩三千字,到unicode暴增到上萬字,一些本來沒有的字都
編出來了,簡直是浪費全球資源。
至於漢字,一般人常用漢字應該不超過兩萬字。
不知何來 "還有四萬多個常用字沒有" ?
如果是指'別字',那也無可厚非!
|
也許我不該說是"常用字"吧,而且我對日韓的文字也完全不懂
只是根據手邊一些資料。所以我不知道中日韓到底需要多少字元
另外您說"別字",其實也有一種類似的狀況,好比同一個字的不同寫法
有的時候是俗寫,有的時候是不同地區的習慣,這都可以包含在編碼之中
目前unicode目前有兩萬的中日韓字元,而需要的擴充字集還有四萬多字
假如只是目前一般狀況使用的話,unicode是足夠了
問題是一個電腦編碼,希望是全世界都要用的時候,2byte的容量是不足的
4 byte編碼的用意是希望收集人類各國所有的字集,符號,部首
統整出一個全世界共用的通用編碼。舉各例子像是彝族文字
許多研究古文字的人,對unicode包含極少的彝族文字,就是沒辦法
當然..一般人感受不到這有什麼不方便。但是對需要電腦做彝族文字研究的學者
這就是一個大問題。類似的問題還有很多。而4byte字元的用意也在這裡
就是希望能一次解決掉類似這種所有的問題。