![]() |
||
|
Major Member
![]() 加入日期: Sep 2001 您的住址: SERVER
文章: 222
|
該說什麼呢…
能不能來點有創意點的問題丫?
__________________
--------------------------------------- ![]() --------------------------------------- |
|||||||
|
|
|
Senior Member
![]() ![]() ![]() 加入日期: Nov 2002
文章: 1,294
|
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
字元編碼的東西我並不是很熟悉,只能就我所知的說一下 很多編碼法,會造成許多容量的浪費,原因可能是控制碼跟ASCII字元的相容等問題 所以2Byte的字元集,理論上有65536個字,但是實際上能用的會少很多 例如BIG5碼,他容納的中文就只有一萬多字,遠少於2byte的六萬多字 unicode訂定出來,一個目的是統一的標準,另一個目的就是讓容量使用比較有效率 但是扣掉一些控制碼跟各種字相容性之間的問題,unicode也沒有那麼多字 目前的unicode大概有兩萬多個中/日/韓文字,但還有四萬多個常用字沒有編入 同樣的,面對其他國家文字,unicode也有同樣的困擾,因為容量確實不是很夠 所以unicode可以是一套通用的碼,但是要包括人類所有的文字符號還遠遠不足的 在unicode之前,本來就已經有提出4byte編碼的人,我不知道他是誰 但是結果就是產生ISO10646。這個4byte編碼最後是失敗了,可是他修訂後 目前的ISO10646是一個包含unicode的併入的4byte字元。 我想這方面的關係,應該您去找本ISO10646的書,會有詳細介紹的 |
|||
|
|
|
*停權中*
加入日期: Oct 2001 您的住址: 台北市
文章: 483
|
大濕應該快修成正道了...
![]() |
|
|
|
Elite Member
![]() ![]() ![]() ![]() ![]() 加入日期: Feb 2003 您的住址: 台灣
文章: 4,086
|
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
如果以非字母國家使用的文字理論上來說是如此,但實際使用常用的大概只有幾千字,再多的就是一些古字,自創字或錯字,所以2byte應該是夠了. 此文章於 2004-01-26 05:38 PM 被 dts0069 編輯. |
|
|
|
|
Major Member
![]() 加入日期: Dec 1999 您的住址: Taipei
文章: 224
|
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
小弟最近對unicode略有涉略,就我的認知 unicode 中的漢字已經比單一DBCS的標準字多(BIG5,GB,KCS,JIS) 日文字部分基本上是 50音x2 (片平假名),符號不考慮 韓文字部分本來只有兩三千字,到unicode暴增到上萬字,一些本來沒有的字都 編出來了,簡直是浪費全球資源。 至於漢字,一般人常用漢字應該不超過兩萬字。 不知何來 "還有四萬多個常用字沒有" ? 如果是指'別字',那也無可厚非! |
|
|
|
|
Senior Member
![]() ![]() ![]() 加入日期: Nov 2002
文章: 1,294
|
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
也許我不該說是"常用字"吧,而且我對日韓的文字也完全不懂 只是根據手邊一些資料。所以我不知道中日韓到底需要多少字元 另外您說"別字",其實也有一種類似的狀況,好比同一個字的不同寫法 有的時候是俗寫,有的時候是不同地區的習慣,這都可以包含在編碼之中 目前unicode目前有兩萬的中日韓字元,而需要的擴充字集還有四萬多字 假如只是目前一般狀況使用的話,unicode是足夠了 問題是一個電腦編碼,希望是全世界都要用的時候,2byte的容量是不足的 4 byte編碼的用意是希望收集人類各國所有的字集,符號,部首 統整出一個全世界共用的通用編碼。舉各例子像是彝族文字 許多研究古文字的人,對unicode包含極少的彝族文字,就是沒辦法 當然..一般人感受不到這有什麼不方便。但是對需要電腦做彝族文字研究的學者 這就是一個大問題。類似的問題還有很多。而4byte字元的用意也在這裡 就是希望能一次解決掉類似這種所有的問題。 |
|
|
|
|
Power Member
![]() ![]() 加入日期: Jul 2003 您的住址: 中和區
文章: 503
|
|
|
|
|
Major Member
![]() 加入日期: Dec 1999 您的住址: Taipei
文章: 224
|
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
我記得4 byte編碼已經考慮到2byte unicode 編碼, 正因為不常用,或因應特殊領域,所以4 byte編碼有其必要,卻又難以普及, 我想UTF-8之類的應用是折衷的好辦法吧,雖然相對的會浪費一點空間。 |
|
|
|
|
Regular Member
![]() ![]() 加入日期: Dec 2000 您的住址: 新北市板橋區
文章: 62
|
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
嗯!看過kkcity59兄的解釋,我對字元編碼有了大致的了解,十分感謝呀
__________________
仍然饑渴著啊...... 強烈的敗家慾望!!!
|
|
|
|
|
Senior Member
![]() ![]() ![]() 加入日期: Nov 2002
文章: 1,294
|
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
4byte編碼的ISO10646是有包含進unicode的,這也是他的妥協 因為原本的ISO2022,是採用跟unicode不一樣的規則,會造成麻煩 所以ISO10646,就是採用unicode方式,並將他納入的 其實4byte字元集原本並沒有什麼不好,除了網路上會比較在意這個容量的浪費 UTF-8跟UTF-16轉碼,也就是unicode補足字元不足的方法 |
|
|
|