![]() |
PCDVD數位科技討論區
(https://www.pcdvd.com.tw/index.php)
- 效能極限
(https://www.pcdvd.com.tw/forumdisplay.php?f=18)
- - 雙位元是不是電腦速度的阻礙
(https://www.pcdvd.com.tw/showthread.php?t=294662)
|
|---|
該說什麼呢…
能不能來點有創意點的問題丫? |
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
字元編碼的東西我並不是很熟悉,只能就我所知的說一下 很多編碼法,會造成許多容量的浪費,原因可能是控制碼跟ASCII字元的相容等問題 所以2Byte的字元集,理論上有65536個字,但是實際上能用的會少很多 例如BIG5碼,他容納的中文就只有一萬多字,遠少於2byte的六萬多字 unicode訂定出來,一個目的是統一的標準,另一個目的就是讓容量使用比較有效率 但是扣掉一些控制碼跟各種字相容性之間的問題,unicode也沒有那麼多字 目前的unicode大概有兩萬多個中/日/韓文字,但還有四萬多個常用字沒有編入 同樣的,面對其他國家文字,unicode也有同樣的困擾,因為容量確實不是很夠 所以unicode可以是一套通用的碼,但是要包括人類所有的文字符號還遠遠不足的 在unicode之前,本來就已經有提出4byte編碼的人,我不知道他是誰 但是結果就是產生ISO10646。這個4byte編碼最後是失敗了,可是他修訂後 目前的ISO10646是一個包含unicode的併入的4byte字元。 我想這方面的關係,應該您去找本ISO10646的書,會有詳細介紹的 |
大濕應該快修成正道了...:D
|
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
如果以非字母國家使用的文字理論上來說是如此,但實際使用常用的大概只有幾千字,再多的就是一些古字,自創字或錯字,所以2byte應該是夠了. |
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
小弟最近對unicode略有涉略,就我的認知 unicode 中的漢字已經比單一DBCS的標準字多(BIG5,GB,KCS,JIS) 日文字部分基本上是 50音x2 (片平假名),符號不考慮 韓文字部分本來只有兩三千字,到unicode暴增到上萬字,一些本來沒有的字都 編出來了,簡直是浪費全球資源。 至於漢字,一般人常用漢字應該不超過兩萬字。 不知何來 "還有四萬多個常用字沒有" ? 如果是指'別字',那也無可厚非! |
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
也許我不該說是"常用字"吧,而且我對日韓的文字也完全不懂 只是根據手邊一些資料。所以我不知道中日韓到底需要多少字元 另外您說"別字",其實也有一種類似的狀況,好比同一個字的不同寫法 有的時候是俗寫,有的時候是不同地區的習慣,這都可以包含在編碼之中 目前unicode目前有兩萬的中日韓字元,而需要的擴充字集還有四萬多字 假如只是目前一般狀況使用的話,unicode是足夠了 問題是一個電腦編碼,希望是全世界都要用的時候,2byte的容量是不足的 4 byte編碼的用意是希望收集人類各國所有的字集,符號,部首 統整出一個全世界共用的通用編碼。舉各例子像是彝族文字 許多研究古文字的人,對unicode包含極少的彝族文字,就是沒辦法 當然..一般人感受不到這有什麼不方便。但是對需要電腦做彝族文字研究的學者 這就是一個大問題。類似的問題還有很多。而4byte字元的用意也在這裡 就是希望能一次解決掉類似這種所有的問題。 |
|
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
我記得4 byte編碼已經考慮到2byte unicode 編碼, 正因為不常用,或因應特殊領域,所以4 byte編碼有其必要,卻又難以普及, 我想UTF-8之類的應用是折衷的好辦法吧,雖然相對的會浪費一點空間。 |
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
嗯!看過kkcity59兄的解釋,我對字元編碼有了大致的了解,十分感謝呀 |
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
引用:
4byte編碼的ISO10646是有包含進unicode的,這也是他的妥協 因為原本的ISO2022,是採用跟unicode不一樣的規則,會造成麻煩 所以ISO10646,就是採用unicode方式,並將他納入的 其實4byte字元集原本並沒有什麼不好,除了網路上會比較在意這個容量的浪費 UTF-8跟UTF-16轉碼,也就是unicode補足字元不足的方法 |
| 所有的時間均為GMT +8。 現在的時間是05:09 AM. |
vBulletin Version 3.0.1
powered_by_vbulletin 2026。