PCDVD數位科技討論區

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)
-   效能極限 (https://www.pcdvd.com.tw/forumdisplay.php?f=18)
-   -   雙位元是不是電腦速度的阻礙 (https://www.pcdvd.com.tw/showthread.php?t=294662)

morca67 2004-01-26 04:06 PM

該說什麼呢…

能不能來點有創意點的問題丫?

kkcity59 2004-01-26 04:33 PM

回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
 
引用:
Originally posted by Xman
那能不能解釋一下unicode只有2byte是不是又會有哪邊不足呢?
否則那個協會何以需要推到4byte,不知哪邊有unicode的字碼支援說明


字元編碼的東西我並不是很熟悉,只能就我所知的說一下
很多編碼法,會造成許多容量的浪費,原因可能是控制碼跟ASCII字元的相容等問題
所以2Byte的字元集,理論上有65536個字,但是實際上能用的會少很多
例如BIG5碼,他容納的中文就只有一萬多字,遠少於2byte的六萬多字
unicode訂定出來,一個目的是統一的標準,另一個目的就是讓容量使用比較有效率
但是扣掉一些控制碼跟各種字相容性之間的問題,unicode也沒有那麼多字
目前的unicode大概有兩萬多個中/日/韓文字,但還有四萬多個常用字沒有編入
同樣的,面對其他國家文字,unicode也有同樣的困擾,因為容量確實不是很夠
所以unicode可以是一套通用的碼,但是要包括人類所有的文字符號還遠遠不足的
在unicode之前,本來就已經有提出4byte編碼的人,我不知道他是誰
但是結果就是產生ISO10646。這個4byte編碼最後是失敗了,可是他修訂後
目前的ISO10646是一個包含unicode的併入的4byte字元。
我想這方面的關係,應該您去找本ISO10646的書,會有詳細介紹的

weijen 2004-01-26 04:39 PM

大濕應該快修成正道了...:D

dts0069 2004-01-26 05:34 PM

回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
 
引用:
Originally posted by sibaken
簡單的講2byte只能表示2^16=65536字,光是繁體漢字就不夠用了......

如果以非字母國家使用的文字理論上來說是如此,但實際使用常用的大概只有幾千字,再多的就是一些古字,自創字或錯字,所以2byte應該是夠了.

Lucas 2004-01-26 05:50 PM

回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
 
引用:
Originally posted by kkcity59
...恕刪...
unicode也沒有那麼多字
目前的unicode大概有兩萬多個中/日/韓文字,但還有四萬多個常用字沒有編入
同樣的,
...恕刪...


小弟最近對unicode略有涉略,就我的認知
unicode 中的漢字已經比單一DBCS的標準字多(BIG5,GB,KCS,JIS)
日文字部分基本上是 50音x2 (片平假名),符號不考慮
韓文字部分本來只有兩三千字,到unicode暴增到上萬字,一些本來沒有的字都
編出來了,簡直是浪費全球資源。
至於漢字,一般人常用漢字應該不超過兩萬字。
不知何來 "還有四萬多個常用字沒有"
如果是指'別字',那也無可厚非!

kkcity59 2004-01-26 07:14 PM

回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
 
引用:
Originally posted by Lucas
小弟最近對unicode略有涉略,就我的認知
unicode 中的漢字已經比單一DBCS的標準字多(BIG5,GB,KCS,JIS)
日文字部分基本上是 50音x2 (片平假名),符號不考慮
韓文字部分本來只有兩三千字,到unicode暴增到上萬字,一些本來沒有的字都
編出來了,簡直是浪費全球資源。
至於漢字,一般人常用漢字應該不超過兩萬字。
不知何來 "還有四萬多個常用字沒有"
如果是指'別字',那也無可厚非!


也許我不該說是"常用字"吧,而且我對日韓的文字也完全不懂
只是根據手邊一些資料。所以我不知道中日韓到底需要多少字元
另外您說"別字",其實也有一種類似的狀況,好比同一個字的不同寫法
有的時候是俗寫,有的時候是不同地區的習慣,這都可以包含在編碼之中
目前unicode目前有兩萬的中日韓字元,而需要的擴充字集還有四萬多字
假如只是目前一般狀況使用的話,unicode是足夠了
問題是一個電腦編碼,希望是全世界都要用的時候,2byte的容量是不足的
4 byte編碼的用意是希望收集人類各國所有的字集,符號,部首
統整出一個全世界共用的通用編碼。舉各例子像是彝族文字
許多研究古文字的人,對unicode包含極少的彝族文字,就是沒辦法
當然..一般人感受不到這有什麼不方便。但是對需要電腦做彝族文字研究的學者
這就是一個大問題。類似的問題還有很多。而4byte字元的用意也在這裡
就是希望能一次解決掉類似這種所有的問題。

琥珀 2004-01-26 08:35 PM

Code Pages Supported by Windows -- Windows

"Chinese Encoding Standard -- GB 18030"

有興趣者可看看。

Lucas 2004-01-26 09:44 PM

回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
 
引用:
Originally posted by kkcity59
也許我不該說是"常用字"吧,而且我對日韓的文字也完全不懂
只是根據手邊一些資料。所以我不知道中日韓到底需要多少字元
另外您說"別字",其實也有一種類似的狀況,好比同一個字的不同寫法
有的時候是俗寫,有的時候是不同地區的習慣,這都可以包含在編碼之中
目前unicode目前有兩萬的中日韓字元,而需要的擴充字集還有四萬多字
假如只是目前一般狀況使用的話,unicode是足夠了
問題是一個電腦編碼,希望是全世界都要用的時候,2byte的容量是不足的
4 byte編碼的用意是希望收集人類各國所有的字集,符號,部首
統整出一個全世界共用的通用編碼。舉各例子像是彝族文字
許多研究古文字的人,對unicode包含極少的彝族文字,就是沒辦法
當然..一般人感受不到這有什麼不方便。但是對需要電腦做彝族文字研究的學者
這就是一個大問題。類似的問題還有很多。而4byte字元的用意也在這裡
就是希望能一次解決掉類似這種所有的問題。


我記得4 byte編碼已經考慮到2byte unicode 編碼,
正因為不常用,或因應特殊領域,所以4 byte編碼有其必要,卻又難以普及,
我想UTF-8之類的應用是折衷的好辦法吧,雖然相對的會浪費一點空間。

Xman 2004-01-26 10:11 PM

回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
 
引用:
Originally posted by kkcity59
字元編碼的東西我並不是很熟悉,只能就我所知的說一下
很多編碼法,會造成許多容量的浪費,原因可能是控制碼跟ASCII字元的相容等問題
所以2Byte的字元集,理論上有65536個字,但是實際上能用的會少很多
例如BIG5碼,他容納的中文就只有一萬多字,遠少於2byte的六萬多字
unicode訂定出來,一個目的是統一的標準,另一個目的就是讓容量使用比較有效率
但是扣掉一些控制碼跟各種字相容性之間的問題,unicode也沒有那麼多字
目前的unicode大概有兩萬多個中/日/韓文字,但還有四萬多個常用字沒有編入
同樣的,面對其他國家文字,unicode也有同樣的困擾,因為容量確實不是很夠
所以unicode可以是一套通用的碼,但是要包括人類所有的文字符號還遠遠不足的
在unicode之前,本來就已經有提出4byte編碼的人,我不知道他是誰
但是結果就是產生ISO10646。這個4byte編碼最後是失敗了,可是他修訂後
目前的ISO10646是一個包含unicode的併入的4byte字元。
我想這方面的關係,應該您去找本ISO10646的書,會有詳細介紹的


嗯!看過kkcity59兄的解釋,我對字元編碼有了大致的了解,十分感謝呀

kkcity59 2004-01-26 11:28 PM

回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙
 
引用:
Originally posted by Lucas
我記得4 byte編碼已經考慮到2byte unicode 編碼,
正因為不常用,或因應特殊領域,所以4 byte編碼有其必要,卻又難以普及,
我想UTF-8之類的應用是折衷的好辦法吧,雖然相對的會浪費一點空間。


4byte編碼的ISO10646是有包含進unicode的,這也是他的妥協
因為原本的ISO2022,是採用跟unicode不一樣的規則,會造成麻煩
所以ISO10646,就是採用unicode方式,並將他納入的
其實4byte字元集原本並沒有什麼不好,除了網路上會比較在意這個容量的浪費
UTF-8跟UTF-16轉碼,也就是unicode補足字元不足的方法


所有的時間均為GMT +8。 現在的時間是05:09 AM.

vBulletin Version 3.0.1
powered_by_vbulletin 2026。