PCDVD數位科技討論區
PCDVD數位科技討論區   註冊 常見問題 標記討論區為已讀

回到   PCDVD數位科技討論區 > 電腦硬體討論群組 > 效能極限
帳戶
密碼
 

  回應
 
主題工具
morca67
Major Member
 

加入日期: Sep 2001
您的住址: SERVER
文章: 222
該說什麼呢…

能不能來點有創意點的問題丫?
     
      
__________________
---------------------------------------

---------------------------------------
舊 2004-01-26, 04:06 PM #31
回應時引用此文章
morca67離線中  
kkcity59
Senior Member
 
kkcity59的大頭照
 

加入日期: Nov 2002
文章: 1,294
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙

引用:
Originally posted by Xman
那能不能解釋一下unicode只有2byte是不是又會有哪邊不足呢?
否則那個協會何以需要推到4byte,不知哪邊有unicode的字碼支援說明


字元編碼的東西我並不是很熟悉,只能就我所知的說一下
很多編碼法,會造成許多容量的浪費,原因可能是控制碼跟ASCII字元的相容等問題
所以2Byte的字元集,理論上有65536個字,但是實際上能用的會少很多
例如BIG5碼,他容納的中文就只有一萬多字,遠少於2byte的六萬多字
unicode訂定出來,一個目的是統一的標準,另一個目的就是讓容量使用比較有效率
但是扣掉一些控制碼跟各種字相容性之間的問題,unicode也沒有那麼多字
目前的unicode大概有兩萬多個中/日/韓文字,但還有四萬多個常用字沒有編入
同樣的,面對其他國家文字,unicode也有同樣的困擾,因為容量確實不是很夠
所以unicode可以是一套通用的碼,但是要包括人類所有的文字符號還遠遠不足的
在unicode之前,本來就已經有提出4byte編碼的人,我不知道他是誰
但是結果就是產生ISO10646。這個4byte編碼最後是失敗了,可是他修訂後
目前的ISO10646是一個包含unicode的併入的4byte字元。
我想這方面的關係,應該您去找本ISO10646的書,會有詳細介紹的
 
舊 2004-01-26, 04:33 PM #32
回應時引用此文章
kkcity59離線中  
weijen
*停權中*
 
weijen的大頭照
 

加入日期: Oct 2001
您的住址: 台北市
文章: 483
大濕應該快修成正道了...
舊 2004-01-26, 04:39 PM #33
回應時引用此文章
weijen離線中  
dts0069
Elite Member
 

加入日期: Feb 2003
您的住址: 台灣
文章: 4,086
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙

引用:
Originally posted by sibaken
簡單的講2byte只能表示2^16=65536字,光是繁體漢字就不夠用了......

如果以非字母國家使用的文字理論上來說是如此,但實際使用常用的大概只有幾千字,再多的就是一些古字,自創字或錯字,所以2byte應該是夠了.

此文章於 2004-01-26 05:38 PM 被 dts0069 編輯.
舊 2004-01-26, 05:34 PM #34
回應時引用此文章
dts0069離線中  
Lucas
Major Member
 
Lucas的大頭照
 

加入日期: Dec 1999
您的住址: Taipei
文章: 224
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙

引用:
Originally posted by kkcity59
...恕刪...
unicode也沒有那麼多字
目前的unicode大概有兩萬多個中/日/韓文字,但還有四萬多個常用字沒有編入
同樣的,
...恕刪...


小弟最近對unicode略有涉略,就我的認知
unicode 中的漢字已經比單一DBCS的標準字多(BIG5,GB,KCS,JIS)
日文字部分基本上是 50音x2 (片平假名),符號不考慮
韓文字部分本來只有兩三千字,到unicode暴增到上萬字,一些本來沒有的字都
編出來了,簡直是浪費全球資源。
至於漢字,一般人常用漢字應該不超過兩萬字。
不知何來 "還有四萬多個常用字沒有"
如果是指'別字',那也無可厚非!
舊 2004-01-26, 05:50 PM #35
回應時引用此文章
Lucas離線中  
kkcity59
Senior Member
 
kkcity59的大頭照
 

加入日期: Nov 2002
文章: 1,294
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙

引用:
Originally posted by Lucas
小弟最近對unicode略有涉略,就我的認知
unicode 中的漢字已經比單一DBCS的標準字多(BIG5,GB,KCS,JIS)
日文字部分基本上是 50音x2 (片平假名),符號不考慮
韓文字部分本來只有兩三千字,到unicode暴增到上萬字,一些本來沒有的字都
編出來了,簡直是浪費全球資源。
至於漢字,一般人常用漢字應該不超過兩萬字。
不知何來 "還有四萬多個常用字沒有"
如果是指'別字',那也無可厚非!


也許我不該說是"常用字"吧,而且我對日韓的文字也完全不懂
只是根據手邊一些資料。所以我不知道中日韓到底需要多少字元
另外您說"別字",其實也有一種類似的狀況,好比同一個字的不同寫法
有的時候是俗寫,有的時候是不同地區的習慣,這都可以包含在編碼之中
目前unicode目前有兩萬的中日韓字元,而需要的擴充字集還有四萬多字
假如只是目前一般狀況使用的話,unicode是足夠了
問題是一個電腦編碼,希望是全世界都要用的時候,2byte的容量是不足的
4 byte編碼的用意是希望收集人類各國所有的字集,符號,部首
統整出一個全世界共用的通用編碼。舉各例子像是彝族文字
許多研究古文字的人,對unicode包含極少的彝族文字,就是沒辦法
當然..一般人感受不到這有什麼不方便。但是對需要電腦做彝族文字研究的學者
這就是一個大問題。類似的問題還有很多。而4byte字元的用意也在這裡
就是希望能一次解決掉類似這種所有的問題。
舊 2004-01-26, 07:14 PM #36
回應時引用此文章
kkcity59離線中  
琥珀
Power Member
 

加入日期: Jul 2003
您的住址: 中和區
文章: 503
__________________
和服娘|480*800
|
舊 2004-01-26, 08:35 PM #37
回應時引用此文章
琥珀離線中  
Lucas
Major Member
 
Lucas的大頭照
 

加入日期: Dec 1999
您的住址: Taipei
文章: 224
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙

引用:
Originally posted by kkcity59
也許我不該說是"常用字"吧,而且我對日韓的文字也完全不懂
只是根據手邊一些資料。所以我不知道中日韓到底需要多少字元
另外您說"別字",其實也有一種類似的狀況,好比同一個字的不同寫法
有的時候是俗寫,有的時候是不同地區的習慣,這都可以包含在編碼之中
目前unicode目前有兩萬的中日韓字元,而需要的擴充字集還有四萬多字
假如只是目前一般狀況使用的話,unicode是足夠了
問題是一個電腦編碼,希望是全世界都要用的時候,2byte的容量是不足的
4 byte編碼的用意是希望收集人類各國所有的字集,符號,部首
統整出一個全世界共用的通用編碼。舉各例子像是彝族文字
許多研究古文字的人,對unicode包含極少的彝族文字,就是沒辦法
當然..一般人感受不到這有什麼不方便。但是對需要電腦做彝族文字研究的學者
這就是一個大問題。類似的問題還有很多。而4byte字元的用意也在這裡
就是希望能一次解決掉類似這種所有的問題。


我記得4 byte編碼已經考慮到2byte unicode 編碼,
正因為不常用,或因應特殊領域,所以4 byte編碼有其必要,卻又難以普及,
我想UTF-8之類的應用是折衷的好辦法吧,雖然相對的會浪費一點空間。
舊 2004-01-26, 09:44 PM #38
回應時引用此文章
Lucas離線中  
Xman
Regular Member
 
Xman的大頭照
 

加入日期: Dec 2000
您的住址: 新北市板橋區
文章: 62
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙

引用:
Originally posted by kkcity59
字元編碼的東西我並不是很熟悉,只能就我所知的說一下
很多編碼法,會造成許多容量的浪費,原因可能是控制碼跟ASCII字元的相容等問題
所以2Byte的字元集,理論上有65536個字,但是實際上能用的會少很多
例如BIG5碼,他容納的中文就只有一萬多字,遠少於2byte的六萬多字
unicode訂定出來,一個目的是統一的標準,另一個目的就是讓容量使用比較有效率
但是扣掉一些控制碼跟各種字相容性之間的問題,unicode也沒有那麼多字
目前的unicode大概有兩萬多個中/日/韓文字,但還有四萬多個常用字沒有編入
同樣的,面對其他國家文字,unicode也有同樣的困擾,因為容量確實不是很夠
所以unicode可以是一套通用的碼,但是要包括人類所有的文字符號還遠遠不足的
在unicode之前,本來就已經有提出4byte編碼的人,我不知道他是誰
但是結果就是產生ISO10646。這個4byte編碼最後是失敗了,可是他修訂後
目前的ISO10646是一個包含unicode的併入的4byte字元。
我想這方面的關係,應該您去找本ISO10646的書,會有詳細介紹的


嗯!看過kkcity59兄的解釋,我對字元編碼有了大致的了解,十分感謝呀
__________________
仍然饑渴著啊...... 強烈的敗家慾望!!!
舊 2004-01-26, 10:11 PM #39
回應時引用此文章
Xman離線中  
kkcity59
Senior Member
 
kkcity59的大頭照
 

加入日期: Nov 2002
文章: 1,294
回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 回覆: 雙位元是不是電腦速度的阻礙

引用:
Originally posted by Lucas
我記得4 byte編碼已經考慮到2byte unicode 編碼,
正因為不常用,或因應特殊領域,所以4 byte編碼有其必要,卻又難以普及,
我想UTF-8之類的應用是折衷的好辦法吧,雖然相對的會浪費一點空間。


4byte編碼的ISO10646是有包含進unicode的,這也是他的妥協
因為原本的ISO2022,是採用跟unicode不一樣的規則,會造成麻煩
所以ISO10646,就是採用unicode方式,並將他納入的
其實4byte字元集原本並沒有什麼不好,除了網路上會比較在意這個容量的浪費
UTF-8跟UTF-16轉碼,也就是unicode補足字元不足的方法
舊 2004-01-26, 11:28 PM #40
回應時引用此文章
kkcity59離線中  


    回應


POPIN
主題工具

發表文章規則
不可以發起新主題
不可以回應主題
不可以上傳附加檔案
不可以編輯您的文章

vB 代碼打開
[IMG]代碼打開
HTML代碼關閉



所有的時間均為GMT +8。 現在的時間是10:52 AM.


vBulletin Version 3.0.1
powered_by_vbulletin 2026。