瀏覽單個文章
scarf
*停權中*
 
scarf的大頭照
 

加入日期: Jan 2002
您的住址: 網路界
文章: 207
Unicode不只繼承了各國的漢字異體字(以下簡稱異體字,指的是一組
同音同義的漢字),更因為該組織當初為了統一中日韓台等各國使用的漢
字,又帶進了許多字形相差不大的異體字。例如BIG-5的內 (U-5167),和
日文的? (U-5185)。由於這些異體字的存在,中文域名所對應的同音同義
的Unicode字串的個數,會隨著名稱長度,而成指數成長。域名系統使用的
漢字碼表容量越大,這個指數成長的特性也更明顯。當中日韓台等各國仍
使用獨立的比較小的碼表,來表達各自常用的文字的時候,異體字的問題
還算比較容易掌握。但是,當Unicode的版本逐步更新,Unicode碼表的容量
越來越大(Unicode 2.0版有21,204個漢字、3.0版有27,786個、3.1版則有70,207
個),伴隨的異體字的數量隨之大幅增加,而中文域名的混淆度也更高。
舊 2002-02-11, 12:26 PM #4
回應時引用此文章
scarf離線中