Unicode12.0.ods
https://sites.google.com/site/ianho...eCharactersList
在 LibreOffice Calc 6.1 for Mac 環境編製檔案,試算表格式。
資料內容包含有:
Unicode12.0所規範的 十三萬七千多個字元名稱的、三百多個分段名稱的、兩千多個子群組分段名稱的 英文原文,以及我google到處收集整理來的正體中文翻譯(也有幾個中譯是跟佛心的網友問來的)。
這份檔案包含有十三萬七千多個 「完全不同」的字元碼位,所以開檔讀取時間可能會稍微耗時。
免責聲明:
我「不保證」這份整理資料裡頭的所有中英文字串全都是有專業人士背書校稿過的,這份資料一定還會有資料彙整過程或翻譯上的瑕疵存在,出現資料編輯瑕疵的機率「絕對不會是零」。
---
這份資料的第一個閱讀使用者當然就是我自己,因為我查閱英文原文字元名稱看多了容易精神疲勞,然後運氣好的,經年累月我終於「整理」出來了英文字元名稱的正體中文翻譯列表,然後獨樂樂不如眾樂樂這樣,有需要的網友或許參考。
也歡迎「佛心的網友」幫忙看看,有些因為我能力有限而整理不出來的英翻中,還有沒有辦法挖出資料源(已公開的網路資料),找出合乎中華民國傳統國語用詞習慣的英翻中
(能附上有公信力的舉證資料源網址是更好,我整理資料也比較心安能有個底,不要有不知道是哪裡來的那種不安定感)。
例如,有沒有 希臘字母 阿法、貝塔 等等 「全套的字母」 (要包含歷史上存在過的/現代棄用的/但unicode有收錄的) 相對有公信力的英翻中資料源,半套的就不用了,因為維基百科就有了。
---
有問有機會,Unicode12.0 所規範的 字元名稱/子群組分段名稱 以下這些英文單字 我都 找不到 現成既有的、符合中華民國(臺灣)國語用詞習慣的 正體中文翻譯:
TSHOOK(應該不只一個)、TRUE LIGHT MOON ARTA、SENTAGON、equihoppers
當然不只這些,還有一堆。
這個頁面可以找出這些字元名稱的英文單字
BabelMap Online
http://www.babelstone.co.uk/Unicode/babelmap.html
---
當我把 Unicode12.0 十三萬七千多個 字元名稱 和(子群組)分段名稱 瀏覽完一遍之後,我第一時間有這樣的解讀,拉丁字母透過基督教傳教的模式,果然是近百年某整程度的 語言/文字 霸權。
Unicode的範本表格內,有多個分段名稱裡頭所整理出來的字母或符號,其本質是基督教從大航海時代開始,傳教士們深入各處所謂的開發中或未開發地區,並嘗試去了解那些地區人民的語言,了解到一定的程度之後,以二創的拉丁字母去拼注該地區語言的發音,會這麼做的「第一個目的」,當然就是為了傳教,為了把聖經宣傳出去,而不是為了要把該地區的口說語言文字記錄化。
---
再來我發現,unicode的字元編碼排序,拉丁字母的多個不同分段,到目前為止基本上都是 常用的、基本的 排在 前面的碼位,少用的、補充的排在後面的碼位。
但是例如漢字和其他相對文化弱勢的文字系統就不是這麼一回事了,會有同系列但被區分成不同分段的文字系統,罕用的、補充的 碼位分段,卻被排在 常用的、基本的 「之前」。
這樣會發生在電腦文書處理的時候,若採用使用unicode編碼的文書軟體操作,例如在試算表做排序,那麼罕用字反而被文書軟體排序到常用字「之前」!(照理說應該要排到「之後」)
拉丁字母文化霸權大概就是這麼一回事吧?拉丁字母本身就給它照碼位由小而大來排序常用字至罕用字,但其他文字系統就給它前面還有空碼位區段縫隙就塞進去了。
中文漢字的部分,臺灣在地還有一個叫做 CNS11643 中文全字庫 的編碼方案,就是常用字碼位都在前,次常用字、罕用字碼位都在後,雖然 CNS11643 中文全字庫 也還是有扯不完的一些問題在,但至少有解決常用與罕用字的碼位排序問題。其它更弱勢的文字系統怎麼辦?涼拌炒雞蛋?
---