| |||||||
adm | Find | login register |
目前正體←→简體轉換是用 UTF-8←→Big5←→GB-2321←→UTF-8 問題就出在如果文章有 UTF-8 character 是 Big5 or GB-2321 無法表示的,那就會掉字。是有辦法避掉,可是有點麻煩。 最佳的解決還是 UTF-8正 <-> UTF-8简。看有沒有人去弄出 UTF-8 的對應 text file。
edited: 3
| |||||||||||||
| |||||||||||||
| |||||||||||||
| |||||||||||||
-- 老笑話 肚子餓了,我回去下麵給你吃。 轉成簡體中文。 | |||||||||||||
我也忘了從哪裡來的,就躺在我的硬碟上。 我猜最終的原始出處是在 Unicode.org: http://unicode.org/reports/tr30/datafiles/SimplifiedHanFolding.txt
然後再加加減減的。 | |||||||||||||
gcin 现在开始改用自己的简正转换,發現 data 有錯 開 开 麻煩再看一下還有沒有錯。 edited: 2
| |||||||||||||
source 在哪裡?(伸)。 | |||||||||||||
你給的 Big5_to_GB2312.txt.gz | |||||||||||||
那個是有人 po 到 cle trac 上去的,我下載後,忘了出處了。:p
我把他和 Unicode 的來比較一下好了。 | |||||||||||||
以下這是兩個檔合併的(b5-gb2.txt.gz)。 b5-gb2.txt = Big5_to_GB2312.txt + SimplifiedHanFolding.txt。
ps. 开的已更正。 | |||||||||||||
我發現一個問題,那就是不必只限定在 Big-5 範圍,例如:
㠏㩜䊷䋙䋻䝼䯀䰾䱽䲁 這些都不在 Big-5/GB2312 的範圍,但有繁轉簡的問題。 我試過了,這些加進去,轉換仍然正常,不會有什麼影響。eliu 弄了個新版本,大家來幫忙「抓漏」吧! http://www.csie.nctu.edu.tw/~cp76/gcin/download/gcin-1.3.9.pre1.tar.bz2
等我校正好後再把 table po 過來。 edited: 1
| |||||||||||||
Done & Thanks. 我把檔名改成 t2s-file.table(如附件),以便和程式碼名配合,要使用這個檔 t2s-file.c 及同目錄的 Makefile 要改一下檔名。 edited: 1
| |||||||||||||
這個目前算是初步定案,和「Wikipedia:Unihan繁简体对照表」比對的結果有四處不同,已經更正過來了:
--- t2s-file.table.orig 2008-01-28 18:11:38.000000000 +0800
| |||||||||||||
呃,偷懶被發現了。
晚上再來看看…… | |||||||||||||
OK,訂正了一下(有一些是正確的轉換,所以就維持原狀了)。見附檔 ts2-file.table.gz。 另外附上 cn2jp 的 big2gb.tbl 供大家參考,我已把他轉成 UTF-8,裡頭的 hex 是 Big-5 碼的。 目前一對多的只留一個,因為對目前的 gcin 而言,似沒有必要。新增的部份全數加入,Thanks. 日文漢字的部份我是覺得不動他比較好,因為他沒有繁簡之分,加進去轉的話,反而容易亂掉或被誤會?不知道大家覺得如何?
ConvertZ BI_SimFix.dat 是 gb18030,支援這個編碼的編輯器就可以看了。不過,資料要詳加訂正一下才敢用。 |
| |||||||
adm | Find | login register |