cht電腦資訊gcin
adm Find login register

正體 ←→簡體轉換。

eliu
1 正體 ←→簡體轉換。
Promote 0 Bookmark 02008-01-26quote  

目前正體←→简體轉換是用

UTF-8←→Big5←→GB-2321←→UTF-8

問題就出在如果文章有 UTF-8 character 是 Big5 or GB-2321 無法表示的,那就會掉字。是有辦法避掉,可是有點麻煩。

最佳的解決還是 UTF-8正 <-> UTF-8简。看有沒有人去弄出 UTF-8 的對應 text file。

 

edited: 3
本人已不在此站活動
2
Promote 0 Bookmark 02008-01-25quote  

是要這個嗎?如附件:Big5_to_GB2312.txt.gz。

caleb
4 正體 ←→簡體轉換。
Promote 0 Bookmark 02008-01-25quote  

哦,LGJ 貼的那個檔就是 gcin trac 的。

這個檔應該還是要再整理過,不過 bug 應該比 glibc / libhz0 (zh-autoconvert) 少了。

firefox 同文堂也蠻值得參考的,不過同文堂也是有不少 bug。 

eliu
5
Promote 0 Bookmark 02008-01-26quote  
eliu
6
Promote 0 Bookmark 02008-01-26quote  
本人已不在此站活動
7 正體 ←→簡體轉換。
Promote 0 Bookmark 02008-01-26quote  
caleb

哦,LGJ 貼的那個檔就是 gcin trac 的。

這個檔應該還是要再整理過,不過 bug 應該比 glibc / libhz0 (zh-autoconvert) 少了。

firefox 同文堂也蠻值得參考的,不過同文堂也是有不少 bug。 

我也忘了從哪裡來的,就躺在我的硬碟上。吐舌頭

我猜最終的原始出處是在 Unicode.org:

http://unicode.org/reports/tr30/datafiles/SimplifiedHanFolding.txt

然後再加加減減的。
 

eliu
8
Promote 0 Bookmark 02008-01-27quote  
edited: 2
本人已不在此站活動
9
Promote 0 Bookmark 02008-01-27quote  

source 在哪裡?(伸)。吐舌頭

eliu
10
Promote 0 Bookmark 02008-01-27quote  
本人已不在此站活動
11
Promote 0 Bookmark 02008-01-27quote  

那個是有人 po 到 cle trac 上去的,我下載後,忘了出處了。:p

我把他和 Unicode 的來比較一下好了。
 

本人已不在此站活動
12
Promote 0 Bookmark 02008-01-27quote  

以下這是兩個檔合併的(b5-gb2.txt.gz)。

b5-gb2.txt =  Big5_to_GB2312.txt + SimplifiedHanFolding.txt。

ps. 开的已更正。
 

edited: 2
本人已不在此站活動
13
Promote 0 Bookmark 02008-01-28quote  

我發現一個問題,那就是不必只限定在 Big-5 範圍,例如:

㠏㩜䊷䋙䋻䝼䯀䰾䱽䲁
㟆㨫䌶䌺䌾䞍䯅鲃䲝鳚

這些都不在 Big-5/GB2312 的範圍,但有繁轉簡的問題。

我試過了,這些加進去,轉換仍然正常,不會有什麼影響。eliu 弄了個新版本,大家來幫忙「抓漏」吧!微笑

http://www.csie.nctu.edu.tw/~cp76/gcin/download/gcin-1.3.9.pre1.tar.bz2

等我校正好後再把 table po 過來。

edited: 1
本人已不在此站活動
15
Promote 0 Bookmark 02008-01-28quote  

Done & Thanks. 我把檔名改成 t2s-file.table(如附件),以便和程式碼名配合,要使用這個檔 t2s-file.c 及同目錄的 Makefile 要改一下檔名。

edited: 1
本人已不在此站活動
16
Promote 0 Bookmark 02008-01-28quote  

這個目前算是初步定案,和「Wikipedia:Unihan繁简体对照表」比對的結果有四處不同,已經更正過來了:

 --- t2s-file.table.orig    2008-01-28 18:11:38.000000000 +0800
+++ t2s-file.table    2008-01-28 22:09:07.000000000 +0800
@@ -1046,7 +1046,6 @@
 瞼    睑
 矇    蒙
 矓    眬
-矓    胧
 矚    瞩
 矯    矫
 硜    硁
@@ -1490,7 +1489,7 @@
 薦    荐
 薩    萨
 薳    䓕
-薴    苎
+薴    苧
 薺    荠
 藍    蓝
 藎    荩
@@ -2115,7 +2114,6 @@
 銳    锐
 銷    销
 銹    锈
-銹    锤
 銻    锑
 銼    锉
 鋁    铝
@@ -2243,7 +2241,6 @@
 鏷    镤
 鏹    镪
 鏽    锈
-鏽    锤
 鐃    铙
 鐋    铴
 鐐    镣

 

本人已不在此站活動
19
Promote 0 Bookmark 02008-01-29quote  

呃,偷懶被發現了。吐舌頭

晚上再來看看……
 

本人已不在此站活動
21
Promote 0 Bookmark 02008-01-29quote  

OK,訂正了一下(有一些是正確的轉換,所以就維持原狀了)。見附檔 ts2-file.table.gz。

另外附上 cn2jp 的 big2gb.tbl 供大家參考,我已把他轉成 UTF-8,裡頭的 hex 是 Big-5 碼的。

目前一對多的只留一個,因為對目前的 gcin 而言,似沒有必要。新增的部份全數加入,Thanks.

日文漢字的部份我是覺得不動他比較好,因為他沒有繁簡之分,加進去轉的話,反而容易亂掉或被誤會?不知道大家覺得如何?

ConvertZ BI_SimFix.dat 是 gb18030,支援這個編碼的編輯器就可以看了。不過,資料要詳加訂正一下才敢用。微笑

edited: 3

CC: Jokes 笑話
cht電腦資訊gcin
adm Find login register
views:46392