正體 ←→簡體轉換。

eliu
1 正體 ←→簡體轉換。
0 0	2008-01-26	quote

目前正體←→简體轉換是用

UTF-8←→Big5←→GB-2321←→UTF-8

問題就出在如果文章有 UTF-8 character 是 Big5 or GB-2321 無法表示的，那就會掉字。是有辦法避掉，可是有點麻煩。

最佳的解決還是 UTF-8正 <-> UTF-8简。看有沒有人去弄出 UTF-8 的對應 text file。

覺得Android中文輸入法(注音、倉頡)不易輸入？→ gcin Android

手機照相看照片不方便？→ AndCamera

覺得鬧鐘/行事曆有改進的空間？→ AndAlarm

edited: 3

本人已不在此站活動
2
0 0	2008-01-25	quote

是要這個嗎？如附件：Big5_to_GB2312.txt.gz。

caleb
4 正體 ←→簡體轉換。
0 0	2008-01-25	quote

哦，LGJ 貼的那個檔就是 gcin trac 的。

這個檔應該還是要再整理過，不過 bug 應該比 glibc / libhz0 (zh-autoconvert) 少了。

firefox 同文堂也蠻值得參考的，不過同文堂也是有不少 bug。

eliu
5
0 0	2008-01-26	quote

gcin 內部的不 load 到 memory，直接用 indexed file search。
sim2trad 則是 load 到 memory 。

覺得Android中文輸入法(注音、倉頡)不易輸入？→ gcin Android

手機照相看照片不方便？→ AndCamera

覺得鬧鐘/行事曆有改進的空間？→ AndAlarm

eliu
6
0 0	2008-01-26	quote

-- 老笑話

肚子餓了，我回去下麵給你吃。轉成簡體中文。

覺得Android中文輸入法(注音、倉頡)不易輸入？→ gcin Android

手機照相看照片不方便？→ AndCamera

覺得鬧鐘/行事曆有改進的空間？→ AndAlarm

本人已不在此站活動
7 正體 ←→簡體轉換。
0 0	2008-01-26	quote

caleb

哦，LGJ 貼的那個檔就是 gcin trac 的。

這個檔應該還是要再整理過，不過 bug 應該比 glibc / libhz0 (zh-autoconvert) 少了。

firefox 同文堂也蠻值得參考的，不過同文堂也是有不少 bug。

我也忘了從哪裡來的，就躺在我的硬碟上。

我猜最終的原始出處是在 Unicode.org：

http://unicode.org/reports/tr30/datafiles/SimplifiedHanFolding.txt

然後再加加減減的。

eliu
8
0 0	2008-01-27	quote

gcin 现在开始改用自己的简正转换，發現 data 有錯

開开

麻煩再看一下還有沒有錯。

覺得Android中文輸入法(注音、倉頡)不易輸入？→ gcin Android

手機照相看照片不方便？→ AndCamera

覺得鬧鐘/行事曆有改進的空間？→ AndAlarm

edited: 2

本人已不在此站活動
9
0 0	2008-01-27	quote

source 在哪裡？（伸）。

eliu
10
0 0	2008-01-27	quote

你給的 Big5_to_GB2312.txt.gz

覺得Android中文輸入法(注音、倉頡)不易輸入？→ gcin Android

手機照相看照片不方便？→ AndCamera

覺得鬧鐘/行事曆有改進的空間？→ AndAlarm

本人已不在此站活動
11
0 0	2008-01-27	quote

那個是有人 po 到 cle trac 上去的，我下載後，忘了出處了。:p

我把他和 Unicode 的來比較一下好了。

本人已不在此站活動
12
0 0	2008-01-27	quote

以下這是兩個檔合併的（b5-gb2.txt.gz）。

b5-gb2.txt = Big5_to_GB2312.txt + SimplifiedHanFolding.txt。

ps. 开的已更正。

edited: 2

本人已不在此站活動
13
0 0	2008-01-28	quote

我發現一個問題，那就是不必只限定在 Big-5 範圍，例如：

㠏㩜䊷䋙䋻䝼䯀䰾䱽䲁
㟆㨫䌶䌺䌾䞍䯅鲃䲝鳚

這些都不在 Big-5/GB2312 的範圍，但有繁轉簡的問題。

我試過了，這些加進去，轉換仍然正常，不會有什麼影響。eliu 弄了個新版本，大家來幫忙「抓漏」吧！

http://www.csie.nctu.edu.tw/~cp76/gcin/download/gcin-1.3.9.pre1.tar.bz2

等我校正好後再把 table po 過來。

edited: 1

本人已不在此站活動
15
0 0	2008-01-28	quote

Done & Thanks. 我把檔名改成 t2s-file.table（如附件），以便和程式碼名配合，要使用這個檔 t2s-file.c 及同目錄的 Makefile 要改一下檔名。

edited: 1

本人已不在此站活動
16
0 0	2008-01-28	quote

這個目前算是初步定案，和「Wikipedia:Unihan繁简体对照表」比對的結果有四處不同，已經更正過來了：

--- t2s-file.table.orig   2008-01-28 18:11:38.000000000 +0800
+++ t2s-file.table   2008-01-28 22:09:07.000000000 +0800
@@ -1046,7 +1046,6 @@
瞼   睑
矇   蒙
矓   眬
-矓   胧
矚   瞩
矯   矫
硜   硁
@@ -1490,7 +1489,7 @@
薦   荐
薩   萨
薳   䓕
-薴   苎
+薴   苧
薺   荠
藍   蓝
藎   荩
@@ -2115,7 +2114,6 @@
銳   锐
銷   销
銹   锈
-銹   锤
銻   锑
銼   锉
鋁   铝
@@ -2243,7 +2241,6 @@
鏷   镤
鏹   镪
鏽   锈
-鏽   锤
鐃   铙
鐋   铴
鐐   镣

本人已不在此站活動
19
0 0	2008-01-29	quote

呃，偷懶被發現了。

晚上再來看看……

本人已不在此站活動
21
0 0	2008-01-29	quote

OK，訂正了一下（有一些是正確的轉換，所以就維持原狀了）。見附檔 ts2-file.table.gz。

另外附上 cn2jp 的 big2gb.tbl 供大家參考，我已把他轉成 UTF-8，裡頭的 hex 是 Big-5 碼的。

目前一對多的只留一個，因為對目前的 gcin 而言，似沒有必要。新增的部份全數加入，Thanks.

日文漢字的部份我是覺得不動他比較好，因為他沒有繁簡之分，加進去轉的話，反而容易亂掉或被誤會？不知道大家覺得如何？

ConvertZ BI_SimFix.dat 是 gb18030，支援這個編碼的編輯器就可以看了。不過，資料要詳加訂正一下才敢用。

edited: 3