簡繁轉換一直是很麻煩的東西,gcin 使用自己的簡繁轉換表格已經有一陣子了,有些問題當初整理時沒考慮進去(我整理表格時只用來繁轉簡,但 gcin 用同一個表格也做簡轉繁,所以會有問題。)
當初整理時,各大搜尋引擎的 suggest 也不是很完備,公開的語料庫不是不全就是限制很多,而且多半只有 Big5/GB2312 data,整理起來十分辛苦。
現在 baidu 的 suggest 已經做得不錯了,可以讓中文 user 很方便的查詢「哪個字詞被搜得最多」(注意,是搜尋頻率,而不是遣詞用字的正確性。)
baidu 的特性是,你輸入繁體字詞,它會自動 suggest 簡體字詞。正確性姑且不論,至少可以知道「簡體 user」一般都是用什麼字詞。
底下是我目前「刪除的」 gcin 簡繁轉換資料,不知道大家有沒有什麼更正或補充的,討論討論可以整理成 patch 修正 gcin data。
拾 十 #揀拾 -> 不應該轉
榦 干 #不常用,簡轉繁常轉成榦很奇怪,一般應轉成乾或幹
漥 洼 #不常用
碱 硷 #鹼轉碱似乎比較正確,所以碱不用再轉了
窐 挂 #不常用
窐 洼 #不常用
綵 䌽 #䌽是罕用字
腼 䩄 #靦轉腼似乎比較正確,所以腼不用再轉了
襬 䙓 #䙓是罕用字
託 讬 #託轉托似乎比較正確
讎 仇 #不常用
醱 酦 #醱轉发似乎比較正確
鉅 巨 #鉅轉钜似乎比較正確
鉋 铇 #鉋轉刨似乎比較正確
鍾 锺 #鍾轉钟似乎比較正確
鎔 熔 #鎔轉镕似乎比較正確
靦 䩄 #靦轉腼似乎比較正確
餘 馀 #餘轉余似乎比較正確
鯰 鲇 #鯰轉鲶似乎比較正確
鲶 鲇 #鯰轉鲶似乎比較正確,所以鲶不用再轉了
鹼 硷 #鹼轉碱似乎比較正確
麼 麽 #麼轉么似乎比較正確