cht電腦資訊gcin
adm Find login register

[討論] 用 search engine suggest 協助簡繁轉換資料整理

caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
1subject: [討論] 用 search engine suggest 協助簡繁轉換資料整理Promote 0 Bookmark 02011-06-07quote  

簡繁轉換一直是很麻煩的東西,gcin 使用自己的簡繁轉換表格已經有一陣子了,有些問題當初整理時沒考慮進去(我整理表格時只用來繁轉簡,但 gcin 用同一個表格也做簡轉繁,所以會有問題。)

當初整理時,各大搜尋引擎的 suggest 也不是很完備,公開的語料庫不是不全就是限制很多,而且多半只有 Big5/GB2312 data,整理起來十分辛苦。

現在 baidu 的 suggest 已經做得不錯了,可以讓中文 user 很方便的查詢「哪個字詞被搜得最多」(注意,是搜尋頻率,而不是遣詞用字的正確性。)

baidu 的特性是,你輸入繁體字詞,它會自動 suggest 簡體字詞。正確性姑且不論,至少可以知道「簡體 user」一般都是用什麼字詞。

底下是我目前「刪除的」 gcin 簡繁轉換資料,不知道大家有沒有什麼更正或補充的,討論討論可以整理成 patch 修正 gcin data。

拾	十	#揀拾 -> 不應該轉
榦 干 #不常用,簡轉繁常轉成榦很奇怪,一般應轉成乾或幹
漥	洼	#不常用
碱	硷	#鹼轉碱似乎比較正確,所以碱不用再轉了
窐	挂	#不常用
窐	洼	#不常用
綵	䌽	#䌽是罕用字
腼 䩄 #靦轉腼似乎比較正確,所以腼不用再轉了
襬	䙓	#䙓是罕用字
託	讬	#託轉托似乎比較正確
讎	仇	#不常用
醱	酦	#醱轉发似乎比較正確
鉅	巨	#鉅轉钜似乎比較正確
鉋	铇	#鉋轉刨似乎比較正確
鍾	锺	#鍾轉钟似乎比較正確
鎔	熔	#鎔轉镕似乎比較正確
靦	䩄	#靦轉腼似乎比較正確
餘	馀	#餘轉余似乎比較正確
鯰	鲇	#鯰轉鲶似乎比較正確
鲶	鲇	#鯰轉鲶似乎比較正確,所以鲶不用再轉了
鹼	硷	#鹼轉碱似乎比較正確
麼	麽	#麼轉么似乎比較正確
elleryq

joined: 2007-09-27
posted: 117
promoted: 5
bookmarked: 0
Taipei, Taiwan
2subject: Promote 0 Bookmark 02011-06-07quote  

有參考過新同文堂嗎?

caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
3subject: Promote 0 Bookmark 02011-06-08quote  

elleryq
有參考過新同文堂嗎?

有,新同文堂的 data 也是 big5/gb2312 為主(我當年整理時的最新版是那樣)。

而且轉詞和轉單字不同。輸入法很多是一次輸出一個字,不可能用轉詞那套來靠上下文轉。

gcin 的整句輸入部份可以用 filter 的方式實現 詞彙/整句 簡繁互轉,所以不在本表格的討論範圍。

elleryq

joined: 2007-09-27
posted: 117
promoted: 5
bookmarked: 0
Taipei, Taiwan
4subject: Promote 0 Bookmark 02011-06-08quote  

原來如此,想不到 caleb 大大也曾是新同文堂的開發者,小弟班門弄斧了...

cht電腦資訊gcin
adm Find login register
views:7965