cht電腦資訊gcin已解決問題
adm Find login register

[構想] 使用詞音來輸入日文

eliu

joined: 2007-08-09
posted: 11468
promoted: 617
bookmarked: 187
新竹, 台灣
1subject: [構想] 使用詞音來輸入日文Promote 0 Bookmark 02008-08-09quote  

雖然 gtab 有支援由詞庫自動選字。但詞音目前還有 gtab 沒有的優點就是預選詞,而且在一字多音的情況下,正確率比較高。 

詞音在選用聲調拼音時有用一個轉換的 table,轉成注音。如果新增一個把日語拼音轉成注音的 table,同時在 pho*.tab 定義日文的注音,那就可以用日語的拼音來輸入。

所以想玩玩看的人,可以把注音鍵盤改成聲調拼音,選用注音巨大字集 (應該很少人用),修改 pho-huge.tab.src 加入日文字。

聲調拼音 table  是 pin-juyin.src  由 ../pin-juyin 轉換後成為  pin-juyin.xlt。

如果使用起來沒有問題,我再想辦法修改 gtab.list,變成可以指定詞庫tsin32、日文拼音的 table、注音的.tab。

edited: 1
caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
2subject: Promote 0 Bookmark 02008-08-26quote  

製作了一套,如附件

*.src 是原始碼

把 *.src 以外的檔案複製到 /usr/share/gcin/table 和 $HOME/.gcin 就可以用了。

目前只有兩個詞:

金沢文子 ka na za wa bu n ko

冨樫義博 to ga shi yo shi hi ro

 

勉強可用,但很不好用。

問題如下:

1. 目前詞音一個音只能輸出一個字,不能輸出多個字,像 CHA → ㄑㄩㄚ → ちゃ 這樣的就不能用,只會輸出「ち」,「ゃ」不見了。

 

2. 中文是一字一音節,但日文漢字常常是一字多音節。以目前的範例而言,詞音只收 ka na za wa → 這其實只是「金沢」兩字,但卻輸出「金沢文子」; to ga shi yo →「冨樫羊」(羊在此視為半個義) → 「冨樫義博」

這看起來好像沒問題,但當 user 想輸出「樫」這個單字時,卻不能輸入 ka si → かし → 樫(多音節一字),而只能用 ka → 樫(一音節一字),這樣會造成重複字過多

 

3. 詞音每個音節都必須按 space(end key),使用習慣和拼音或日文輸入都差太多。

日文輸入應該是 kanazawa → 隨著 user 輸入自動出現 かなざわ → 自動變換成「金沢」

但 gcin 卻是 ka SPACE na SPACE za SPACE wa SPACE → 金沢文子

 

4. 日文漢字的發音往往不是像中文這樣單純的拼音,例如「沢」是 sawa,但在上面的例子卻是 zawa ; 「樫」是 kasi,但在上面的例子卻是 gashi。gcin 只能用「超級大量」的詞庫來模擬這種情形,而且效果不好。

 

結論:用詞音模擬日文的「假名←→漢字」轉換十分困難,且效果不好。

其實詞音模擬的拼音效果也不好,因為跟拼音 user 的使用習慣差太多。

edited: 3
eliu

joined: 2007-08-09
posted: 11468
promoted: 617
bookmarked: 187
新竹, 台灣
3subject: Promote 0 Bookmark 02008-08-10quote  

感謝 caleb 的測試。

eliu

joined: 2007-08-09
posted: 11468
promoted: 617
bookmarked: 187
新竹, 台灣
4subject: Promote 0 Bookmark 02010-05-21quote  
gcin 有支援 anthy了,所以不需要這個構想了。

cht電腦資訊gcin已解決問題
adm Find login register
views:9774