cht電腦資訊輸入法注音校正計畫
adm Find login register

目前計畫

coolcd
joined: 2008-01-21
posted: 2601
promoted: 348
bookmarked: 95
1subject: 目前計畫Promote 1 Bookmark 02009-10-15quote  

已先把 gcin for windows 的舊詞庫全部匯入一個 Openoffice.org Calc 的 ods 檔,開始檢查 gcin 詞庫的注音。採用這個格式是為了降低門檻,方便一般使用者貢獻。

目前規劃的欄位有四:

|詞|注音|字典驗證|狀態|
  • 詞:就是加入的詞。
  • 注音:就是詞的注音。
  • 字典驗證:

    0:教育部重編國語字典沒有收錄

    1:已用教育部重編國語字典修訂版驗證

    2:雖然教育部自點沒有收錄此詞,但經其他字典、人為判斷,確定無誤。如「台灣」,教育部國語字典竟然找不到,只找得到「臺灣」。又 例如:「額滿為止」,我們可以查到「額滿」,也查得到「為止」,但查不到「額滿為止」,此時字典驗證欄就該填 2。所以,1 與 2 都是讀音非常確定無誤、考試不會被扣分的。注意,有些字典標示讀音的標準可能不一,原則上,以「本音」(本調)為主,譬如:「一生」,一的本音是「ㄧ」,但我們唸成「ㄧ 4」,此時不應將「ㄧ4」列為 2,因為那是語音。

    3:常見的非正規、語音用法,如「龜裂」應唸「ㄐㄩㄣ ㄌㄧㄝ4」,但常有人唸「ㄍㄨㄟ ㄌㄧㄝ4」。又譬如上面提過的「ㄧ生」,「ㄧ4 ㄕㄥ」就可在此欄列為 3。

    4:一般錯誤。此欄列為 4 的詞,會在下個釋出版刪掉。

  • 狀態:這個欄位是用來說明詞的狀態。

    0:正常

    1:個人化的詞。例如:「A片」輸入 「ㄚ ㄆㄧㄢ4」;「3倍」輸入「3 ㄅㄟ4」。

    2:重覆詞 (也就是 詞、注音 這兩欄完全相同的列)。除了第一次出現外,第二次、第三次、第 N 次再出現,此欄就填 2。狀態欄為 2 的詞,會在下一版刪掉。

 這是目前構想,可能有思慮不周的地方,大家再討論吧,先不忙著動工。我先上傳一個範例給大家看。

edited: 2
eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
2subject: 目前計畫Promote 0 Bookmark 02009-10-15quote  

coolcd
驗證字典目前以教育部重編國語字典修訂版為準

如果是大家常念錯(>30%)的如「滑稽」等,那還是應該留下來,當然正式的發音也接受,如果真的沒人這樣念(<1%)的發音,乾脆刪除。我想大家輸入方便比較重要。

edited: 1
coolcd
joined: 2008-01-21
posted: 2601
promoted: 348
bookmarked: 95
3subject: Promote 1 Bookmark 02009-10-15quote  

我更新了首篇的ㄧ些東西,有興趣的可以再看看。

目前想法是,把詞的定位抓出來,透過 Calc 的篩選功能,在意正確性的,可以只取用字典驗證過的詞;在意方便性的,可再加入常用語音的詞。篩選出來後,把結果複製起來,貼到純文字檔,把 tab 取代成 space,用 utf-8 存檔,就完成詞庫了。

次數欄一定要有嗎?會不會自動產生?還是我在注音欄後再加一個次數欄,全部自動填 0,方便作業?

edited: 1
eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
4subject: Promote 0 Bookmark 02009-10-15quote  

或是整理成

  • 教育用
  • 大眾用
兩個版本,各取所需

cht電腦資訊輸入法注音校正計畫
adm Find login register
views:12884