cht電腦資訊gcin
adm Find login register

詞庫匯入的問題

coolcd
1 詞庫匯入的問題
Promote 0 Bookmark 02010-10-28quote  

剛跟老大在聊天室談到詞庫的問題,起因是,自從匯入新酷音詞庫以後,常出現一些不常用的詞,原本以為是新酷音詞庫垃圾太多,但剛剛老大提醒我用「編輯詞庫」去檢查,這才發見詞頻不對。

舉例如下:

匯入前新酷音詞庫 匯入後與 gcin 整合的辭庫
會議 ㄏㄨㄟ4 ㄧ4 14189
會意 ㄏㄨㄟ4 ㄧ4 14188
會議廳 ㄏㄨㄟ4 ㄧ4 ㄊㄧㄥ 537
會議記錄 ㄏㄨㄟ4 ㄧ4 ㄐㄧ4 ㄌㄨ4 1130
會議室 ㄏㄨㄟ4 ㄧ4 ㄕ4 2029
會要 ㄏㄨㄟ4 ㄧㄠ4 165
會由 ㄏㄨㄟ4 ㄧㄡ2 339
會有 ㄏㄨㄟ4 ㄧㄡ3 1244
會友 ㄏㄨㄟ4 ㄧㄡ3 244
諱言 ㄏㄨㄟ4 ㄧㄢ2 68
慧眼 ㄏㄨㄟ4 ㄧㄢ3 198
會意 ㄏㄨㄟ4 ㄧ4 14188
會議 ㄏㄨㄟ4 ㄧ4 0
會議廳 ㄏㄨㄟ4 ㄧ4 ㄊㄧㄥ 537
會議記錄 ㄏㄨㄟ4 ㄧ4 ㄐㄧ4 ㄌㄨ4 0
會議室 ㄏㄨㄟ4 ㄧ4 ㄕ4 0
會要 ㄏㄨㄟ4 ㄧㄠ4 165
會由 ㄏㄨㄟ4 ㄧㄡ2 339
會友 ㄏㄨㄟ4 ㄧㄡ3 244
會有 ㄏㄨㄟ4 ㄧㄡ3 1244
諱言 ㄏㄨㄟ4 ㄧㄢ2 0
慧眼 ㄏㄨㄟ4 ㄧㄢ3 0

匯入前已先刪除 tsin* 與 tmpfile,所以應該不受之前輸入過的詞的影響。

看起來像是:如果匯入詞庫中的詞條原本 gcin 就有,詞頻不會更新,所以導致新匯入的某些原本 gcin 沒有的詞,詞頻反而比 gcin 內常用的還高。

解決的方法,看是要匯入時累加詞頻、或者以匯入詞庫為主、或者以原本詞庫為主(新詞庫詞頻通通歸0),目前我採用最後一個方案,原因是,這樣頂多多選幾次,就可以建立正確的詞頻,不致於發生「不是很常用的詞,詞頻比 gcin 內建常用詞高」的情形。

不知道大家有什麼看法?

edited: 3
ychao
2
Promote 0 Bookmark 02010-10-29quote  

感覺上除了說詞頻被歸零之外,合併時詞頻的比例也是個問題。從上面的例子看起來,似乎新酷音的詞庫,詞頻數字很大。我在想,是否在合併之前,應該做個normalization的動作,依照現有詞庫中的詞頻調整匯入詞頻的比率,才不會影響原先詞庫的準確性?

coolcd
3
Promote 0 Bookmark 02010-10-30quote  

很有趣的想法。

後來決定歸零,有很大原因是我認為新酷音詞庫的詞頻並不是很符合我的習慣

有些常用的詞頻不高,不常用的詞頻卻很高

所以我寧願全部歸零自己選 XD

edited: 2

cht電腦資訊gcin
adm Find login register
views:9826