cht電腦資訊gcingcin分享
adm Find login register

新酷音共享詞庫

coolcd
1 新酷音共享詞庫
Promote 2 Bookmark 02010-10-17quote  

幾年前有一位新酷音的使用者三交自製了一個共享詞庫,當時評價似乎不錯,所以我把它改成 gcin 的格式了,有空的可以試試看好不好用。

(想試的最好有心理準備,記得先把自己的詞庫備份起來)

(剛發現一些錯誤,重新上傳,請確認下載檔案的 md5)

294bd16ba2a3161290fb5df9b01b3935 dict-NewChewing2.xz

edited: 3
eliu
2
Promote 0 Bookmark 02010-10-17quote  

裏面有些沒有人用在單字的詞,加入之後,會嚴重影響 gcin 的正確率

孫 ㄙㄨㄣ 3517
飧 ㄙㄨㄣ 610
蓀 ㄙㄨㄣ 137
搎 ㄙㄨㄣ 51
猻 ㄙㄨㄣ 42
薞 ㄙㄨㄣ 7
蕵 ㄙㄨㄣ 3
槂 ㄙㄨㄣ 3

coolcd
3
Promote 0 Bookmark 02010-10-17quote  
eliu

裏面有些沒有人用在單字的詞,加入之後,會嚴重影響 gcin 的正確率

看來還是得手動編輯,去掉一些沒必要的,修改某些詞的頻率。

發覺有些讀音詞庫中有,但實際輸入時卻不會出現在選詞清單,有點奇怪,是不是讀音與 gtab 不同就不會出現?如果是這樣,這份詞庫中可能很多詞是沒用的。

edited: 2
eliu
4
Promote 0 Bookmark 02010-10-17quote  

gtab 詞庫是有詞音的詞庫產生的,詞音的詞庫更新不會自動重建。

rm ~/.gcin/*gtab.tsin-db*

刪除後就會自動重建,不過不要怪之前新增的詞會不見。

edited: 1
coolcd
5
Promote 0 Bookmark 02010-10-21quote  

用了這個詞庫以後,「的」時常變成「地」,有點討厭。

coolcd
6
Promote 0 Bookmark 02010-10-23quote  

eliu

裏面有些沒有人用在單字的詞,加入之後,會嚴重影響 gcin 的正確率

孫 ㄙㄨㄣ 3517
飧 ㄙㄨㄣ 610
蓀 ㄙㄨㄣ 137
搎 ㄙㄨㄣ 51
猻 ㄙㄨㄣ 42
薞 ㄙㄨㄣ 7
蕵 ㄙㄨㄣ 3
槂 ㄙㄨㄣ 3

以這個例子來說,孫就是這幾個字而已,而且常用的有在最上面,應該不致於嚴重影響正確性。

比較有意見的是,我覺得「猻」的字序應該在「搎」上面。

這個詞庫看來是連字序都加進來了。

 

用了一陣子,有時覺得詞太多看起來有點煩

像 台灣/臺灣 詞/辭 其實我都只用簡單的字

全都出現沒有必要

edited: 1
coolcd
7
Promote 0 Bookmark 02010-10-25quote  

最近使用發覺,單字的正確率不太理想,後來想了想,字序讓輸入法的 table 去決定就好了,所以把單字都砍掉。

582a58afd5c90d1adc63c2a97dd50fc3  dict-New4-no-single.xz

eliu
8
Promote 0 Bookmark 02010-10-25quote  

要不要用詞的使用次數去 sort 一下,由大到小。裏面似乎有很多現代人用不到的詞。Thanks.
2個字的不常用詞最容易影響正確率

edited: 1
coolcd
9
Promote 0 Bookmark 02010-10-30quote  

這份詞庫的詞頻並不精確,需要進一步整理。

--

基於每個人用詞習慣不同,而且匯入詞頻會影響到 gcin 判斷用語的準確度,所以以後分享的版本會將詞頻全部歸零。

edited: 1
coolcd
10
Promote 0 Bookmark 02010-11-14quote  

由於使用者當前的詞頻,與這份詞庫的詞頻可能差異頗大,為避免匯入詞庫後反而影響正確率,建議使用這份詞頻歸零的詞庫。

e9ad344b17c270980d1342dd0fc56f5e  dict-New4-no-single-zeroall.bz2

cht電腦資訊gcingcin分享
adm Find login register
views:32480