cht電腦資訊gcin
adm Find login register

製作字頻的工具

coolcd
joined: 2008-01-21
posted: 2596
promoted: 348
bookmarked: 95
1subject: 製作字頻的工具Promote 1 Bookmark 12010-11-03quote  

偶然發現 Debian 有個 uniutils,裡頭有個 unihist,可以統計 unicode 字元出現的頻率,於是就想到,這拿來做字頻分析應該很好用,例如:

把自己寫的文章放到 test.txt,然後:

$ unihist < test.txt | awk '{ print $4" "$2 }' > test-freq.txt

就可以排出字頻,並把結果輸出到 test-freq.txt

如果整理了大量自己文章的字頻,加到詞庫,不知道是不是能增加判斷的命中率?

eliu

joined: 2007-08-09
posted: 11468
promoted: 617
bookmarked: 187
新竹, 台灣
2subject: 製作字頻的工具Promote 0 Bookmark 02010-11-03quote  

coolcd
加到詞庫,不知道是不是能增加判斷的命中率?

詞庫要用詞頻,不是字頻。不過可以用在詞音&gtab 自動選字有單字的情形。

coolcd
joined: 2008-01-21
posted: 2596
promoted: 348
bookmarked: 95
3subject: 製作字頻的工具Promote 0 Bookmark 02010-11-03quote  

eliu
詞庫要用詞頻,不是字頻。不過可以用在詞音&gtab 自動選字有單字的情形。

不太清楚,所以如果想使用字頻,應該加到那一個檔案?

eliu

joined: 2007-08-09
posted: 11468
promoted: 617
bookmarked: 187
新竹, 台灣
4subject: Promote 0 Bookmark 02010-11-03quote  

目前的字頻全部是0。

cht電腦資訊gcin
adm Find login register
views:10303