cht電腦資訊gcin
adm Find login register

詞庫

coolcd
joined: 2008-01-21
posted: 2601
promoted: 348
bookmarked: 95
1subject: 詞庫Promote 0 Bookmark 02009-02-18quote  

發覺 Windows XP 的相關字詞維護工具 (C:\Program Files\Windows NT\Accessories\lctool.exe) 可以把 Windows 輸入法的詞庫轉出來,大致看了一下,大部分好像都蠻常用的,要不要考慮一下和 gcin 現有的合併?

我把詞抓出來了,但是讀音的部分,不知道有沒有簡單一點的方法加上去?

eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
2subject: Promote 0 Bookmark 02009-02-18quote  
  • Windows 新注音的詞庫好像東缺西缺的
  • 怕惹來麻煩
還是不要放進 gcin 好了
coolcd
joined: 2008-01-21
posted: 2601
promoted: 348
bookmarked: 95
3subject: Promote 0 Bookmark 02009-02-19quote  

其實原本是想用輕鬆輸入法的詞庫,不過,實際看過後,發覺實在太亂了,比起來 MS 的詞庫算是不錯的了。不過,既然有惹麻煩的疑慮,就算了吧。

如果要加詞到詞庫,除了考慮到是否為「常用詞」外, 還有什麼要特別注意的嗎?

有些短詞可能本身就是常用詞,但與其他詞結合時,也是常用詞,譬如:比武、比武招親,以 gcin 來說,假設這兩個詞都算常用的話,兩個詞需要都加入詞庫,還是只加長的就好?

 

MS 的詞庫,原本匯出的格式是像這樣的:

一 個 隻 一 寸 枝草一點露

第一個字是詞的開頭,後面的字都與第一個字結合,才形成詞。這樣的做法,詞庫會比較省空間,也許值得 gcin 借鑑。

eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
4subject: Promote 0 Bookmark 02009-02-19quote  
coolcd

第一個字是詞的開頭,後面的字都與第一個字結合,才形成詞。這樣的做法,詞庫會比較省空間,也許值得 gcin 借鑑。

因為 gcin 的詞庫有注音,而且這樣造成使用者編輯&搜尋不方便。

致於程式內部是否要用這樣的方式,可能很麻煩。

guest
5subject: Promote 0 Bookmark 02009-02-19quote  

新酷音的詞庫蠻不錯的

可以考慮一下 

guest
6subject: Promote 0 Bookmark 02009-02-19quote  
gcin 的詞庫錯錯別字實在不少. 敝人覺得應該 import (overwrite 而不是 append) 一些有長時間維護且歷史悠久的詞庫 ex. M$ 的詞庫. 
不然, 最好仔細修訂自代的詞庫, 最好要有字典的佐證. 不然打字打一打, 看到錯選詞的錯別字真的 XD.
建議像 stardict 一樣, 一個詞庫一個檔. 比如說從 M$ 來的詞庫一個檔, 從新酷音來的一個檔.
caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
7subject: Promote 0 Bookmark 02009-02-19quote  

guest
gcin 的詞庫錯錯別字實在不少.

歡迎 report bug。

guest
一些有長時間維護且歷史悠久的詞庫 ex. M$ 的詞庫.

M$ 詞庫與輸入法以「從來不維護」聞名於世,我頭一次聽到人讚美 M$ 有長時間維護詞庫。

eliu

joined: 2007-08-09
posted: 11478
promoted: 617
bookmarked: 187
新竹, 台灣
8subject: Promote 0 Bookmark 02009-02-19quote  

caleb
M$ 詞庫與輸入法以「從來不維護」聞名於世,我頭一次聽到人讚美 M$ 有長時間維護詞庫。

我現在上班每天都在用MS新注音,也是不覺得裏面的詞庫有何可取之處。新注音最大的問題不在詞庫,而是即使詞庫有詞,常常還是不會去用。

edited: 2
coolcd
joined: 2008-01-21
posted: 2601
promoted: 348
bookmarked: 95
9subject: Promote 0 Bookmark 02009-02-19quote  
有位三交網友整理了一個新酷音共享詞庫,不知道大家覺得如何? http://forum.talkdigi.net/phpBB2/viewtopic.php?p=17259#17259
edited: 2
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
10subject: Promote 0 Bookmark 02009-02-19quote  

coolcd
有位三交網友整理了一個新酷音共享詞庫,不知道大家覺得如何? http://forum.talkdigi.net/phpBB2/viewtopic.php?p=17259#17259

他是 GPLed。MS 的有版權顧慮。


edited: 1
本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
11subject: Promote 1 Bookmark 02009-02-19quote  

有一個變通的辦法就是,分工合作,各人去負責把某一部份 A 有的詞,gcin 沒有的,po 到這裡來(要說你是字典查到的 吐舌頭),然後納入 gcin 詞庫。這樣就應該沒有問題了,但不要老實到說出是怎麼來的,單詞的本身是沒有版權的。

請不要說是我說的。大笑


coolcd
joined: 2008-01-21
posted: 2601
promoted: 348
bookmarked: 95
12subject: Promote 0 Bookmark 02009-02-19quote  

其實,中文常用詞就是那些,A 蒐集的詞庫與 B 蒐集的有交集,應該是正常的吧!不過,既然有其他 GPLed 的來源,MS 也不見得好,也就不必執著於 MS 啦~

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
13subject: Promote 0 Bookmark 02009-02-19quote  

coolcd
既然有其他 GPLed 的來源,MS 也不見得好,也就不必執著於 MS 啦~

我的意思是 gcin 無法[混合]收錄 GPLed 的東西,因為 gcin 是 LGPLed。


edited: 1
coolcd
joined: 2008-01-21
posted: 2601
promoted: 348
bookmarked: 95
14subject: Promote 0 Bookmark 02009-02-19quote  

授權真是一種麻煩的東西 Orz

看來還是得靠自己。

edited: 1
caleb
joined: 2007-09-22
posted: 630
promoted: 134
bookmarked: 90
15subject: Promote 0 Bookmark 02009-02-19quote  

LGJ
我的意思是 gcin 無法[混合]收錄 GPLed 的東西,因為 gcin 是 LGPLed。

其實可以,主程式和 data 是可以分屬不同 license 的,主程式和 plugin 也可以分屬不同 license。

只要實際執行沒有發生 license 衝突就可以。

gcin tarball 裡有

1. BSD license (IMdkit)

2. LGPL (主程式)

3. GPL (Qt3 / Qt4 immodule)

4. public domain (倉頡表格)

5. redistributable inputmethod table (大易) ← 嚴格來說,這個表格在 Debian 裡要歸為 non-free, 因為它不准 user 將更改後的表格 redistribute,只能發佈原始未修改版

本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
16subject: Promote 0 Bookmark 02009-02-19quote  
coolcd
授權真是一種麻煩的東西 Orz

看來還是得靠自己。

當初 xcin 詞庫就是因為這樣才動員大家提供詞組的。也是因為這樣,最後採 BSDL,這樣所有的 license 都能拿來用。


本人已不在此站活動

joined: 2007-09-19
posted: 4946
promoted: 325
bookmarked: 206
歸隱山林
17subject: Promote 0 Bookmark 02009-02-19quote  

caleb
其實可以,主程式和 data 是可以分屬不同 license 的,主程式和 plugin 也可以分屬不同 license。

我是說「混合」兩種詞庫,這樣是不行的,你要獨立的 bundle 才可以。


winlin

joined: 2007-09-25
posted: 1859
promoted: 111
bookmarked: 33
18subject: Promote 0 Bookmark 02009-05-10quote  
有興趣把自己累積的詞音詞庫貢獻出來的朋友,
請到這個討論串,這裡有一些簡要的說明,
感謝~

-------------------------------------------------------------------
好用的gcin連結:

cht電腦資訊gcin
adm Find login register
views:53269