cht電腦資訊gcin非 bug
adm Find login register

一起來擴充gcin的詞庫

winlin
1 一起來擴充gcin的詞庫
Promote 0 Bookmark 02009-05-10quote  

初次使用gcin詞音或gtab自動選字的朋友會不會覺得有些常用詞沒在現有的gcin詞庫裡?
往往要使用一段時間手動加了一些詞之後才開始覺得順手?
如果是這樣,請幫忙貢獻您已新建的詞庫,方法如下(改自gcin說明檔):

合併eliu兄手稿和gcin說明檔

gcin 的詞庫不夠多,想貢獻給 gcin 作者自己的詞庫,要怎麼做呢?

先下載tsin.src 放到~/.gcin裡,接下來這樣做就可以抽取出您所新增的詞:

cd .gcin
tsd2a32 -nousecount ~/.gcin/tsin32 > new.txt
diff -u tsin.src new.txt | grep '^+' | sed -e "s/^+//" > diff.txt
接著用文字編輯器打開diff.txt
注意看你的詞庫是否有那些現代人用不到的詞,這些沒用的詞只會增加詞音錯誤的機率。

由於詞庫相當難以維護(徵求自願者...),
所以最好每位貢獻者能在上傳之前就做好把關的動作,
請記得用文字編輯器檢查一下,刪除您覺得不適切的詞,以及過於隱私的資料,
整理好後,請把diff.txt上傳或貼上來(如果內容超過20行,請用上傳的方式...),
這樣這些詞就有機會進到詞庫裡,造福後人~
感謝!

edited: 3
本人已不在此站活動
2
Promote 0 Bookmark 02009-05-10quote  

不是討論過了嗎?

 http://hyperrate.com/thread.php?tid=9000

 

winlin
3
Promote 0 Bookmark 02009-05-10quote  

哦~感謝LGJ兄提醒,
小弟重新仔細看了一下那個討論串,
但是還是有點不懂最後的結論,所以再發個問請教一下您~

請問依據那個討論串的結論,
如果動員大家一起來貢獻詞庫,到時候還會有版權的問題而不能併到gcin?
還是說這篇文比較適合插到那個討論串的最後?

感謝~

本人已不在此站活動
4
Promote 0 Bookmark 02009-05-10quote  
  1. 校正訂原來詞庫比新增重要。
  2. 詞庫運作原理要問 eliu。詞庫不是愈多愈好。
  3. 已經有現成的詞庫可以運用。


eliu
5
Promote 0 Bookmark 02009-05-10quote  
edited: 1
eliu
6
Promote 0 Bookmark 02009-05-10quote  
winlin
7
Promote 0 Bookmark 02009-05-10quote  

呼~
我的部份,原為789個詞,
刪了不少髒話大笑、一些不該出現的、可能不太適切的詞,
目前剩653個詞...還是很多呀!(本來以為會只有30個左右....)

上傳上來,算是拋個磚試試。

詞庫的維護真的很可怕,之前T大就整理過一次(真佩服...),
我個人比較擔心的是,
一些詞只是因為「幾聲音」差異而不適於進入詞庫(尤其是「ㄧ」的一聲或四聲),
另外,也不太懂自動選字的運作原理,
如果eliu兄願意稍作解釋,或提一下收詞原則的話(譬如:「只收名詞和成語,其餘不收」或什麼的),
大家在整理各自的詞庫時,或許會比較知道哪些詞應該要刪掉別上傳。

本人已不在此站活動
8
Promote 1 Bookmark 02009-05-10quote  

關於版權的問題,我個人認為只要不是原封不動的搬過來用,不會有版權的問題。例如,沒有人可以主張「推陳出新」這句成語,這個詞他有著作權,如果是這樣的話,難道我們去查版權所有的詞典的時候,也不能把「推陳出新」這句成語拿過來用嗎?為什麼詞典都不能主張著作權,而一般的詞庫檔卻可以呢?

因此,只要取需要的詞語過來用,不會造成侵權的問題,否則整理那些詞庫的人,第一個就首先侵權了。

就像沒有人可以主張宋體的某個字的寫法他有著作權,了不起只能主張他的字型的整體設計他有美術著作權是類似的道理。

edited: 1
本人已不在此站活動
9
Promote 0 Bookmark 02009-05-10quote  

winlin
還是說這篇文比較適合插到那個討論串的最後?

沒錯。當初討論的時候為何不參與呢?同類的討論串除非另有其他不同的內容,本來就沒有必要另立 thread,尤其是有延續性的。

要另立 thread,至少要有個 link 串連起來,不然前面的人的討論好像是在討論辛酸的。

winlin
10
Promote 0 Bookmark 02009-05-10quote  

LGJ
沒錯。當初討論的時候為何不參與呢?同類的討論串除非另有其他不同的內容,本來就沒有必要另立 thread,尤其是有延續性的。要另立 thread,至少要有個 link 串連起來,不然前面的人的討論好像是在討論辛酸的。

LGJ兄:
那串討論我有看過,只是一時忘了,感謝提醒,也感謝您剛剛幫忙加個連結進來。
我當初是用四碼倉頡,對詞庫的依賴沒現在這麼重,所以沒重視到詞庫,因此沒有參加討論。
我到那篇也加個連結連回來,讓後續有搜尋到那篇討論的人可以連到這篇來。

edited: 1
caleb
11
Promote 0 Bookmark 02009-05-10quote  

winlin
如果eliu兄願意稍作解釋,或提一下收詞原則的話(譬如:「只收名詞和成語,其餘不收」或什麼的),

少量詞沒差,大量的話最好自己先看過。

隨便瞄了一下就發現很多不適合放 upstream 的:

二碼、以利、亦未能、亦沒有、也是從、憂思、右腦傷、未完成學業、未與、未對、完後、殞石、ㄆㄨㄣ、普同性、每一段時間…

後面相信還有很多不適合收錄的。

winlin
12
Promote 0 Bookmark 02009-05-10quote  
caleb

少量詞沒差,大量的話最好自己先看過。

隨便瞄了一下就發現很多不適合放 upstream 的:

二碼、以利、亦未能、亦沒有、也是從、憂思、右腦傷、未完成學業、未與、未對、完後、殞石、ㄆㄨㄣ、普同性、每一段時間…

後面相信還有很多不適合收錄的。

感謝caleb兄指正,我再刪刪,感謝~

eliu
13
Promote 0 Bookmark 02009-05-10quote  
winlin
14
Promote 0 Bookmark 02009-05-11quote  
caleb

少量詞沒差,大量的話最好自己先看過。

隨便瞄了一下就發現很多不適合放 upstream 的:

二碼、以利、亦未能、亦沒有、也是從、憂思、右腦傷、未完成學業、未與、未對、完後、殞石、ㄆㄨㄣ、普同性、每一段時間…

後面相信還有很多不適合收錄的。

今天持續努力在整理當中,不過在刪的時候,常常還是不確定是否該保留,
請問eliu兄或caleb兄有沒有什麼可以依循的準則?

雖然有些看起來不太像是「詞」,如:「也是從」、「不愧是」...等,
個人使用上,如果保留它們,可以增加個人在使用上的選字正確率,
有時在詞音裡可以正確選好的詞,在gtab自動選字會選錯(如用「簡易」時),譬如:「咬牙」一詞。
這時候就頗依賴使用者自訂這類「不像詞,但常用的字串」來減少錯誤。
這些詞丟了可惜...但要放到詞庫卻又不三不四。
所以還是想問一下比較明確的篩選原則...,大大感謝~

對了,我發現有錯字,真歹勢....(殞石→隕石)好糗呀
winlin
15
Promote 0 Bookmark 02009-05-11quote  

剛剛想了一下,
我想選字的機制愈強,就愈不需要使用者自己使用這些雜詞。

我現在的想法是,不然,某些看起來亂七八糟的雜詞就都不要保留了~(只留成語、形容詞、副詞、動詞和名詞)
以後遇到選字不順的情形,就貼上來當作自動選字機制的改進討論,
一方面可以讓gcin的選字更smart,另一方面也維持了詞庫的精簡。

不知道大家覺得如何?

eliu
16
Promote 0 Bookmark 02009-05-11quote  
edited: 1
winlin
17
Promote 0 Bookmark 02009-05-13quote  

看了好幾遍,目前刪到只剩245個(按此下載)。
請大家幫忙看看是不是還有不適合的,感謝~

另外,
藝人名字或歷史人物名字(像孫燕姿、蔡依林、深田恭子、甘地?)
地名、鄉鎮名稱或一些學校名稱要留嗎?
常用的髒話(如「吃屎」?)
此外還有幾個詞不確定是否該收錄,所以沒有放到那個檔裡,
我暫貼在這裡,請eliu兄看有沒有哪個適合收,沒有就丟了。

美體 ㄇㄟ3 ㄊㄧ3 0
蔡依林 ㄘㄞ4 ㄧ ㄌㄧㄣ2 0
孫燕姿 ㄙㄨㄣ ㄧㄢ4 ㄗ 0
深田恭子 ㄕㄣ ㄊㄧㄢ2 ㄍㄨㄥ ㄗ3 0
撿紅點 ㄐㄧㄢ3 ㄏㄨㄥ2 ㄉㄧㄢ3 0
元長鄉 ㄩㄢ2 ㄓㄤ3 ㄒㄧㄤ 0
南山人壽 ㄋㄢ2 ㄕㄢ ㄖㄣ2 ㄕㄡ4 0
李小龍 ㄌㄧ3 ㄒㄧㄠ3 ㄌㄨㄥ2 0
令狐沖 ㄌㄧㄥ4 ㄏㄨ2 ㄔㄨㄥ 0
幹得好 ㄍㄢ4 ㄉㄜ2 ㄏㄠ3 0
郭台銘 ㄍㄨㄛ ㄊㄞ2 ㄇㄧㄥ2 0
工作者 ㄍㄨㄥ ㄗㄨㄛ4 ㄓㄜ3 0
考選部 ㄎㄠ3 ㄒㄩㄢ3 ㄅㄨ4 0
虎尾農工 ㄏㄨ3 ㄨㄟ3 ㄋㄨㄥ2 ㄍㄨㄥ 0
龜毛 ㄍㄨㄟ ㄇㄠ2 0
擊昏 ㄐㄧ2 ㄏㄨㄣ 0
家扶中心 ㄐㄧㄚ ㄈㄨ2 ㄓㄨㄥ ㄒㄧㄣ 0
像不像 ㄒㄧㄤ4 ㄅㄨ2 ㄒㄧㄤ4 0
吃屎 ㄔ ㄕ3 0
撐著 ㄔㄥ ㄓㄜ1 0
受試者 ㄕㄡ4 ㄕ4 ㄓㄜ3 0
善化 ㄕㄢ4 ㄏㄨㄚ4 0
深意 ㄕㄣ ㄧ4 0
鬆了一口氣 ㄙㄨㄥ ㄌㄜ1 ㄧ ㄎㄡ3 ㄑㄧ4 0
痴痴地等 ㄔ ㄔ ㄉㄜ1 ㄉㄥ3 0
沖擊 ㄔㄨㄥ ㄐㄧ2 0
傷心事 ㄕㄤ ㄒㄧㄣ ㄕ4 0
元本山 ㄩㄢ2 ㄅㄣ3 ㄕㄢ 0

edited: 3
caleb
18
Promote 0 Bookmark 02009-05-12quote  

面質 ← 面值

裙擺 ← 裙襬

 

元本山 ← 商品名,類似人地名

 

以下是不常用詞:

病歷室 排拒 皮質 何意 衡鑑 話量 效標 選字 重鬱症 失語症 入袋 粗工

 

專門職業的相關用語不適合收錄在 upstream,建議另外弄個「西醫詞庫」「中醫詞庫」之類的。

eliu
20
Promote 0 Bookmark 02009-05-12quote  
edited: 1
winlin
21
Promote 0 Bookmark 02009-05-13quote  
感謝eliu兄和caleb兄幫忙指正,已修正成這個附檔
edited: 1
winlin
23 再來一份新詞
Promote 0 Bookmark 02009-08-09quote  

eliu兄:
小弟最近又收集了一些新詞。
有些詞就算沒有設,在詞音裡還是可以打得出來, 不過在gtab裡就不行了,所以我還是列出來。

想要代幣 ㄉㄞ4 ㄅㄧ4 0
索賠 ㄙㄨㄛ3 ㄆㄟ2 0
週記 ㄓㄡ ㄐㄧ4 0
咬牙 ㄧㄠ3 ㄧㄚ2 0
作答 ㄗㄨㄛ4 ㄉㄚ2 0
特教班 ㄊㄜ4 ㄐㄧㄠ4 ㄅㄢ 0
失禁 ㄕ ㄐㄧㄣ4 0
偶爾 ㄡ3 ㄦ3 0
矩陣 ㄐㄩ3 ㄓㄣ4 0
紙本 ㄓ3 ㄅㄣ3 0
農務 ㄋㄨㄥ2 ㄨ4 0
嚴重度 ㄧㄢ2 ㄓㄨㄥ4 ㄉㄨ4 0
話量 ㄏㄨㄚ4 ㄌㄧㄤ4 0
觀護人 ㄍㄨㄢ ㄏㄨ4 ㄖㄣ2 0
講習 ㄐㄧㄤ3 ㄒㄧ2 0
一頂 ㄧ ㄉㄧㄥ3 0
速效 ㄙㄨ4 ㄒㄧㄠ4 0
來得 ㄌㄞ2 ㄉㄜ2 0
定向 ㄉㄧㄥ4 ㄒㄧㄤ4 0
修訂 ㄒㄧㄡ ㄉㄧㄥ4 0
暫定 ㄓㄢ4 ㄉㄧㄥ4 0
砍頭 ㄎㄢ3 ㄊㄡ2 0
弄丟 ㄋㄨㄥ4 ㄉㄧㄡ 0
起口角 ㄑㄧ3 ㄎㄡ3 ㄐㄧㄠ3 0
鎮定 ㄓㄣ4 ㄉㄧㄥ4 0
心懷 ㄒㄧㄣ ㄏㄨㄞ2 0
而定 ㄦ2 ㄉㄧㄥ4 0
繁體 ㄈㄢ2 ㄊㄧ3 0
迎向 ㄧㄥ2 ㄒㄧㄤ4 0
恆定 ㄏㄥ2 ㄉㄧㄥ4 0
欠整 ㄑㄧㄢ4 ㄓㄥ3 0
訴說 ㄙㄨ4 ㄕㄨㄛ 0
護校 ㄏㄨ4 ㄒㄧㄠ4 0
疏離 ㄕㄨ ㄌㄧ2 0
一趟 ㄧ2 ㄊㄤ4 0
小帽 ㄒㄧㄠ3 ㄇㄠ4 0
破音字 ㄆㄛ4 ㄧㄣ ㄗ4 0
 

edited: 1
dowba
24 我也來貢獻
Promote 0 Bookmark 02009-08-30quote  

先說一下

裡面有些字不是我新增的

但我也不知道怎麼把他挑出來

樓主所提供的tsin.src 感覺很怪,像是前面提到的「隕石/殞石」就不是我新增的,而且殞石還是錯別字

edited: 1
eliu
25
Promote 0 Bookmark 02009-08-30quote  
dowba
26
Promote 0 Bookmark 02009-08-30quote  
抱歉 剛剛發現幾個打錯的地方 沮喪的沮是三聲 有錯誤的地方我會再看
dowba
27
Promote 0 Bookmark 02009-08-30quote  

這邊又加了幾個詞,來源都是這五天內的四大報社論,都是平常寫文章時的常用字,沒有特別冷僻的字

另外,有個詞:桀驁不馴的「驁」,讀音為ㄠˋ,gcin 搞錯了,請更正。

「折騰」 的「折」有一聲(space)的音

有部份與上面的重疊,辛苦了!

edited: 2
dowba
28
Promote 0 Bookmark 02009-08-31quote  

8/31 四大報社論總結後新增的詞

另,「維繫」應念做 ㄨㄟ2 ㄒㄧ4 而非 ㄨㄟ2 ㄐㄧ4,原詞庫請更正

edited: 1
winlin
29
Promote 0 Bookmark 02009-08-31quote  
dowba

8/31 四大報社論總結後新增的詞

另,「維繫」應念做 ㄨㄟ2 ㄒㄧ4 而非 ㄨㄟ2 ㄐㄧ4,原詞庫請更正

印象中,以前上課好像是教「ㄨㄟ2 ㄐㄧ4」(有待查證...),
或許「ㄨㄟ2 ㄒㄧ4 」是一般口語的讀法,而非正式的讀法?大笑

本人已不在此站活動
30
Promote 0 Bookmark 02009-08-31quote  

為什麼不查一查再發言呢?

 維繫

1,2,3,next

cht電腦資訊gcin非 bug
adm Find login register
views:191416