初次使用gcin詞音或gtab自動選字的朋友會不會覺得有些常用詞沒在現有的gcin詞庫裡?
往往要使用一段時間手動加了一些詞之後才開始覺得順手?
如果是這樣,請幫忙貢獻您已新建的詞庫,方法如下(改自gcin說明檔):
合併eliu兄手稿和gcin說明檔 |
gcin 的詞庫不夠多,想貢獻給 gcin 作者自己的詞庫,要怎麼做呢?
先下載tsin.src 放到~/.gcin裡,接下來這樣做就可以抽取出您所新增的詞:
cd .gcin
tsd2a32 -nousecount ~/.gcin/tsin32 > new.txt
diff -u tsin.src new.txt | grep '^+' | sed -e "s/^+//" > diff.txt
接著用文字編輯器打開diff.txt
注意看你的詞庫是否有那些現代人用不到的詞,這些沒用的詞只會增加詞音錯誤的機率。
|
由於詞庫相當難以維護(徵求自願者...),
所以最好每位貢獻者能在上傳之前就做好把關的動作,
請記得用文字編輯器檢查一下,刪除您覺得不適切的詞,以及過於隱私的資料,
整理好後,請把diff.txt上傳或貼上來(如果內容超過20行,請用上傳的方式...),
這樣這些詞就有機會進到詞庫裡,造福後人~
感謝!
edited: 3
|
|
哦~感謝LGJ兄提醒,
小弟重新仔細看了一下那個討論串,
但是還是有點不懂最後的結論,所以再發個問請教一下您~
請問依據那個討論串的結論,
如果動員大家一起來貢獻詞庫,到時候還會有版權的問題而不能併到gcin?
還是說這篇文比較適合插到那個討論串的最後?
感謝~
|
- 校正訂原來詞庫比新增重要。
- 詞庫運作原理要問 eliu。詞庫不是愈多愈好。
- 已經有現成的詞庫可以運用。
|
可以用
tsd2a32 -nousecount ~/.gcin/tsin32 > file.txt |
把詞的使用次數清掉以方便用 diff 比較
edited: 1
|
diff -u old new | grep '^+' | sed -e "s/^+//" |
可以取出新增的詞
|
呼~
我的部份,原為789個詞,
刪了不少髒話、一些不該出現的、可能不太適切的詞,
目前剩653個詞...還是很多呀!(本來以為會只有30個左右....)
上傳上來,算是拋個磚試試。
詞庫的維護真的很可怕,之前T大就整理過一次(真佩服...),
我個人比較擔心的是,
一些詞只是因為「幾聲音」差異而不適於進入詞庫(尤其是「ㄧ」的一聲或四聲),
另外,也不太懂自動選字的運作原理,
如果eliu兄願意稍作解釋,或提一下收詞原則的話(譬如:「只收名詞和成語,其餘不收」或什麼的),
大家在整理各自的詞庫時,或許會比較知道哪些詞應該要刪掉別上傳。
|
關於版權的問題,我個人認為只要不是原封不動的搬過來用,不會有版權的問題。例如,沒有人可以主張「推陳出新」這句成語,這個詞他有著作權,如果是這樣的話,難道我們去查版權所有的詞典的時候,也不能把「推陳出新」這句成語拿過來用嗎?為什麼詞典都不能主張著作權,而一般的詞庫檔卻可以呢?
因此,只要取需要的詞語過來用,不會造成侵權的問題,否則整理那些詞庫的人,第一個就首先侵權了。
就像沒有人可以主張宋體的某個字的寫法他有著作權,了不起只能主張他的字型的整體設計他有美術著作權是類似的道理。
edited: 1
|
winlin | 還是說這篇文比較適合插到那個討論串的最後?
|
沒錯。當初討論的時候為何不參與呢?同類的討論串除非另有其他不同的內容,本來就沒有必要另立 thread,尤其是有延續性的。
要另立 thread,至少要有個 link 串連起來,不然前面的人的討論好像是在討論辛酸的。
|
LGJ | 沒錯。當初討論的時候為何不參與呢?同類的討論串除非另有其他不同的內容,本來就沒有必要另立 thread,尤其是有延續性的。要另立 thread,至少要有個 link 串連起來,不然前面的人的討論好像是在討論辛酸的。
|
LGJ兄:
那串討論我有看過,只是一時忘了,感謝提醒,也感謝您剛剛幫忙加個連結進來。
我當初是用四碼倉頡,對詞庫的依賴沒現在這麼重,所以沒重視到詞庫,因此沒有參加討論。
我到那篇也加個連結連回來,讓後續有搜尋到那篇討論的人可以連到這篇來。
edited: 1
|
winlin | 如果eliu兄願意稍作解釋,或提一下收詞原則的話(譬如:「只收名詞和成語,其餘不收」或什麼的), |
少量詞沒差,大量的話最好自己先看過。
隨便瞄了一下就發現很多不適合放 upstream 的:
二碼、以利、亦未能、亦沒有、也是從、憂思、右腦傷、未完成學業、未與、未對、完後、殞石、ㄆㄨㄣ、普同性、每一段時間…
後面相信還有很多不適合收錄的。
|
caleb |
少量詞沒差,大量的話最好自己先看過。
隨便瞄了一下就發現很多不適合放 upstream 的:
二碼、以利、亦未能、亦沒有、也是從、憂思、右腦傷、未完成學業、未與、未對、完後、殞石、ㄆㄨㄣ、普同性、每一段時間…
後面相信還有很多不適合收錄的。
|
感謝caleb兄指正,我再刪刪,感謝~
|
|
caleb |
少量詞沒差,大量的話最好自己先看過。
隨便瞄了一下就發現很多不適合放 upstream 的:
二碼、以利、亦未能、亦沒有、也是從、憂思、右腦傷、未完成學業、未與、未對、完後、殞石、ㄆㄨㄣ、普同性、每一段時間…
後面相信還有很多不適合收錄的。
|
今天持續努力在整理當中,不過在刪的時候,常常還是不確定是否該保留,
請問eliu兄或caleb兄有沒有什麼可以依循的準則?
雖然有些看起來不太像是「詞」,如:「也是從」、「不愧是」...等,
個人使用上,如果保留它們,可以增加個人在使用上的選字正確率,
有時在詞音裡可以正確選好的詞,在gtab自動選字會選錯(如用「簡易」時),譬如:「咬牙」一詞。
這時候就頗依賴使用者自訂這類「不像詞,但常用的字串」來減少錯誤。
這些詞丟了可惜...但要放到詞庫卻又不三不四。
所以還是想問一下比較明確的篩選原則...,大大感謝~
對了,我發現有錯字,真歹勢....(殞石→隕石)
|
剛剛想了一下,
我想選字的機制愈強,就愈不需要使用者自己使用這些雜詞。
我現在的想法是,不然,某些看起來亂七八糟的雜詞就都不要保留了~(只留成語、形容詞、副詞、動詞和名詞)
以後遇到選字不順的情形,就貼上來當作自動選字機制的改進討論,
一方面可以讓gcin的選字更smart,另一方面也維持了詞庫的精簡。
不知道大家覺得如何?
|
edited: 1
|
看了好幾遍,目前刪到只剩245個(按此下載)。
請大家幫忙看看是不是還有不適合的,感謝~
另外,
藝人名字或歷史人物名字(像孫燕姿、蔡依林、深田恭子、甘地?)
地名、鄉鎮名稱或一些學校名稱要留嗎?
常用的髒話(如「吃屎」?)
此外還有幾個詞不確定是否該收錄,所以沒有放到那個檔裡,
我暫貼在這裡,請eliu兄看有沒有哪個適合收,沒有就丟了。
美體 ㄇㄟ3 ㄊㄧ3 0
蔡依林 ㄘㄞ4 ㄧ ㄌㄧㄣ2 0
孫燕姿 ㄙㄨㄣ ㄧㄢ4 ㄗ 0
深田恭子 ㄕㄣ ㄊㄧㄢ2 ㄍㄨㄥ ㄗ3 0
撿紅點 ㄐㄧㄢ3 ㄏㄨㄥ2 ㄉㄧㄢ3 0
元長鄉 ㄩㄢ2 ㄓㄤ3 ㄒㄧㄤ 0
南山人壽 ㄋㄢ2 ㄕㄢ ㄖㄣ2 ㄕㄡ4 0
李小龍 ㄌㄧ3 ㄒㄧㄠ3 ㄌㄨㄥ2 0
令狐沖 ㄌㄧㄥ4 ㄏㄨ2 ㄔㄨㄥ 0
幹得好 ㄍㄢ4 ㄉㄜ2 ㄏㄠ3 0
郭台銘 ㄍㄨㄛ ㄊㄞ2 ㄇㄧㄥ2 0
工作者 ㄍㄨㄥ ㄗㄨㄛ4 ㄓㄜ3 0
考選部 ㄎㄠ3 ㄒㄩㄢ3 ㄅㄨ4 0
虎尾農工 ㄏㄨ3 ㄨㄟ3 ㄋㄨㄥ2 ㄍㄨㄥ 0
龜毛 ㄍㄨㄟ ㄇㄠ2 0
擊昏 ㄐㄧ2 ㄏㄨㄣ 0
家扶中心 ㄐㄧㄚ ㄈㄨ2 ㄓㄨㄥ ㄒㄧㄣ 0
像不像 ㄒㄧㄤ4 ㄅㄨ2 ㄒㄧㄤ4 0
吃屎 ㄔ ㄕ3 0
撐著 ㄔㄥ ㄓㄜ1 0
受試者 ㄕㄡ4 ㄕ4 ㄓㄜ3 0
善化 ㄕㄢ4 ㄏㄨㄚ4 0
深意 ㄕㄣ ㄧ4 0
鬆了一口氣 ㄙㄨㄥ ㄌㄜ1 ㄧ ㄎㄡ3 ㄑㄧ4 0
痴痴地等 ㄔ ㄔ ㄉㄜ1 ㄉㄥ3 0
沖擊 ㄔㄨㄥ ㄐㄧ2 0
傷心事 ㄕㄤ ㄒㄧㄣ ㄕ4 0
元本山 ㄩㄢ2 ㄅㄣ3 ㄕㄢ 0
edited: 3
|
面質 ← 面值?
裙擺 ← 裙襬?
元本山 ← 商品名,類似人地名
以下是不常用詞:
病歷室 排拒 皮質 何意 衡鑑 話量 效標 選字 重鬱症 失語症 入袋 粗工
專門職業的相關用語不適合收錄在 upstream,建議另外弄個「西醫詞庫」「中醫詞庫」之類的。
|
edited: 1
|
感謝eliu兄和caleb兄幫忙指正,已修正成 這個附檔。
edited: 1
|
eliu兄:
小弟最近又收集了一些新詞。
有些詞就算沒有設,在詞音裡還是可以打得出來,
不過在gtab裡就不行了,所以我還是列出來。
想要代幣 ㄉㄞ4 ㄅㄧ4 0
索賠 ㄙㄨㄛ3 ㄆㄟ2 0
週記 ㄓㄡ ㄐㄧ4 0
咬牙 ㄧㄠ3 ㄧㄚ2 0
作答 ㄗㄨㄛ4 ㄉㄚ2 0
特教班 ㄊㄜ4 ㄐㄧㄠ4 ㄅㄢ 0
失禁 ㄕ ㄐㄧㄣ4 0
偶爾 ㄡ3 ㄦ3 0
矩陣 ㄐㄩ3 ㄓㄣ4 0
紙本 ㄓ3 ㄅㄣ3 0
農務 ㄋㄨㄥ2 ㄨ4 0
嚴重度 ㄧㄢ2 ㄓㄨㄥ4 ㄉㄨ4 0
話量 ㄏㄨㄚ4 ㄌㄧㄤ4 0
觀護人 ㄍㄨㄢ ㄏㄨ4 ㄖㄣ2 0
講習 ㄐㄧㄤ3 ㄒㄧ2 0
一頂 ㄧ ㄉㄧㄥ3 0
速效 ㄙㄨ4 ㄒㄧㄠ4 0
來得 ㄌㄞ2 ㄉㄜ2 0
定向 ㄉㄧㄥ4 ㄒㄧㄤ4 0
修訂 ㄒㄧㄡ ㄉㄧㄥ4 0
暫定 ㄓㄢ4 ㄉㄧㄥ4 0
砍頭 ㄎㄢ3 ㄊㄡ2 0
弄丟 ㄋㄨㄥ4 ㄉㄧㄡ 0
起口角 ㄑㄧ3 ㄎㄡ3 ㄐㄧㄠ3 0
鎮定 ㄓㄣ4 ㄉㄧㄥ4 0
心懷 ㄒㄧㄣ ㄏㄨㄞ2 0
而定 ㄦ2 ㄉㄧㄥ4 0
繁體 ㄈㄢ2 ㄊㄧ3 0
迎向 ㄧㄥ2 ㄒㄧㄤ4 0
恆定 ㄏㄥ2 ㄉㄧㄥ4 0
欠整 ㄑㄧㄢ4 ㄓㄥ3 0
訴說 ㄙㄨ4 ㄕㄨㄛ 0
護校 ㄏㄨ4 ㄒㄧㄠ4 0
疏離 ㄕㄨ ㄌㄧ2 0
一趟 ㄧ2 ㄊㄤ4 0
小帽 ㄒㄧㄠ3 ㄇㄠ4 0
破音字 ㄆㄛ4 ㄧㄣ ㄗ4 0
edited: 1
|
先說一下
裡面有些字不是我新增的
但我也不知道怎麼把他挑出來
樓主所提供的tsin.src 感覺很怪,像是前面提到的「隕石/殞石」就不是我新增的,而且殞石還是錯別字
edited: 1
|
|
抱歉
剛剛發現幾個打錯的地方
沮喪的沮是三聲
有錯誤的地方我會再看
|
這邊又加了幾個詞,來源都是這五天內的四大報社論,都是平常寫文章時的常用字,沒有特別冷僻的字
另外,有個詞:桀驁不馴的「驁」,讀音為ㄠˋ,gcin 搞錯了,請更正。
「折騰」 的「折」有一聲(space)的音
有部份與上面的重疊,辛苦了!
edited: 2
|
8/31 四大報社論總結後新增的詞
另,「維繫」應念做 ㄨㄟ2 ㄒㄧ4 而非 ㄨㄟ2 ㄐㄧ4,原詞庫請更正
edited: 1
|
dowba |
8/31 四大報社論總結後新增的詞
另,「維繫」應念做 ㄨㄟ2 ㄒㄧ4 而非 ㄨㄟ2 ㄐㄧ4,原詞庫請更正
|
印象中,以前上課好像是教「ㄨㄟ2 ㄐㄧ4」(有待查證...),
或許「ㄨㄟ2 ㄒㄧ4 」是一般口語的讀法,而非正式的讀法?
|
|