cd .gcin tsd2a32 -nousecount ~/.gcin/tsin32 > new.txt diff -u tsin.src new.txt | grep '^+' | sed -e "s/^+//" > diff.txt
接著用文字編輯器打開diff.txt 注意看你的詞庫是否有那些現代人用不到的詞,這些沒用的詞只會增加詞音錯誤的機率。
| adm | Find | login register |
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
初次使用gcin詞音或gtab自動選字的朋友會不會覺得有些常用詞沒在現有的gcin詞庫裡?
由於詞庫相當難以維護(徵求自願者...), -------------------------------------------------------------------
edited: 3
| |||||||||
本人已不在此站活動 joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 |
| |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
哦~感謝LGJ兄提醒,
請問依據那個討論串的結論, 感謝~ ------------------------------------------------------------------- | |||||||||
本人已不在此站活動 joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 |
| |||||||||
eliu joined: 2007-08-09 posted: 11478 promoted: 617 bookmarked: 187 新竹, 台灣 |
可以用
把詞的使用次數清掉以方便用 diff 比較 edited: 1
| |||||||||
eliu joined: 2007-08-09 posted: 11478 promoted: 617 bookmarked: 187 新竹, 台灣 |
可以取出新增的詞 | |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
呼~ 上傳上來,算是拋個磚試試。
詞庫的維護真的很可怕,之前T大就整理過一次(真佩服...), ------------------------------------------------------------------- | |||||||||
本人已不在此站活動 joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 |
關於版權的問題,我個人認為只要不是原封不動的搬過來用,不會有版權的問題。例如,沒有人可以主張「推陳出新」這句成語,這個詞他有著作權,如果是這樣的話,難道我們去查版權所有的詞典的時候,也不能把「推陳出新」這句成語拿過來用嗎?為什麼詞典都不能主張著作權,而一般的詞庫檔卻可以呢? 因此,只要取需要的詞語過來用,不會造成侵權的問題,否則整理那些詞庫的人,第一個就首先侵權了。 就像沒有人可以主張宋體的某個字的寫法他有著作權,了不起只能主張他的字型的整體設計他有美術著作權是類似的道理。
edited: 1
| |||||||||
本人已不在此站活動 joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 |
沒錯。當初討論的時候為何不參與呢?同類的討論串除非另有其他不同的內容,本來就沒有必要另立 thread,尤其是有延續性的。 要另立 thread,至少要有個 link 串連起來,不然前面的人的討論好像是在討論辛酸的。
| |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
LGJ兄: ------------------------------------------------------------------- edited: 1
| |||||||||
caleb joined: 2007-09-22 posted: 630 promoted: 134 bookmarked: 90 |
少量詞沒差,大量的話最好自己先看過。 隨便瞄了一下就發現很多不適合放 upstream 的: 二碼、以利、亦未能、亦沒有、也是從、憂思、右腦傷、未完成學業、未與、未對、完後、殞石、ㄆㄨㄣ、普同性、每一段時間… 後面相信還有很多不適合收錄的。 | |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
感謝caleb兄指正,我再刪刪,感謝~ ------------------------------------------------------------------- | |||||||||
eliu joined: 2007-08-09 posted: 11478 promoted: 617 bookmarked: 187 新竹, 台灣 |
那就麻煩 winlin 整理好我再放進去
| |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
今天持續努力在整理當中,不過在刪的時候,常常還是不確定是否該保留,
雖然有些看起來不太像是「詞」,如:「也是從」、「不愧是」...等, ------------------------------------------------------------------- | |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
剛剛想了一下,
我現在的想法是,不然,某些看起來亂七八糟的雜詞就都不要保留了~(只留成語、形容詞、副詞、動詞和名詞) 不知道大家覺得如何? ------------------------------------------------------------------- | |||||||||
eliu joined: 2007-08-09 posted: 11478 promoted: 617 bookmarked: 187 新竹, 台灣 |
edited: 1
| |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
看了好幾遍,目前刪到只剩245個(按此下載)。
另外,
美體 ㄇㄟ3 ㄊㄧ3 0 ------------------------------------------------------------------- | |||||||||
caleb joined: 2007-09-22 posted: 630 promoted: 134 bookmarked: 90 |
面質 ← 面值? 裙擺 ← 裙襬?
元本山 ← 商品名,類似人地名
以下是不常用詞: 病歷室 排拒 皮質 何意 衡鑑 話量 效標 選字 重鬱症 失語症 入袋 粗工
專門職業的相關用語不適合收錄在 upstream,建議另外弄個「西醫詞庫」「中醫詞庫」之類的。 | |||||||||
eliu joined: 2007-08-09 posted: 11478 promoted: 617 bookmarked: 187 新竹, 台灣 |
edited: 1
| |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
感謝eliu兄和caleb兄幫忙指正,已修正成這個附檔。
------------------------------------------------------------------- | |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
eliu兄:
想要代幣 ㄉㄞ4 ㄅㄧ4 0 ------------------------------------------------------------------- | |||||||||
dowba joined: 2009-08-30 posted: 35 promoted: bookmarked: Taichung |
| |||||||||
eliu joined: 2007-08-09 posted: 11478 promoted: 617 bookmarked: 187 新竹, 台灣 |
加進去了,刪掉一些平常人用不到的。
| |||||||||
dowba joined: 2009-08-30 posted: 35 promoted: bookmarked: Taichung |
抱歉
剛剛發現幾個打錯的地方
沮喪的沮是三聲
有錯誤的地方我會再看
| |||||||||
dowba joined: 2009-08-30 posted: 35 promoted: bookmarked: Taichung |
這邊又加了幾個詞,來源都是這五天內的四大報社論,都是平常寫文章時的常用字,沒有特別冷僻的字 另外,有個詞:桀驁不馴的「驁」,讀音為ㄠˋ,gcin 搞錯了,請更正。 「折騰」 的「折」有一聲(space)的音 有部份與上面的重疊,辛苦了! | |||||||||
dowba joined: 2009-08-30 posted: 35 promoted: bookmarked: Taichung |
8/31 四大報社論總結後新增的詞 另,「維繫」應念做 ㄨㄟ2 ㄒㄧ4 而非 ㄨㄟ2 ㄐㄧ4,原詞庫請更正 | |||||||||
winlin joined: 2007-09-25 posted: 1859 promoted: 111 bookmarked: 33 |
印象中,以前上課好像是教「ㄨㄟ2 ㄐㄧ4」(有待查證...), ------------------------------------------------------------------- | |||||||||
本人已不在此站活動 joined: 2007-09-19 posted: 4946 promoted: 325 bookmarked: 206 歸隱山林 |
|
| adm | Find | login register |