cht電腦資訊文書排版
adm Find login register

蒐集整理「國語詞彙」遭遇到的瓶頸

IanHo
1 蒐集整理「國語詞彙」遭遇到的瓶頸
Promote 0 Bookmark 02021-11-13quote  

一個狀況有問有機會,一開始就誠實的說這是一個大哉問+伸手牌。

參考資料源1:
中華民國教育部「國語小字典」,「解釋」欄位所包含的所有的範例詞彙
https://language.moe.gov.tw/001/Upload/Files/site_content/M0001/respub/dict_mini_download.html

參考資料源2:
中華民國教育部 國語一字多音審訂表(初稿)101年12月12日公告/polyphone10112_1020207updatemail.pdf
https://language.moe.gov.tw/files/people_files/初稿.pdf
「詞語例或說明」欄位包含的所有的範例詞彙

參考資料源3:
中華民國 教育部《國語一字多音審訂表》國中小國語文教科書用字審訂成果(初稿)109年9月
http://163.27.155.30/~school/uploads/tad_web/tmp/17053/教育部《國語一字多音審訂表》國民中小學國語文教科書用字審訂成果初稿.pdf
「詞語例或說明」欄位包含的所有的範例詞彙

參考資料源4:
中華民國教育部 國教院三等七級詞表(Excel格式)
https://coct.naer.edu.tw/download/tech_report/
文件檔內所有的範例詞彙

參考資料源5:
ROCtwMoePolyPhone2012_Unofficial_Third-Party_ReProduction_LOv7212_v110-10-17.ods(或將來的更新版本)
https://sites.google.com/site/ianho7979/roctwmoepolyphone_unofficial_third-party_reproduction
「中華民國 國語詞彙選輯」欄位包含的所有的範例詞彙、「國字」欄位的所有單個國字。

以上資料源的所有詞彙,我要嘗試僅透過試算表軟體(LibreOffice Calc)本身既有的圖形介面操作功能+圖形介面的純文字編輯器輔助搭配,
「有效率的操作流程」來全部彙整出「不重複」的詞彙列表。
接下來要對這份不重複的詞彙列表做出取捨,至少會要踢掉詞彙之中的任何一字沒有出現在「國字」欄位列表內的詞彙、
要踢掉以我個人人生累積的閱讀體驗被我認為是流行次文化用詞的詞彙、以及相對較新的外來語詞彙(例:視頻)。
取捨之後剩下的詞彙量說不定還是會破萬,然後開始對這些詞彙做某種程度的「分類」,例如針對詞頭或詞尾的意義來分類,
硬體、軟體算一類,公里、公尺、公分算一類,諸如此類。
把這一萬多筆的詞彙群整理出一個大概之後,再將之全部取代「中華民國 國語詞彙選輯」欄位原本的詞彙群。
我想要整理出來的海量詞彙,理念上是要可以應付現代臺灣社會的日常生活溝通的國語詞彙,並且「不會納入」流行文化詞彙。
雖然我嘗試整理出了這樣一個編輯文件的大方向,可是當我嘗試想要以「有批次操作效率的」圖形介面工具編輯方式,
來整理這多個來源的海量詞彙時,卻整個感覺不知道該從何操作起,目前我還在嘗試各種腦內想像文件編輯的流程、還在卡關中。
所以同時也來試試大哉問+伸手牌的可能性,有問有機會,至少我有嘗試問過。
我卡關的第一步,就是不知道該如何「有效率的」萃取「國語小字典」裡頭所有的範例詞彙,
彙整成為一欄多列的詞彙資料表(預設限用試算表圖形介面既有的操作功能+圖形介面的純文字編輯器輔助搭配),這樣一個「操作過程」。

cht電腦資訊文書排版
adm Find login register
views:1974