ckip.iis.sinica.edu.tw
中文剖析系統
http://ckip.iis.sinica.edu.tw/CKIP/parser.htm
完成中文句子析剖析系統,包含斷詞 斷詞標記 中文剖析 角色指派。 我們(Nh) 都(D) 喜歡(VK) 蝴蝶(Na). 實驗的結果是基本普遍化語法的81.45%增加到精確化語法的86.14%[謝佑明, 楊敦淇, 陳克健, 2004]. 角色自動指定方法,請參考 [You, Chen, 2004]. 本系統亦提供線上測試版,網址如下 http:/ parser.iis.sinica.edu.tw/. Yu-Ming Hsieh, Ming-Hong Bai, Jason S. Chang and Keh-Jiann Chen, 2012, Improving PCFG Chinese Parsing with Context-Dependent Probability Re-estimation. Duen-Chi Yang, Yu-Ming Hsieh and Keh-Jiann Chen 2008, Resolving Ambiguities of Chinese Conjunctive Structures by Divide-and-conquer Approaches.
ckip.iis.sinica.edu.tw
線上系統使用
http://ckip.iis.sinica.edu.tw/CKIP/onlinesystem.htm
在展示版中,使用者直接輸入中文句子,系統會自動進行句子斷詞標記 句子剖析 角色指派的動作,最後將結果顯示出來,其內容包含輸入文本 斷詞標記 句子剖析等資訊。 中文句結構樹資料庫 (Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中,抽取句子,經由電腦剖析成,結構樹並加以人工修正、檢驗後的所得的成果。 中央研究院現代漢語平衡語料庫 (簡稱 研究院語料庫 (Sinica Corpus) 是專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。 於一九九一年得蔣經國基金會補助,開始構建語料庫 並於一九九四年分別得到中央研究院 中文資訊 跨所研究群專案計畫及 國科會計畫補助, 正式開始進行語料標記。 平衡語料庫4.0版再增加一倍的語料為一千萬語料,所蒐集的文章為 1981 年到 2007 年之間的文章,於2010年開始授權申請使用,而一千萬語料的查詢介面為2013年起提供查詢。 名詞詞首字 1,135個 含歧義為 1,197個.