语言资源
>>当前位置: 首页 > 在线资源 > 语言资源 > 正文

中央研究院漢語平衡語料庫

来源:    更新时间:2017-02-20   

访问地址:http://asbc.iis.sinica.edu.tw/

中央研究院現代漢語標記語料庫4.0版簡介

「中央研究院漢語平衡語料庫」 (簡稱 Sinica Corpus)第 4.0 版,為一包含一千多萬目詞的帶標記平衡語料庫。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為 1981 年到 2007 年之間的文章,於2010年開始授權申請使用,而一千萬語料的查詢介面為2013年起提供查詢。語料庫共有 19,247 篇文章;1,396,133句數;11,245,330 個詞數 (word token) ;239,598 個詞形 (word type);17,554,089 個字數 (character token)。各主題其篇數如下:
主題 詞數 字數 篇數
文學 2,244,361 3,427,101 2,525
生活 2,253,102 3,547,925 5,461
社會 3,636,897 5,865,905 7,466
科學 1,132,298 1,874,228 1,482
哲學 1,129,512 1,681,026 1,378
藝術 849,160 1,337,904 935
加總結果 11,245,330 17,554,089 19,247

 

 

>>> 進入語料檢索系統 <<<

如欲更進一步了解語料庫的內容,請參考中央研究院資訊所、語言所詞庫小組所編技術報告第 95-02/98-04號「中央研究院漢語料庫的內容與說明」。如欲申請中央研究院漢語平衡語料庫,請至 中華民國計算語言學學會 申請。[Sinica Corpus English user manual]

主办单位:语言资源开发研究中心       地址:陕西省西安市长安区陕西师范大学文汇楼A座
联系电话:029-85318838        E-mail:yyzykfyjzx@snnu.edu.cn