访问地址:http://asbc.iis.sinica.edu.tw/
中央研究院現代漢語標記語料庫4.0版簡介
「中央研究院漢語平衡語料庫」 (簡稱 Sinica Corpus)第 4.0 版,為一包含一千多萬目詞的帶標記平衡語料庫。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為 1981 年到 2007 年之間的文章,於2010年開始授權申請使用,而一千萬語料的查詢介面為2013年起提供查詢。語料庫共有 19,247 篇文章;1,396,133句數;11,245,330 個詞數 (word token) ;239,598 個詞形 (word type);17,554,089 個字數 (character token)。各主題其篇數如下:
主題 |
詞數 |
字數 |
篇數 |
文學 |
2,244,361 |
3,427,101 |
2,525 |
生活 |
2,253,102 |
3,547,925 |
5,461 |
社會 |
3,636,897 |
5,865,905 |
7,466 |
科學 |
1,132,298 |
1,874,228 |
1,482 |
哲學 |
1,129,512 |
1,681,026 |
1,378 |
藝術 |
849,160 |
1,337,904 |
935 |
加總結果 |
11,245,330 |
17,554,089 |
19,247 |
>>> 進入語料檢索系統 <<<
如欲更進一步了解語料庫的內容,請參考中央研究院資訊所、語言所詞庫小組所編技術報告第 95-02/98-04號「中央研究院漢語料庫的內容與說明」。如欲申請中央研究院漢語平衡語料庫,請至 中華民國計算語言學學會 申請。[Sinica Corpus English user manual]