发布时间:2016-11-21 浏览次数:10496
美国英语语料库
布朗语料库
20
世纪
50
年代是美国结构主义语言学的鼎盛时期,也是转换生成语法的萌芽时期。在时任美国语言学会主席的布朗大学教授
W.F.Twaddell
的策划下,
Nelson Francis
和
Henry Kucera
于
1963
年着手建设布朗语料库,并于
1964
年完成了这个容量为一百万词的第一个电子子语料库。布朗语料库在美国本土并未产生太大影响,但对欧洲的计算机语料库建设和语料库语言学的发展起到了重要的引领和催化作用。
美国国家语料库
美国国家语料库(American National Corpus)是规模巨大的关于美国英语使用现状的语料库,它包括从
1990
年起的各种文字材料、口头材料的文字记录。
ANC
已出版过两个版本,第一个版本包含
1000
万口语和书面语美式英语词汇,第二个版本包含
2200
万口语和书面语美式英语词汇。
此外,还包括美国专业口语语料库(CPSAE,Corpus of Spoken Professional American English);
FROWN
美语语料库
(Freiburg BROWN Corpus of American English)
;
MICASE
语料库
(Michigan Corpus of Academic Spoken English)
容量达到
170
万词次;
SUSANNE
语料库容量有
13
万词次,进行了词性和句法标注。
英国英语语料库
BNC语料库
英国国家语料库
(British National Corpus)
,是由英国牛津大学出版社、朗文出版公司、钱伯斯一哈洛普出版公司、牛津大学计算机服务中心、兰卡斯特大学英语计算机研究中心以及大英图书馆等联合开发建立的大型语料库。该语料库的建立标志着语料库语言学的发展进入一个新的阶段,并在语言学和语言技术研究方面发挥重要作用。
LOB语料库
LOB
语料库
(Lancaster/Oslo-Bergen Corpus)
,词库容量为
100
万词次。其贡献在于该语料库采用了
TAGIT
标注系统,以统计的方式建立换算机率矩阵,把标注正确率提高到了
96%
。
LLC口语语料库
LLC
口语语料库
(London-Lund Corpus of Spoken English)
,其内容为
500,000
词次的口语,内容分为五大类:面对面谈话、电话、讨论、即席演讲、专题演讲。
COBUILD语料库
COBUILD
语料库
(Collins Berminhan University International Language Database)
由
John Sinclair
在
20
世纪
80
年代建立。其贡献在于它是第一个动态语料库。
Longman语料库
Longman
语料库
(Langman Corpus)
,该库从地域上讲,跨越了英国、美国及其他国家。
此外,还包括
Lourvain
本土英语论文语料库
(Louvain Corpus of Native English Essays)
;英国国家语料库
(British National Corpus)
;
COLT
语料库
(Bergen Corpus of London Teenage Language)
;
CHRISTINE
语料库
(CHRISTINE Corpus)
;
FLOB
英语语料库
(Freiburg-LOB Corpus of British English)
;国际语料库英国分库
(ICE
—
GB
,
International Corpus of English
,
British Component)
;兰卡斯特大学解析语料库
(Lancaster Parsed Corpus)
;
IBM
兰卡斯特口语语料库
(Lancaster/IBM Spoken English Corpus)
等。
澳大利亚英语语料库
容量为
100
万词次,以
LOB
语料库和
BROWN
语料库为蓝本,收集了书面和口头英语。该库没有进行标注。
东非英语语料库
国际英语语料库东非分库
(ICE
—
EA
,
International Corpus of English
,
East African Component)
容量为
100
万词次。该库收集的是肯尼亚和坦桑尼亚两个国家的书面和口头英语。
印第安英语语料库
国际语料库印第安英语分库
国际语料库印第安英语分库
(ICE
—
IC
,
International Corpus of English
,
Indian Component)
容量为
100
万词次,收集书面和口头印第安英语。该库进行了文本组成、话语、词性和句法标注。
Kolhapur语料库
Kolhapur
语料库
(Kolhapur Corpus)
容量为
100
万词次,以
BROWN
和
LOB
语料库为蓝本收集的书面英语,大约有
500
个文本。
新西兰英语语料库
国际英语语料库新西兰分库
国际英语语料库新西兰分库
(ICENZC,International Corpus of English
,
New ZealandComponent)
容量为
100
万词次,收集的是新西兰书面和口头英语。该库进行了文本、话语、词性和句法标注。
Wellington语料库
Wellington
语料库
(Wellington Corpus)
容量为
100
万词次,总共有
500
个没有标注的文本,以
BROWN
和
LOB
语料库为蓝本收集的书面英语。
Wellington新西兰口语语料库
Wellington
新西兰口语语料库
(Wellington Corpus of Spoken New Zealand English)
容量为
100
万词次,有
500
个文本。收集的是正式、半正式和非正式口语语料,并进行了话语标注。
菲律宾英语语料库
国际英语语料库菲律宾分库
(ICE-PC International Corpus of English,Philippine Component)
容量为
100
万词次,收集的是菲律宾书面和口头英语。该库进行了文本、话语、词性和句法标注。
新加坡英语语料库
国际英语语料库新加坡分库
(ICE-IP
,
International Corpus of English
,
Indian Component)
容量为
100
万词次,收集的是新加坡书面和口头英语。该库进行了文本、话语、词性和句法标注。
英语混合语语料库
VOICE语料库
VOICE
语料库
(Vienna Oxford International Corpus of English)
容量为
25
万词次,并且正在扩充中收集的是英语口语、英语作为混合语的交流、大量没有文本的英语学习者之间的交流。
ELFA语料库
ELFA
语料库
(English as a Lingua Franca in Academic Settings)
,容量为
50
万词次。内容为口头学术英语。
英语历史语料库
ARCHER语料库
ARCHER
语料库
(A Representative Corpus of Historical English Registers)
容量为
170
万词次。该库有
1,037
个文本,涉及
10
个领域,包括英国英语和美国英语
,
并进行了词性标注。
CEECS语料库
CEECS
语料库
(Corpus of Early English Correspondence Sampler)
容量为
45
万词次。内容为个人书信。
Lampeter早期现代英语语料库
Lampeter
早期现代英语语料库
(Lampeter Corpus of Early Modern English Tracts)
容量为
110
万词次。该库收集的是非文学散文文本,并进行了文本标注。
(转自微信公众号“语言资源高精尖创新中心”,2016-11-17)