更全的杂志信息网

基于语料库的大学英语阅读材料生词率探测技术

更新时间:2016-07-05

阅读是人类获取信息,解析语义的重要手段,同时也是语言教学的核心内容之一。英语是中国学习者的主要二语习得对象,英语阅读能力的培养一直都是各种层次英语教学的重要目标,能够快速、准确地对英语阅读材料进行解读并获取所需信息是每个二语习得者都必须具备的能力之一。国家教育部修订颁布的《大学英语课程教学要求》,对阅读理解能力划定了一般要求,如“能够基本读懂一般性题材的英文文章……能基本读懂国内英文报刊,掌握中心意思,理解主要事实和有关细节。能读懂工作、生活中常见的应用文体的材料。能在阅读中使用有效的阅读方法。”这些新的要求对国内外语教材编写产生了深远的指导性影响。在国内教材发行市场上,外语教材的市场份额正在被重新洗牌[1]。一方面,“一些传统的、得过奖的、被高校广泛采用的名牌教材正在逐步失去市场。”[2]另一方面,“这一巨大的市场亦不可避免地吸引众多的编写者和出版者去开发、开拓、耕耘。”[3]因此,自主编写适合学习者能力水平的大学英语阅读教材便成为大学英语教学单位教研教改的努力方向之一。然而,如何便捷地对挑选出来的阅读材料生词率进行探测,实现对阅读材料的难度控制、定级分类,是大学英语阅读教材编写过程中必须解决的关键技术问题。而随着计算机科学的飞速发展,基于大数据挖掘及处理的理念而发展的语料库技术在外语研究中逐渐成为重要的研究手段和工具,也为外语教学科研工作者提供了解决这一问题的全新视角。

再次,形成新市场。一方面,要通过促进传统五大需求“吃穿住行用”升级,来形成新市场;另一方面,要通过培育新五大需求“学乐康安美”(学习需求、快乐需求、健康需求、安全需求、美丽需求),来形成新市场。

语料库是有条理地将口语或书面语文本集合成数据库,并能运用于定性分析和定量分析[4],是语料库技术的核心工具。根据国内学者韩美竹、辛鑫的研究[5]和笔者在中国知网的查询,我国运用语料库技术进行语言研究大致集中于:(1)多种类语料库的建立,如中国学习者英语语料库[6];基于语料库的大学英语阅读资源建设[7]。(2)将语料库用于对翻译、写作、字典编撰以及词汇、语法等语言现象的分析和指导,如一项基于语料库的研究——中国学生英语写作中的冠词误用现象[8];基于英汉平行语料库的词典编写系统CpsDict的研制[9];翻译英语语料库与基于翻译英语语料库的描述性翻译研究[10];基于语料库的Seek搭配行为对比研究[11]。(3)对语料库运用于语言教学和学习的可行性及效果进行分析,如语料库语言学与英语教学[12];语料库数据驱动的外语学习:思想、方法和技术[13];语料库语言学与中国外语教学[14];语料库语言学视角下的英语阅读教学[15];语料库技术辅助英语阅读的效果分析[16]。此外,还有利用语料库技术对教材进行评估[1]

二是加大了抗旱的投入力度。中央安排特大抗旱经费1.55亿元,综合抗旱资金8亿元,提前拨付饮水安全和小农水资金63亿元。受旱省区已累计投入劳力2526万人,投入抗旱资金41.1亿元,投入抗旱机动设备114万台套、运水车38万辆次,完成浇地2583万亩。

从以上综述可以看出,前人利用语料库开展了多角度的语言研究,但尚无对阅读材料生词率探测方法此类技术问题进行介绍和探讨。本文以大学英语阅读为例,通过利用多个语料库作为数据支撑,采用语料库软件AntConc 3.2.0w.beta3和Microsoft Office Excel 2007作为工具,运用语料库软件提取关键词表功能(Keyword List)和词簇化功能(Lemmatizing),并结合Microsoft Office Excel软件的筛选、查找和匹配功能,探测出大学英语阅读材料的生词率。

笔者选取一篇题为《中国在创建全球量子通信网络方面迈出一大步》[19]的英语文章作为示例阅读材料,使用学者Yasumasa Someya编制的词目表(Lemma List)和语料库软件词簇化功能抽取全文词汇,并消除同一词性的词汇的所有曲折变化形式形成词簇,结果如下(见图3):

一、语料选择与构建

将上述结果导出,选取原文词簇及其词频形成目标词汇语料库,并录入Microsoft Office Excel 2007制成表格,如图4所示:

二、步骤及结果

(一)构建参照词汇语料库

从图1和图2关键词、关键值(Keyness)可以看出,相对高频的词汇远多于低频的词汇(软件用蓝色字标出,图1中有1个,图2中有7个),说明选取的三个基准语料库一致性较强,所包含的词汇契合度高、指向性强并略有互补,将这三者集合成参照词汇语料库,基本可以囊括中学英语词汇和大学英语四六级词汇。

图1 批改网词汇语料库与CLEC大学英语四六级和中学生英语词目语料库对比结果(部分)

图2 大学英语四六级单词语料库与CLEC大学英语四六级和中学生英语词目语料库对比结果(部分)

为确保参照词汇语料库的可靠性,必须使其包含的词汇能够基本覆盖中学英语词汇和大学英语词汇。为此,笔者通过语料库提取关键词表功能验证选取的基准语料库的一致性。关键词表是指两个语料库的词频表相比,由其中一个词表明显地高频于另一个词表的那部分词所组成的词表,以此来凸显目标语料库的一些特别高频词,由此浮现该语料库的主题或文体特色,如报刊语料库在航海英语阅读教学中的应用[17]、语料库视角下的新闻报道分析[18]等研究。根据这一语料库技术的原理,笔者通过语料库软件AntConc 3.2.0w.beta3的Keyword List工具将批改网词汇语料库、大学英语四六级单词语料库的词频表分别与CLEC大学英语四六级和中学生英语词目语料库的词频表对比,生成关键词表如下(见图1和图2):

图3 阅读材料词簇化后的结果(部分)

(二)构建目标词汇语料库

这件事,我说了算。让你写一百次,你就写一百次。强奸妇女,一次就够枪毙的罪,你强奸了三妮一百次,你狗日的别想活了。这样好,这样省了我一刀子。也免得脏了我的刀子。

为了达到研究目的,笔者选取了如下三个基准语料库:(1)中国学习者英语语料库(简称CLEC),该库由广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授发起并主持建设,包含中学生英语、大学英语四级和六级、专业英语低年级和高年级等5种语料,本文使用Microsoft Office Excel软件的筛选功能从CLEC的总词目表中抽取形成了CLEC大学英语四六级和中学生英语词目语料库。(2)包含英语超高频词汇(GSL词汇)、朗文词典核心高频词汇、奥格登基础英语词汇(Ogden’s Basic English)和学术英语词汇(The Academic Word List)的语料库,该库在国家语委语言智能研究中心自主研发的英语批改网下载获得。(3)大学英语四六级单词语料库,该库在网络上下载获得。换言之,笔者希望依托上述三个基准语料库,构建出基本囊括中学英语词汇和大学英语四六级词汇的语料库,作为探测生词依据的参照词汇语料库。此外,笔者还运用语料库软件,提取和整理阅读材料的词汇,形成包含生词在内的目标词汇语料库。

图4 目标词汇语料库表格(部分)

(三)生词检索与生词率探测

生词检索逻辑是将包含阅读材料词簇的目标词汇语料库与参照词汇语料库对比,未能匹配的词汇即为候选生词。笔者运用Microsoft Office Excel 2007的VLOOKUP函数完成检索匹配,并返回参照词汇语料库索引值。通过自动筛选功能,过滤显示未能匹配的词簇,即索引值为#N/A的词簇,手工进行选择形成生词列表,如图5所示:

图5 该阅读材料生词情况

使用LOOKUP函数和EXACT函数,提取生词对应的词频。该阅读材料生词词频总和除以阅读材料总词数即为生词率,结果如图6所示:

针对性强 交流深入 首届国际水文监测仪器设备推介会反响大…………………………………………………… 田灵燕(23.70)

图6 该阅读材料生词率情况

三、结语

本文以大学英语阅读为例,介绍了阅读材料生词率的探测方法,其本质是利用计算机技术实现对自然语言的批量快捷处理,从而为不同层次阅读材料的难度调控提供了技术支持和依据。本文介绍的方法还有待改进的地方是:(1)由于目前尚无对中学生英语词汇、大学英语四六级词汇权威的、统一的规定,所以文中参照词汇语料库所包含词汇的全面性还有待考察和完善;(2)由于参照词汇语料库无法绝对全面和语料库软件词簇化功能的局限性,即只能消除词汇曲折变化,导致派生词汇以及人名、地名、专有名词等词汇被标记为生词,所以对生词的最终确定还需要手工介入选取。总体而言,本文介绍的方法对于尽可能便捷准确地判定生词及生词率还是起到了积极的作用。

参 考 文 献

[1] 郑志恒.基于语料库的英语阅读教材词汇评估[J].外语研究,2012(5):56-63.

[2] 胡壮麟.新世纪的大学英语教材[J].外语与外语教学,2005(11):24-27.

[3] 庄智象.构建具有中国特色的外语教材编写和评价体系[J].外语界,2006(6):49-56.

[4] O’Keeffe A, McCarthy M, Carter R. From Corpus to Classroom[M].Cambridge:Cambridge University Press, 2007.

[5] 韩美竹,辛鑫.语料库与英语阅读课中的词汇教学[J].西安外国语大学学报,2009,17(4):105-107.

[6] 桂诗春,杨惠中.中国学习者英语语料库[M].上海:上海外语教育出版社,2003.

[7] 付正玲,袁昌万.基于语料库的大学英语阅读资源建设[J].西南师范大学学报,2016,41(5):225-230.

[8] 李景泉,蔡金亭.中国学生英语写作中的冠词误用现象[J]. 解放军外国语学院学报,2001,24(6):58-62.

[9] 李德俊.基于英汉平行语料库的词典编写系统CpsDict的研制[J]. 现代外语,2006,29(4):371-381.

[10] 陈伟.翻译英语语料库与基于翻译英语语料库的描述性翻译研究[J]. 外国语,2007(1):67-73.

[11] 钟珊辉.基于语料库的Seek搭配行为对比研究[J]. 外国语文,2009,25(5):36-40.

[12] 何安平.语料库语言学与英语教学[M]. 北京:外语教学与研究出版社,2004.

[13] 甄凤超.语料库数据驱动的外语学习:思想、方法和技术[J]. 外语界,2005(4):19-27.

[14] 桂诗春.语料库语言学与中国外语教学[J]. 现代外语,2010,33(4):419-426.

[15] 张翯,裴云红.语料库语言学视角下的英语阅读教学[J]. 科教文汇,2013(256):126-127.

[16] 金荣.语料库技术辅助英语阅读的效果分析[J]. 开封教育学院学报,2016,36(1):75-78.

[17] 赵志刚,何安平.报刊语料库在航海英语阅读教学中的应用[J]. 广东海洋大学学报,2014,34(5):80-85.

[18] 周莉婷. 语料库视角下的新闻报道分析[J]. 内蒙古农业大学学报,2015,6(17):137-142.

[19] Whigham N. China Takes Major Step in Creating a Global Network for Quantum Communication[J]. 英语文摘,2016(11):60-63.

李林挺
《东莞理工学院学报》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号