更全的杂志信息网

1946-2017年国际唇读研究进展——基于科学知识图谱的可视化研究

更新时间:2009-03-28

唇读,即看话人通过观察说话人的口唇发音动作、肌肉活动及面部表情,形成连续的视知觉,并与头脑中储存的词语表象相比较和联系,进而理解说话人的话语内容[1]。唇读作为利用视觉信息感知言语的一种特殊方式和技能,对唇读者(尤其是听力受损状态下)的语言理解起着不容忽视的辅助作用[2]。随着特殊教育领域、计算机科学领域等对唇读研究的日益关注,国内已有学者从不同角度对当前国内或国际的某个学科领域的唇读研究现状及发展趋势进行了有价值的探索[3-5]。但以往对唇读领域前沿描述和分析主要是作者依据搜集的某一领域文献进行的定性分析,在一定程度上存在着分析范围小、评价主观性较大等弊端。而借助图谱的直观性,研究者可透视整个研究领域的重要文献,理顺研究目标和知识网络,把握研究前沿发展的最新趋势[6]。本研究尝试基于科学知识图谱,采用科学计量分析的方法,系统梳理国际唇读领域的研究进展。

一、数据来源与研究工具

(一)数据来源

Web of ScienceTM数据库作为目前国际上对基础研究和应用基础研究成果进行科学评价的最具权威性的大型数据库之一,具有收录范围广、更新速度快、回溯期长等特点,因此,以WOSTM数据库为数据来源平台检索收集国际唇读研究的相关文献具有较高的代表性。为提高文献收集的全面性和准确性,本研究的检索策略定为:主题=“speechreading”or “lipreading”or “visual hearing”or “visual listening” or “hearing by eye”;文献类型=“Artical”;入库时间=“全部年份”;语种=“English”。经过对数据的预处理,共获得1946-2017年间的8 054篇文献(2018年2月6日检索)。

(二)研究工具

本研究运用CiteSpaceV软件,该软件是由美国德雷克塞尔大学陈超美博士及其团队于2004年研发的专门用于进行科学领域信息可视化研究的应用软件。

浙江大学人文实验班通过经学、历史、哲学等学科教育,根据预科课程要求和教学资源能力,在两年内申请专业或专业方向的确认。在教学资源许可的条件下,学生也可以在不同的学校或学院确定主修或辅修专业。

国内先进城市先进制造业发展水平测度及对青岛的启示…………………………………………………邱立新,周家萌(2,18)

二、研究结果与分析

(一)唇读研究的时间分布特点

对唇读研究发表论文的数量和时间变化关系进行统计,能够揭示出该领域的研究历史、发展速度并预测其发展趋势。根据普赖斯提出的科学文献增长的4阶段理论,即缓慢增长的初始阶段、指数增长阶段、线性增长阶段和缓慢增长阶段[7],当前国际唇读研究大致可划分为2个主要阶段(见图1):1946年至1990年近半个世纪间共发表论文244篇,符合普赖斯阶段理论的第一阶段特征,即学科刚刚诞生,绝对论文数量少,增长不稳定,很难通过统计的方法求得相应的数学表达式;从1991年开始,国外唇读研究的年发文量急剧增加,且逐年累计发文量较严格地服从指数增长规律(Y=3E-68e0.0803x),曲线拟合指数R2达到了0.973(R2是验证模型拟合优度的常用参数,其值在0.875以上表示拟合效果较为理想,越接近1表示回归效果越好[8]),表明国际唇读研究目前正处于指数发展阶段,至于是否表现出普赖斯第三阶段的“线性增长”特征,仍需通过结合未来的唇读研究发展趋势进行判断。

现代建筑施工企业成本管控工作是一项专业性较强的工作,其涉及到的内容也十分复杂,需要企业多个部门的协调配合,并对管控工作人员的综合素质提出了更高的要求。为了保障成本管控的实际效果,建筑施工企业必须重视成本管控队伍建设,通过专业化的培训教育提升成本管控工作人员的专业素质和业务能力,并及时转变其思想意识,使其更好的适应新时期成本管控工作的要求。

随着经济的发展和科技的进步,短视频行业已经逐渐形成规模化运营,因此,政府的监管力度也随之加大。从2016年起,政府对网络短视频的监管力度加大,广电总局、文化部等多个部门与政府联手进行监管,为移动短视频的发展提供了规范发展的契机。

  

1 1946-2017年国际唇读研究论文发表的年度分布

(二)唇读研究的空间分布特点

1. 来源出版物分布

对唇读研究成果的主要学科进行分析,有助于了解唇读研究的学科视角,便于更清晰、准确地把握唇读研究理论与方法的学科基础。国际唇读研究共涉及80个相关学科,主要来自于神经科学、心理学、听力与语言病理学、康复学、教育学、语言学等研究领域(见图2),其中,认知神经科学为最主要的文献来源学科(发文量为1 780篇),心理学以1 651篇的发文量紧随其后排名第二。此外,心理学以0.5的高中心性指数,成为影响唇读研究的重要学科,康复学和认知神经科学分别以0.17和0.11的中心性指数位列第二、三位,说明当前对唇读研究最具影响的学科为心理学、神经科学和康复学。

据普赖斯定律对核心作者的界定,核心作者发文量为:m≈0.749×nmax(m为核心作者最低发文量,nmax为发文量最多的作者论文数)。在本研究统计期间,nmax=33,可计算出m= 4.3,因此,将发表文章数量在4篇及以上作者界定为目前唇读领域的核心作者。目前唇读研究核心作者人数为207人(发文量≧4),约占总研究者人数的41.9%,其发文量约占75.76%,说明唇读领域的核心研究团队已初步基本形成。如表2所示,以悉尼大学视觉研究中心的Paul Mitchell、瑞典林雪平大学行为科学与学习系的Jaker Rönnberg、威斯康辛大学医药与公共卫生学院的Karen JöCruickshanks等几位研究者为代表构成了国际唇读研究的核心研究者。但唇读研究核心作者的密度仅为0.005,表明当前唇读研究合作程度较低。然而,我国尚未有学者进入国际唇读核心研究作者群的领先行列,表明我国对唇读研究的关注度有待提升。

 

1 主要来源期刊(Top 15)

  

排名期刊期刊来源发文量1PlosOne(公共科学图书馆期刊)SCIE1772EarandHearing(耳与听力)SCI/SCIE1613JournalofSpeechLanguageandHearingResearch(语言与听力研究杂志)SSCI/SCIE1304FrontiersinPsychology(心理学前沿)SSCI1215VoltaReview(沃尔特评审)SSCI1016JournalofNeuroscience(神经科学杂志)SCI/SCIE987Neuropsychologia(神经心理学)SCI/SCIE928HearingResearch(听力研究)SCI/SCIE889Neuroimage(神经影像)SCI/SCIE8510Cognition(认知)SSCI8211AmericanAnnalsoftheDeaf(美国聋人年报)SSCI7312Otology&Neurotology(神经耳科学)SCI/SCIE6913InternationalJournalofPediatricOtorhinolaryngology(国际小儿耳鼻喉研究杂志)SCI/SCIE6714ExperimentalBrainResearch(大脑实验研究)SCI/SCIE6315InternationalJournalofAudiology(国际听力学杂志)SCIE59

2.主要学科分布

对刊载唇读研究文章的文献来源出版物进行分析,可发现不同出版物的发文偏好,为科学研究人员进行投稿、文献搜集及杂志订阅提供参考。表1呈现出唇读研究成果的主要载文期刊信息,其中 Plos OneEar and HearingJournal of Speech Language and Hearing Research是统计时段内唇读研究发文最高的3种期刊。此外,听力学领域期刊(如Hearing ResearchInternational Journal of Audiology)、心理学相关期刊(如Frontiers in PsychologyCognition)、神经科学领域期刊(如Journal of NeuroscienceNeuroimage)、残障人士研究领域期刊(如American Annals of the Deaf)等也是国际唇读研究的主要载文期刊。

  

2 唇读研究主要学科共现网络图谱

3.核心作者分布

场地内覆盖层由第四系全新统(Q4)机械堆积填土、残坡积红黏土部分夹碎块石组成,下伏基岩为二叠系上统吴家坪组(P2W)灰岩。素填土(Q4ml):主要由红黏性土组成,含少量灰岩碎石。红黏土(Q4el+dl):呈可塑~硬塑状、硬塑状,韧性及干强度较高等,局部含少量块碎石,成层性、连续性均较差。灰岩:强风化岩体层面裂隙及节理裂隙发育,岩体较破碎,颜色暗淡,岩芯多呈碎块状,岩质较软;中等风化岩体裂隙少量发育,岩体整体较完整,岩质较硬。

 

2 唇读研究主要作者及其所在单位一览表(Top 5)

  

排名作者作者单位及国家发文量1PaulMitchellCenterforvisionResearch,UniversitySydney,Australia(澳大利亚悉尼大学视觉研究中心)332JakerRönnbergDepartmentofBehaviouralSciencesandLearning,LinköpingUniversi-ty,Sweden(瑞典林雪平大学行为科学与学习系)313KarenJ.CruickshanksDepartmentofOphthalmologyandVisualSciences,UniversityofWis-consin,USA(美国威斯康辛大学眼科学与视觉科学系)304DavidB.PisoniDepartmentofPsychologicalandBrainSciences,IndianaUniversity,USA(美国印第安纳大学心理与大脑科学系)295JörgLewaldDepartmentofCognitivePsychology,UniversityofBochum,Germany(德国波鸿大学认知心理学系)276RaymondM.KleinDepartmentofPsychologyandNeuroscience,DalhousieUniversity,Canada(加拿大达尔豪斯大学心理与神经科学系)267BarbaraE.K.KleinDepartmentofOphthalmologyandVisualSciences,UniversityofWis-consin,USA(美国威斯康辛大学眼科学与视觉科学系)268Emmorey,KarenLabLanguage&CognitionNeuroscience,SanDiegoStateUniversity(圣地亚哥州立大学语言与认知神经科学实验室)259JeanVroomenDepartmentofPsychology,TilburgUniversity,Netherlands(荷兰蒂尔堡大学心理学系)2410RuthCamp-bellDeafness,CognitionandLanguageResearchCenter,UniversityCollegeLondon,England(英国伦敦大学学院耳聋、认知与语言研究中心)23

注:篇幅限制,仅呈现排名前10的作者信息。

三、唇读研究的热点分析

相较于健听人士,听障人士的言语知觉更加依赖于视觉言语信息,手语与唇读则是其视觉言语信息的主要获取途径,不少研究者对听障人士获取唇读与手语信息时激活的大脑区域进行比较研究,以期探明听障人士加工不同类型视觉言语的认知神经机制。最早考察听障人士的双语(唇读和手语)认知神经机制的研究为瑞典学者Söderfeldt及其团队,以父母为听障人士的早期双语(手语、口语)使用者为被试,研究发现,无声唇读激活了颞上皮层区域(听觉联合皮层:BA 22)和额下皮层(BA 43),以上区域同时可被有声言语激活;然而,手语激活了颞叶后部更多的区域,如视觉联合皮层:BA 19[40]。造成以上差异的原因,有可能是被试的有效听觉经验优先激活听觉皮层。由于口形在手语理解中发挥着重要作用[41],现实中很多手语使用者在口语或听力环境中交流时也在一定程度上依赖唇读,Campell 等人通过手语与口形匹配判断任务对以英国手语为第一语言的听障成年人进行研究,进一步发现口形与手语作为两种视觉信息来源激活了不同的脑区,口形视觉信息优先激活了上颞叶的中后部区域,而手语视觉信息则更多地激活了下颞叶的后部区域,且研究结果并不受实验材料语言级别的影响,这验证了口形对手语识别的影响,但关于口形如何对手语识别起作用、作用性质如何等仍有待探究[35]。关于不同类别视觉言语加工的认知神经机制的探讨将为听障人士,尤其是学语期听障儿童的双语教育与干预提供科学依据。

(一)唇读的信息加工机制研究

随着唇读对言语知觉的作用逐渐受到关注,许多研究者逐渐注重探究个体唇读差异的比较研究以及唇读的影响因素研究。对影响个体唇读能力的因素的相关研究发现,当仅呈现无声视觉刺激时,提取有意视觉信息的能力与多种感知因素、认知因素相关。感知因素包括语音编码能力[21-26]、语音编码速度[27]等,可独立对唇读精确度的提升起作用;认知因素包括空间工作记忆(spatial working memory)、语言加工速度(verbal processing speed)[28-29]、感知觉整合能力(perceptual synthesis)[30]等。尽管研究者们对唇读的影响因素进行了系列探究,已有研究并没有对可能的影响因素达成一致,仍不能判定到底哪些是视觉言语知觉的稳定影响因素。例如,有些研究发现智力(intelligence)[31]、语言推理能力(verbal reasoning abilities)[32]、词汇量(vocabulary)[33]、受教育水平(education level)[34]等并不是唇读能力的较好探测因素。由此看出,目前关于影响唇读因素的探究并不理想,这受每个研究中容纳变量的有限性所制约,还未曾有同时探测感知能力、工作记忆、加工速度等认知变量对唇读影响的综合研究。

据《2017年欧盟产业研发投入记分牌》[8]报告对全球研发投入排名前2 500家企业(占全球企业研发总投入90%以上)所做的调查,2016年,全球企业研发投入连续6年保持增长,总额达7 416亿欧元,同比增长5.8%,远高于其净销售额0.1%的增长幅度。

1. 跨通道信息整合机制研究

Campbell等人认为唇读作为视觉言语信息的重要获取途径,主要通过两种作用方式辅助言语知觉[9]。一种方式是相关作用(correlational),唇读者对来自视听双通道的言语信息进行整合,尽管此时视觉言语信息并不发挥主要作用,但视觉言语信息承载着视觉单通道所特有的时变特征(time-varying features),如言语起止(speech onsets and offsets)、节奏模式(rhythmical patterning)、持续时长(duration)、强度变化(intensity variations)等[10-11],在一定程度上可有效促进听者更加精准、稳定地解码信息。另一种方式是补偿作用(compensatory),即在听觉信息受损的情况下,视觉言语信息的即时呈现可以显著提升言语理解效果[12-13],因此言语感知的多通道特征可能会对提升听障儿童的言语知觉产生显著效果[14-16],尤其是植入人工耳蜗的听障儿童[17-18]。言语感知的双通道优化作用在一定程度上可归因于单通道语音信息的互补特性[19],但视觉信息对言语知觉的辅助功能并不能单纯归因于单通道信息的识别水平(unimodal intelligibility levels)[20-22]。视听言语感知过程具有超可加性(superadditive),即并不是单通道感知信息量的简单线性相加[23]。此外,部分研究者将视角投向考察影响视觉言语信息识别的视觉成分以及视觉言语信息的信息加工机制,发现唇读准确率在一定程度上受制于面部细节信息(fine-detailed facial information)的提取或利用程度[24],具体表现为对视觉信息的提取程度以及对口形的注视频率[25]。而对高清视觉信息的高利用率很可能来自于唇读者优秀的映射转化能力,即可以高效地将光学信号(optical signals)转换为视觉言语表征(visual speech representations)[24]。由此可推断出,当视觉信息获取效果不理想时,视听信息的言语知觉将会受到影响。

2. 影响唇读的认知因素研究

那天,何小勇任凭青瓷打骂,他求青瓷原谅他,他说,那时候他只有十八岁,他吓坏了,他不敢承认,然后他紧紧抱住青瓷,他发誓会用后半生所有的时间补偿她。

唇读的信息加工机制研究这一热点涉及的关键词包括visual attention(视觉注意,416次)、speech perception(言语知觉,379次)、working memory(工作记忆,263次)、age(年龄,197次)、audiovisual(视听通道,178次)、representation(表征,168次)、individual difference(个体差异,131次)、multisensory integration(多感觉整合,98次)、intelligibility(清晰度,96次)等。由此可知,当前关于唇读的信息加工机制研究主要集中于唇读的跨信息通道整合研究及影响唇读的认知因素探究等方面。

() 唇读的认知神经机制研究

唇读的认知神经机制研究这一热点涉及的关键词包括brain(大脑,283次)、cortex(皮质,279次)、fMRI(功能性磁共振成像,267次)、activation(激活,243次)、visual cortex(视觉皮层,212次)、event related potential(事件相关电位,182次)、plasticity(可塑性,154次)、cross modal plasticity(跨模块可塑性,93次)等。关于唇读的认知神经机制的研究主要集中于探究不同群体唇读的认知神经机制以及考察听障人士接收两种视觉语言(手语、唇读)的认知神经机制。

1.不同群体唇读的认知神经机制研究

目前有关唇读的神经生理学研究主要是通过脑功能成像(fMRI)、事件相关电位(ERP)等技术来探讨听障人士与健听人士唇读的认知神经机制。唇读过程中所激活的脑区大致为四个区域,即视觉中枢、运动中枢、听觉中枢和语言中枢[4]。除对唇读涉及的脑区进行研究外,研究者们尤为关注听障人士唇读的认知神经机制。Campbell等人持续对听障人士和健听人唇读不相关单词列表时所激活的脑区进行对比发现,健听人右额叶的激活程度高于听障人士,而背外侧前额叶区域的功能通常涉及运动与发音计划等功能,由此可以推测,当唇读不熟悉单词时,唇读者(尤其是健听人)更倾向于采用发音策略[35-36]。而不少研究发现,听障人士的上颞叶激活程度显著高于健听人[35,37],而上颞叶区(包括次级听觉联络皮层及Heschl氏回等)通常被认为是健听人加工听觉信息的主要区域,证实了听障被试的听觉皮层对视觉刺激的反应,听觉剥夺导致了皮层功能的跨通道重组,论证了信息传输接替模型(communication relay model)的合理性,即支持多感官刺激的皮下层接替联结区域的存在[38]。没有语言经验的语前致聋被试在完成无声唇读任务时,其颞叶中部和后部(可能包括初级听觉皮层)被激活,说明当听觉皮层不足以被听觉刺激激活时,反而能被无声唇读激活。基于此,越来越多的研究者开始质疑传统视觉阻断法的科学性,认为当上颞叶脑区被唇读激活后,将更助于提升个体接收多通道语音信息的适应性,对于语前致聋的人工耳蜗植入者来说,提升唇读能力将提升其对视觉言语信息的接收效率以及视听言语信息的整合能力[39]

2.人工耳蜗植入者的唇读效果研究

运行软件通过最小生成树算法进行聚类分析,最后得到由116个节点和514条连线的组成的关键词研究热点图谱。选择“Cluster”命令对唇读领域的关键词进行聚类分析,并通过进一步整合分析,将当前国际唇读领域的研究热点归纳为唇读的信息加工机制研究、认知神经机制研究、评估与作用效果研究、计算机唇读系统研究等四个热点领域。

(三)唇读的能力评估与作用效果研究

唇读的评估与作用效果研究这一热点涉及的关键词包括performance(表现,321次)、response(反应,170次)、measurement(测量,121次)、outcomes(结果,119次)、time(时间,98次)、speechreading ability(唇读能力,95次)、test(测试,93次)、hearing aid(听觉辅助,50次)等。关于唇读的评估研究主要集中于唇读评估工具的研发以及利用评估工具对听障儿童的唇读能力进行评估等方面;关于唇读作用效果的研究主要集中于考察人工耳蜗植入者的唇读能力,以期对其语言康复训练与干预提供参考。

1. 唇读能力的评估研究

唇读能力的功能性评估无论对教育科研还是康复干预目标的制定都具有重要意义。目前唇读能力的评估工具数量有限且仍不完善[2],听障人士,尤其是听障儿童,对唇读能力的规范化测评有着紧迫的需求。Ijsseldijk将唇读测试总结为“对听障教育的评估及计划的制定有着重要价值,是听觉康复辅助干预效果评估的必备环节,并且通过测量,对影响唇读能力的诸多因素进行更深入的考察”[42]。LACHI(Lipreading Assessment for Children with Hearing Impairment,听障儿童唇读评估工具)的研发者Woodhouse认为,为了满足听障儿童唇读康复训练或教育研究的需要,一套有效的唇读评估工具需满足以下标准:1)适用于广泛年龄阶段的儿童(3~14岁);2)能够测量对象在不同语言级别上的唇读能力,如单字、词组、对话等;3)简便易行;4)保证工具的信度、效度;5)适用于大多数儿童,且避免练习效应;6)适用于本国语言体系;7)能够被所有从事听障或其他语言障碍儿童教育的人员使用;8)能够广泛应用于健听儿童与普通儿童[43]。目前国际唇读研究中使用较多的4套唇读测试工具(见表3)为CLI(the Craig Lipreading Inventory,克雷格唇读测试册)[44]、LACHI[43]、ToCS (the Test of Child Speechreading,儿童唇读能力测试)[45]以及Tye-Murray等人研发的唇读成套测试材料[46]。可见,目前关于英语的唇读能力评估工具的开发已逐步规范,但在所测试语言级别的全面性、适用对象的广泛性等方面仍待于进一步完善。

1.1 研究对象 选择2016年12月-2018年9月在本院自然分娩,在产后42d常规复查时,通过超声检查(经腹和阴超)发现盆底器官位置异常,然后进行产后盆底康复训练的产妇62例纳入研究。患者平均年龄(28.4±0.61)岁,孕次(1.4±0.31)次,产次(2.3±0.41)次,产后平均(105.2±21.54)d。选择同期非妊娠年轻女性45例作为对照组,平均年龄 (24.1±0.76)岁,有性生活史,未孕未育。

 

3 唇读能力评估工具简介

  

工具名称研发者年份测试语言级别测试形式适用对象评价LipreadingBattery(唇读成套测试,包含CAVET、Tri-BAS、IST、theGistTest四项子测试)NancyTye-Murray,San-draHale,MitchellS.Sommers等2014字母、单词、词组、句子1)机测:3种通道测试(无声唇读测试、听觉通道测试、视听双通道唇读测试)2)封闭式非言语图片指认反应范式,结合开放式报告单词、复述测试7~15岁1)经多次实验检验,信效度良好,考察语言级别较全面2)实验程序较复杂,对主试要求高theTestofChildSpeechreading(ToCS,儿童唇读能力测试)FionaE.Kyle,RuthCampell等2013单词、句子及短篇1)机测:播放无声唇读视频2)非言语图片指认反应范式,并参照主试的主观评定5~14岁1)有效的唇读评估工具2)题量适中,易于操作LipreadingAssessmentforChildrenwithHearingImpairment(LACHI,听障儿童唇读评估工具)LynnWood-house,LouiseHickson,Bar-baraDodd2007单词、短语、句子、对话1)人测:现场口形演示2)封闭式非言语图片指认反应范式,结合开放式复述、对话测试4~15岁1)评估语言级别较全面,具有较高信效度2)题目较多,程序较复杂,测试时间长,被试易疲劳,对主试要求高theCraigLipreadingInventory(CLI,克雷格唇读测试册)Craig,Wil-liamN1964单词、句子1)机测:播放无声唇读视频2)非言语图片指认反应范式3~8岁1)经过多次修订,信效度良好2)测试题目少,考察的语言级别较少

2.不同视觉言语加工的认知神经机制研究

如今,世界顶级湾区都开始具有各自鲜明的产业特征。比如:东京湾区定位“产业湾区”、旧金山湾区定位“科技湾区”、纽约湾区定位“金融湾区”等。

人工耳蜗的植入实现了将听觉损失时发展的视觉唇读能力与人工耳蜗植入后获得的听觉经验进行整合,即将嘈杂的听觉信息与唇读提供的辅助视觉信息进行整合。不少研究者专注于探究人工耳蜗植入者的唇读效果,以期为人工耳蜗植入者的术后功能康复提供借鉴。研究发现语后致聋的成年人工耳蜗植入者与同龄健听人在视觉单一信息通道下唇读识别语音的能力相同[17]。然而,在视听条件下人工耳蜗植入者的唇读语音识别正确率显著高于听觉单一通道,表明视觉信息在视听信息整合中发挥着不容忽视的作用;而其在视听条件下的唇读语音识别正确率显著高于视觉单一通道,表明人工耳蜗植入者有能力整合来自视觉、听觉的多通道言语信息[47]。由此可见,人工耳蜗植入者的言语感知存在双通道优化作用,在视听条件下的视听信息跨通道整合将有效加强语音清晰度,从而提升言语感知的效果。此外,有研究者沿用McGurk效应的经典实验范式,探究人工耳蜗植入者视听信息言语整合机制[48],研究发现,健听人言语知觉的主要感觉通道为听觉,但整合视听多通道信息是其言语知觉的必要过程;而当视听言语信息不一致时,人工耳蜗植入者更依赖视觉通道信息。有研究表示,人工耳蜗植入者在耳蜗植入后,尽管会接受有计划的听觉功能康复训练,其耳蜗植入前习得的唇读技能仍会得到保存,这表明视觉言语信息对人工耳蜗植入者的言语知觉发挥着相对独立的作用。法国卢图兹大学的唇读研究团队对人工耳蜗植入者的唇读能力及效果进行了长期跟踪研究后,提出恰当的语言康复训练策略一定要注重通过唇读来进行视觉言语功能或视听整合能力训练[49]。以上研究结果对当前人工耳蜗植入者语言康复训练中存在的片面强调听觉功能康复训练的现状进行了批判,然而对于在人工耳蜗植入者的语言康复训练与干预中如何协调听觉训练与唇读训练的比例,在何时进行视听整合训练的干预效果最佳等问题还有待进一步探究。

(四)计算机唇读系统研究

唇读的计算机科学研究这一热点涉及的关键词包括recognition(识别,333次)、lip movement(唇动,121次)、lip contour(唇形轮廓,99次)、boundary feature (边缘特征,76次)、location(定位,46次)、feature extraction(特征抽取,38次)等。近年来,唇读作为语音识别的辅助手段引起了越来越多研究人员的关注,并成为人机交互领域的研究热点。目前国际唇读研究主要集中于唇部定位及跟踪、唇动特征提取、唇读识别方法、多通道言语信息融合等方面。

唇读定位及跟踪是计算机唇读系统的首要环节,其准确与否将直接关系到唇动特征的有效提取,随着人脸跟踪技术的日渐成熟[50],计算机系统将逐渐实现在无任何交互和限制条件下,能够自动地将不同光照、不同皮肤颜色、不同说话者的准确定位、跟踪、识别和理解。唇动特征是唇读识别的基本依据,目前用于唇读特征提取的方法主要可分为基于模型的方法、基于图像的方法等,前者是指对发音时可见的唇部轮廓建立参数模型[51],而后者主要是指直接利用包含嘴的灰度级图像或直接提取经过若干预处理后得到的特征向量[52]。早期的唇读识别只能对单因素或孤立词进行识别,当前的唇读识别方法已经可以进行连续语音的识别,方法主要有基于隐马尔可夫模型(HMM)的方法[53]、基于人工神经网络的方法以及混合方法等。多通道言语信息融合研究即如何将唇读和语音进行高效融合以提升系统的整体识别率,Stork等人认为唇读通道与语音通道有3种融合方式,分别为早融合、晚融合、中融合。有研究者对计算机唇读研究进展进行总结,认为当前针对特定人、孤立词、小词汇量的唇读系统已能达到比较好的识别效果,正在向提高非特定人、连续语音、大词汇量唇读系统识别率的目标努力,并认为提高唇读定位、跟踪的鲁棒性,探索更有效的唇动描述特征,研究更为合理的唇读和语音融合策略,提升计算机的智能语言理解能力将是未来唇读研究进一步深化的切入点[54]

四、结论与启示

从时间分布来看,国际唇读研究始于1946年,自1991年后,唇读研究进度明显提升,当前国际唇读研究正处于快速增长阶段,发展势头迅猛。从空间分布来看,听力学领域期刊、心理学领域期刊等成为国际唇读研究的主要载文平台;认知神经科学以最高的发文量成为最主要的文献来源学科,但心理学成为影响唇读研究最大的学科,且国际唇读研究日益注重多元学科及交叉学科的参与;唇读研究的核心作者群已基本形成,但合作程度较低。从研究热点来看,当前国际唇读的研究热点主要集中在唇读的认知加工机制研究、唇读的认知神经机制研究、唇读的评估与作用效果研究以及计算机唇读系统研究等方面,未来唇读研究将向精细化、纵深化发展,并日益关注唇读研究的实践干预效果研究。

对国际唇读研究热点的分析对我国学者有效开展唇读研究具有一定的借鉴意义。

第一,国际唇读研究已呈快速增长趋势。我国学者须加大对唇读研究的关注力度,丰富符合我国听障儿童语言发展特征的唇读理论与实践研究。

第二,国际唇读研究日益呈现多学科合作的发展趋势。我国唇读研究现多局限于心理学、特殊教育学、计算机科学等学科且缺乏多学科间的交叉合作,未来我国唇读研究需加大相关学科的合作力度并吸引认知神经科学等学科的加入。

第三,国际唇读研究领域呈现多元化、纵深化的发展趋势。因此我国在唇读的认知加工机制领域应关注唇读作为视觉言语信息的跨通道信息整合机制研究,并综合探究影响我国听障儿童唇读能力的深层认知因素;在唇读的认知神经机制研究方面,深入探测听障儿童唇读的认知神经机制,为开展唇读干预训练与实践提供生理学依据;在唇读的能力评估与作用效果研究方面,尽快研发听障儿童唇读汉语能力的有效评估工具,为听障儿童的语言康复与训练提供支持;在计算机唇读系统研究方面,应探索高效的唇读描述特征研究,提升唇读系统对高级别语言的识别效果研究,深化计算机的智能语言理解能力研究。

参考文献

[1] 雷江华,崔婷,张晶,等.镜前自我模仿策略在听障儿童双语唇读元音识别中的作用[J]. 中国特殊教育, 2014,(4): 36-40.

[2] 朴永馨. 特殊教育辞典 [M]. 3版.北京: 华夏出版社, 2015:227.

[3] 汪斯斯,雷江华. 唇读大脑机制的功能性核磁共振研究[J]. 中国特殊教育, 2010,(7): 39-43.

[4] 王晓平,郝玉峰,付德刚,等. 计算机唇读研究进展[J]. 数据采集与处理, 2007,(3): 353-359.

[5] 徐诚. 唇读研究回顾:从聋人到正常人[J]. 华东师范大学学报(教育科学版), 2013,(1): 56-61.

[6] CHEN C. Cite Space Ⅱ: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology, 2006, 57(3): 359-377.

[7] PRICE D J D S. Citation indexing[J].Journal of Histochemistry and Cytochemistry, 1967, 15(5): 299.

[8] 邓蓓,宋艳辉,冯莲,等.国内引文分析领域研究状况的可视化分析——基于论文数量、作者、主题词的知识图谱分析[J]. 情报杂志, 2011,30(6): 91-97.

[9] CAMPBELL R. The processing of audio-visual speech: empirical and neural bases[J]. Philosophical Transactions of the Royal Society B-biological Sciences, 2008, 363(1493): 1001-1010.

[10] SANCHEZ K, MILLER R M, Rosenblum L D. Visual Influences on Alignment to Voice Onset Time[J]. Journal of Speech Language and Hearing Research, 2010, 53(2): 262-272.

[11] STUDDERN-KENNEDY M. Feature fitting: A comment on K. N. Stevens "On the quantal natural of speech"[J].Journal of Phoetics, 1989,(17): 135-144.

[12] ROSENBLUM L D, JOHNSON J A, SALDANA H M. Point-light facial displays enhance comprehension of speech in noise[J]. Journal of Speech and Hearing Research, 1996, 39(6): 1159-1170.

[13] SUMBY W H,POLLACK I. Visual contribution to speech intelligibility in noise[J].Journal of the Acoustical Society of America, 1954,(26): 212-215.

[14] BERGER K W. Visemes and homophenous words[J].Teacher of the Deaf, 1972,(70): 396-399.

[15] PAYTON K L, UCHANSKI R M, Braida L D. Intelligibility of conversational and clear speech in noise and reverberation for listeners with normal and impaired hearing[J].Journal of the Acoustical Society of America,1994,(95): 1582-1592.

[16] PICHENY M A, et al. Speaking clearly for the hard of hearingⅠ: Intelligibility defferences between clear and conversational speech[J].Journal of Speech and Hearing Research,1985,(28): 96-103.

[17] ROUGER J, et al. McGurk effects in cochlear-implanted deaf subjects[J].Brain Research,2008, 1188(1): 87-99.

[18] ROUGER J, et al. Evidence that cochlear-implanted deaf patients are better multisensory integrators[J].Proceedings of the National Aademy of Sciences of the United States of America, 2007,104(17): 7295-7300.

[19] BINNIE C, et al. Consonants, Auditory and Visual Contributions[J].Journal of Speech and Hearing Research,1974(17): 619-630.

[20] SMITH E G, BENNETTO L. Audiovisual speech integration and lipreading in autism[J].Journal of Child Psychology and Psychiatry, 2007, 48(8): 813-821.

[21] SOMMERS M S, et al. Auditory-visual speech perception and auditory-visual enhancement in normal-hearing younger and older adults[J].Ear and Hearing,2005,26(3): 263-275.

[22] TYE-MURRAY N, et al. Auditory-visual discourse comprehension by older and young adults in favorable and unfavorable conditions[J].International Journal of Audiology,2008, 47(2): S31-S37.

[23] FOXE J J,et al. Severe multisensory speech integration deficits in high-functioning school-aged children with autism spectrum disorder (ASD) and their resolution during early adolescence[J].Cerebral Cortex, 2013, 2(25): 298-312.

[24] WILSON A H, et al. Spatial Frequency Requirements and Gaze Strategy in Visual-Only and Audiovisual Speech Perception[J].Journal of Speech Language and Hearing Research,2016,59(4): 601-615.

[25] ALSIUS A,et al. High visual resolution matters in audiovisual speech perception, but only for some[J].Attention Perception & Psychophysics,2016,78(5): 1472-1487.

[26] BERNSTEIN L E,et al. Speech perception without hearing[J].Perception & Psychophysics, 2000, 62(2): 233-252.

[27] GAGNE J P,et al. Speed of processing phonological information presented visually and speechreading proficiency[J].Journal of the Academy of Rehabilitative Audiology, 2011(XLIV): 11-27.

[28] FELD J E, SOMMERS M S. Lipreading, Processing Speed, and Working Memory in Younger and Older Adults[J].Journal of Speech Language and Hearing Research, 2009, 52(6): 1555-1565.

[29] LIDESTAM B,et al. Speech-reading: Cognitive predictors and displayed emotion[J].Scandinavian Audiology, 1999(28): 211-217.

[30] WATSON C S, et al. Auditory and visual speech perception: Confirmation of a modality-independent source of individual differences in speech recognition[J].Journal of the Acoustical Society of America, 1996,100(21): 1153-1162.

[31] ELPHICK R. Issues in comparing the speechreading abilities of hearing-impaired and hearing 15 to 16 year-old pupils[J].British Journal of Educational Psychology, 1996, 66(3): 357-365.

[32] SUMMERFIELD Q. Lipreading and Audiovisual Speech-Perception[J].Philosophical Transactions of the Royal Society of London Series B-biological Sciences, 1992, 335(1273): 71-78.

[33] LYXELL B, RONNBERG J. The relationship between verbal-ability and sentence-based speechreading[J].Scandinavian Audiology, 1992,21(2): 67-72.

[34] DANCER J, et al. A cross-sectional investigation of speechreading in adults—effects of age, gender, practice, and education[J].Volta Review, 1994, 96(1): 31-40.

[35] CAMPBELL R, CAPEK C. Seeing speech and seeing sign: Insights from a fMRI study[J].International Journal of Audiology, 2008, 47(2): S3-S9.

[36] WATKINS K E,et al. Seeing and hearing speech excites the motor system involved in speech production[J].Neuropsychologia, 2003, 41(8): 989-994.

[37] SADATO N, et al. Cross-modal integration and plastic changes revealed by lip movement, random-dot motion and sign languages in the hearing and deaf[J].Cerebral Cortex, 2005, 15(8): 1113-1122.

[38] OLSON I R, et al. A comparison of bound and unbound audio-visual information processing in the human cerebral cortex[J].Cognition Brain Research, 2002, 14(1): 129-138.

[39] RHOADES E A, CHISHOLM T H. Global language progress with an auditory-verbal approach for children who are deaf or hard of hearing[J].Volta Review, 2001(102): 5-25.

[40] DERFELDT B S, et al. Signed and spoken language perception studied by positron emission tomography[J].Neurology,1997(49): 82-87.

[41] BOYES-BRAEM P, SUTTON-SPENCE R L.The hands are the head of the mouth: the mouth as articulator in sign language[M]. Hamburg: Signum Press, 2001:183.

[42] IJSSELDIJK F J. Speechreaing Tests for the Deaf[J].Journal of British Association of Teachers of the Deaf,1988, 12(1): 3-15.

[43] WOODHOUSE L M. Lipreading skills in children with hearing impairment[D]. University of Queensland, 2007:259.

[44] CRAIG W N. Effects of preschool traing on the development of reading and lipreading skills of deaf children[J].American Annals of the Deaf,1964,109(3): 280-296.

[45] KYLE F E,et al. Speechreading Development in Deaf and Hearing Children: Introducing the Test of Child Speechreading[J].Journal of Speech Language and Hearing Research, 2013, 56(2): 416-426.

[46]TYE-MURRAY N, et al. Lipreading in School-Age Children: The Roles of Age, Hearing Status, and Cognitive Ability[J].Journal of Speech Language and Hearing Research, 2014, 57(2): 556-565.[47] SCHWARTZ J L,et al. Seeing to hear better: evidence for early audio-visual interactions in speech identification[J].Cognition,2004, 93(2): B69-B78.

[48] STRELNIKOV K,et al. Role of speechreading in audiovisual interactions during the recovery of speech comprehension in deaf adults with cochlear implants[J].Scandinavian Journal of Psychology, 2009, 50(5): 437-444.

[49] STRELNIKOV K,et al. Effect of Audiovisual Training on Monaural Spatial Hearing in Horizontal Plane[J]. Plos One, 2011, 6:e183443.

[50] DAI Y, NAKANO Y. Face-texture model based on SGLD and its application in face detection in a color scene[J].Pattren Recognition, 1996, 29(6): 1007-1017.

[51] CHIOU G I, HWANG J N. Lipreading by using snakes, principal component analysis and hidden Markov models to recognize color motion video[J].Transactions on Image Processing, 1997, 6(8): 1192-1195.

[52] YUHAS B P,et al. Integration of acoustic and visual speech signals using neural nets[J].IEEE Communication Magazine, 1989: 65-71.

[53] PUVIARASAN N, PALANIVEL S. Lip reading of hearing impaired persons using HMM[J].Expert systems with applications, 2011, 38(4): 4477-4481.

[54] 王晓平,郝玉峰,付德刚,等. 计算机唇读研究进展[J]. 数据采集与处理, 2007(3): 353-359.

 
宫慧娜,雷江华,陈亮
《岭南师范学院学报》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号