更全的杂志信息网

蒙古文复杂文本布局引擎的标准符合性测试*

更新时间:2009-03-28

0 引言

蒙古文信息处理系统的标准符合性测试(Conf or mance Test f or Standar ds)主要为蒙古文信息处理产品、技术、服务或相关知识产权提供功能性、安全性、实用性方面的测试,这是一种标准化服务,将会广泛应用于蒙古文信息处理领域。蒙古文信息处理系统的标准符合性测试目前还处在起步阶段,但蒙古文复杂文本布局引擎(CTL Engine)的标准符合性测试依据已基本具备[1-4],在蒙古文复杂文本布局引擎的标准符合性测试系统的研究、设计、开发方面也取得了一定进展[5-6]。GB/T 29270.1—2012[4]是蒙古文信息处理系统在标准符合性测试方面的第一个国家标准,也是此项工作起步的标志。该标准的基础是国家标准《GB/T 26226—2010信息技术蒙古文变形显现字符集和控制字符使用规则》[2],并以此为基础阐述了蒙古文编码字符集的标准符合性测试原理和关键内容。其中,蒙古文复杂文本布局引擎的标准符合性测试是该标准中“屏幕显示”和“打印”等“输出形式”的基础。赵颖霞[5]首次公开蒙古文信息处理系统的标准符合性检测(测试)系统的设计开发工作及其进展,该研究将“蒙古文编码字符集标准符合性检测”视为蒙古文复杂文本布局引擎的标准符合性测试——“字符显示引擎检测”。之后,何正安等[6]公开了另一项蒙古文信息处理系统标准符合性测试系统的设计开发情况,明确指出正确输出蒙古文“涉及到字符引擎(蒙古文复杂文本布局引擎)与蒙古文字库”,并且“先确定字符引擎是否正确,然后使用已经通过检测的字符引擎来检测被测字型”。该研究认识到蒙古文复杂文本布局引擎及其蒙古文Open Type字库之间的关系及区别。由此可见,赵颖霞[5]和何正安等[6]对蒙古文复杂文本布局引擎的认识不一致,两个系统的实现细节也存在明显的差别。然而,这两个研究中涉及蒙古文复杂文本布局引擎的标准符合性测试要完成的目标一致,即最后要得出的结果是蒙古文的输出(显示、打印)是否正确。为了更好地说明问题,引用如下两个日常应用中的典型问题。

问题一:在 Windows 7/8系统的记事本中,当用户输入蒙古文词{182 A 1822 1834 1822 182D}时其词尾的辅音字母GA的字形()不正确。

假设一组训练样本集z1,z2,…,zL,zi=(i,bi)表示目标回波i,bi={0,1}为该目标回波是否异常的标记,1表示异常,0表示正常,L为训练样本集个数。

根据W6盖梁施工权重及风险值计算与排序,可算出其他作业分解项各风险因素的风险值与权重值,并进行排序,根据不同的风险等级制定不同的防范措施,为风险管理提供科学依据和工作指导.

问题二:在Windo ws 7/8/10系统的记事本中,当用户在蒙古文词(){182 1820 1837 180E 1820}中移动光标跨过蒙古文元音间隔符(MVS)时,发现光标出现原地踏步的“异常”现象。

依据赵颖霞[5]和何正安等[6]的研究,他们研发的两个系统应该都能够准确发现“问题一”,但不能回答其原因。而对于“问题二”两个系统应该都不能发现。这是因为Windows 7/8/10的复杂文本布局引擎Uniscribe及其蒙古文Open Type字库“合伙”欺骗了测试系统。

本课题组多年来在蒙古文复杂文本布局引擎及其Open Type字库的设计开发工作中,深入了解蒙古文复杂文本布局引擎及其Open Type字库设计开发及运行原理(图1),以及基于专用蒙古文Open-Type字库的简单实验,可以准确理解上述两个问题及其发生原因。“问题一”出现在 Windows 7/8/10中的蒙古文Open Type字库“Mongolian Baiti”中,即该Open Type字库在蒙古文词的阴阳性处理方面存在缺陷,而“问题二”出现在 Windows 7/8/10系统的复杂文本布局引擎(Uniscribe)中,即对蒙古文元音间隔符(MVS)处理存在缺陷。关于复杂文本布局引擎Uniscribe和Harf Buzz及其蒙古文Open-Type字库设计开发,可参阅文献[7-8]。

  

图1 蒙古文复杂文本布局引擎及其Open Type字库Fig.1 The Mongolian co mplex text layout engine and its Open Type fonts

1 测试点及测试样例

1.1 测试点定义

除了须涵盖蒙古文字符集[4]以外,在蒙古文编码国家标准中需要测试的概念、控制字符、复杂文本布局特征较多,有些是蒙古文独有的,有些是同其他文种公用的。这些概念、控制字符、复杂文本布局特征中有些是属于复杂文本布局引擎需要处理的,针对蒙古文复杂文本布局引擎,对需要测试的内容进行定义,并将这些内容称之为“测试点”。

从表1可以看出五个译本的标准类符/形符比存在一定的差异。蓝译本最高,这说明她的译文词汇变化性最大,用词最丰富,其次是斯译本和杨译本,第四是莱译本,王译本的标准类符/形符比最小,说明王译本的用词最不丰富,缺乏变化。另一方面,五个译文的形符告诉我们莱译本的译文最长,蓝译本的译文最短,蓝译本最接近原文的形符数。因此,蓝译本用词丰富且译文的长度接近原文。莱译本的长度是杨译本1.48倍,蓝译本的1.57倍,说明莱译本的译文将原文中的一些隐性表达进行了显化处理,显化现象明显。

蒙古文的词内位置替换、上下文的替换、(强制和非强制)合体字非常多且直接关系到蒙古文正字法理论、规则和实践方面的内容,不具备蒙古文正字法基础知识则不易理解。其中,传统蒙古文可参考文献[9],托忒文可参考文献[10],锡伯文可参考文献[11],满文可参考文献[12]。

将车组与车次按顺序进行匹配。首先根据步骤(2)与步骤(3)对车组号及车次进行排序,然后按照排名先后进行匹配。尽量安排日均走行里程小的车组去担任里程数大的车次,但由于股道约束、车组停放位置等因素的影响,车组与车次往往无法实现最佳匹配。

蒙古文复杂文本布局引擎的测试点定义如下:

A.词内位置替换(Position)

蒙古文字母在词内位置的替换(变形)有独立(Isolate)、词首(Initial)、词中(Medial)和词尾(Final)等4个复杂文本布局特征。

B.上下文替换(Context)

蒙古文字符基于上下文的替换非常丰富。例如:辅音NA(U+1828)的第一词中形在元音字母前被替换为其第二词中形;依据蒙古文词的阴阳性分析结果正确替换音节末辅音GA(182D)的字形等等。

C.(强制、非强制)合体字(Ligature)

蒙古文多个字母拼写时,字母字形融合在一起不易切分的合体字,其中圆头辅音和元音的组合是最典型的(强制)合体字。

肯尼迪是战后民主党总统中信奉凯恩斯主义的,而约翰逊采取的也是刺激有效需求的政策。1961年,入主白宫的肯尼迪总统将“向贫困开战”作为自己的执政目标,他的继任者约翰逊继续进行改革,提出美国要建立一个有“舒适住房、优质保健、充分就业、良好教育和充分满足人民物质生活和心理需要”的“伟大社会”。在“伟大社会”计划开展后,1950-1970年间全国就业者中社会保障的收益面约从65%扩大到70%[4]359,针对单亲家庭,肯尼迪政府扩大了“家庭援助计划”的覆盖范围,然而因为政策的倾斜,性别、种族歧视的情况仍然存在,同时,由于政策的不完善性,这个时期的政府财政开支变得非常庞大。

D.(未定义)

用于传统蒙古文词尾的分写元音字母A/E与其前面的辅音字母之间。蒙古文元音间隔符不仅是个控制字符,同时也是个空格[1,13-14],然而在蒙古文编码国家标准中未明确定义其空格特性[2-3]

E.蒙古文元音间隔符(Mongolian Vowel Separator,MVS)

F.蒙古文自由变体选择符(Free Variant Selector,FVSn)

用于区别在同一条件下出现的同一个字母的不同自由变体,蒙古文编码国家标准中定义了3个,即FVS1、FVS2、FVS3,本文将其统称为FVSn。

K.非蒙古文字符和NNBSP的组合

G.窄宽无间断空格(Narrow No-Break Space,NNBSP)

一些离退休党员思想松懈,认为自己在职在岗时为革命、为工作兢兢业业,无私奉献是应该的,到了离退休以后,就认为自己什么都退了,不用接受思想政治教育了。思想出现老化,对在国家发展过程中出现的政治、经济和社会问题不能以发展的眼光、包容的心态去面对,对社会分配不公、党内腐败等不良现象应对消极,对党的活动和地方建设不关心、不热情、不参与,有的甚至对党和政府的领导产生悲观、怀疑的态度。

用于蒙古文词干与其分写词缀之间,在蒙古文中应用非常频繁。

H.零宽连接符(Zero Width Joiner,ZWJ)

用于其相邻的蒙古文字符,以连写的显现形式显现。

近年来,我国护理人员需求旺盛,高职护理教育取得了很大发展。生物化学是护理专业的必修基础课。目前,我国高职护理生物化学教学采取以教师为中心、以理论学习为主要途径、以考试成绩为目标的教学模式。这种模式既扼杀了学生学习积极性,也造成职业教育与学生未来职业的脱节[1]。因此,如何使护理专业学生灵活掌握生物化学知识,成了摆在教师面前的最大难题。生物化学是护理专业的重要基础课程,该课程内容抽象,晦涩难懂。我们针对临床护理岗位需求,对教学内容、教学方法和实验教学等各方面进行改革,以期培养出高素质护理应用型人才,适应时代发展需要。

I.零宽禁连符(Zero Width Non-Joiner,ZWNJ)

用于强行断开相邻两个蒙古文字符的正常连写。

针对上一节中定义的“测试点”设计一份测试样例(图2),经过多年的实际应用和不断修改调整,该测试实例目前已非常成熟。该测试样例不仅涵盖所有测试点,且文本量很少,已非常适用于复杂文本布局引擎的标准符合性测试及其分析工作。

该测试点是针对某些软件系统中蒙古文字母后面“FVSn和ZWJ的组合”出现时发生的问题定义的。

魔刀松开捏了一把汗的手长出了一口气。“常兄轻松了许多。”魔刀听到大幻剑的传音点头道:“我非自贬,一旦出手无论是天问还是我都会倾力而为,可三少既然首肯,该是想借此将天问大师和紫阳道长收之麾下,而不是一场非死即伤的豪赌。”

该测试点是针对某些软件系统中,蒙古文分写词缀前面的“非蒙古文字符和NNBSP的组合”对分写词缀的影响定义的。其中,非蒙古文字符是指非18XX编码区字符,包括“N.引用标点符号”的内容。

L.(未定义)

M.自有标点符号

指蒙古文编码国家标准中18XX编码区的标点符号[2],例如传统蒙古文省略号(1801)、逗号(1802)、句号(1803)等。

N.引用标点符号

指蒙古文编码国家标准中非18XX编码区的标点符号[2],例如:问号(FE15)、叹号(FE16)、括弧(FE35、FE36)、书名号(FE3D、FE3E)等。

在上面的定义中,约定每个测试点的大写拉丁字母序号是固定不变的,并在蒙古文复杂文本布局引擎的标准符合性测试和分析中使用这些序号。

1.2 测试实例

J.FVSn和Z WJ的组合

  

图2 蒙古文复杂文本布局引擎测试实例Fig.2 Testing sample of the Mongolian CTL Engine

图2的“测试实例”中只标注了“测试点”的“拉丁字母序号”,且只在少数可检查的蒙古文单词及其位置上标注了具有代表性的测试点,没有一一列举所有测试点。图2中也未标注测试点A、B、C等,这是因为了解蒙古文及其编码系统的人均能识别这些测试点并准确判断其正确与否,而且其出现次数相对较多。

2 测试实践

近几年,实际工作中一直在使用本文提出的蒙古文复杂文本布局引擎的标准符合性测试方案。采用该方案对Uniscribe、Harf Buzz等复杂文本布局引擎进行标准符合性测试,获得了良好的效果。

参考文献:

2.1 Uniscribe

为了测试在蒙古文中应用广泛的Uniscribe,选择Windows 7/8/10操作系统的记事本、IE浏览器和Micr osoft Office 2007/2010/2013等具体的软件系统。

记事本中对测试点E的处理上存在缺陷,未能体现其“空格”特性。用户可以通过记事本右键菜单中的“显示Unicode控制字符(S)”功能实现其可视特性,也可以通过蒙古文Open Type字库中的技巧来支持其空格特性。

IE浏览器中,除了对测试点E的处理存在与记事本一样的缺陷,对测试点K和N的处理也存在问题,这个正在严重影响蒙古文编码国家标准在IE浏览器中的应用。

Microsoft Office中,除了对测试点E、N的处理存在与IE浏览器一样的缺陷,该系统中的用户编辑操作总是莫名其妙地影响蒙古文的正确输出(显示、打印)。这些问题导致普通用户对 Microsoft Office又爱又恨的现状。

2.2 Harf Buzz

本研究以Chro me浏览器作为Harf Buzz复杂文本布局引擎的代表进行标准符合性测试和分析。表1展示了3年内Chro me浏览器主要版本的测试和分析结果。其中,字母E、F、G、H表示Chr o me浏览器对这些测试点的处理存在缺陷。需要注意的是,对测试点E的处理总是存在缺陷。

 

表1 Chrome浏览器的测试Table 1 Testing of Chr ome browser

  

注:NT 5.X是指内核为NT 5的系列Windows操作系统;NT 6.X是指内核为NT 6的系列Windows操作系统;ㄨ表示依赖操作系统表示未测试或测试数据遗失Note:NT 5.Xindicates that the Windows OScore is NT 5;NT 6.Xindicates that the Windows OScore is NT 6;ㄨindicates depending on the operating system;indicates a later or missing test data;Higer indicates a later version of Chro me

 

Chro me版本Chrome version Operating System OS NT 5.X NT 6.X Linux Android Mac OS X i OS 27ㄨㄨEFGH ㄨㄨEFGHㄨㄨ32 ㄨE EFGH EFGHㄨㄨ33 EFGH EFGH FGH EFGHㄨㄨ34~37 EF EF EF EF ㄨ ㄨ38 E E E Eㄨㄨ更高Higer E E E E 28 ㄨㄨEFGH EFGHㄨㄨ29~30 ㄨ E EFGH EFGH ㄨ ㄨ31ㄨE ㄨㄨ

在NT 5.X系列Windows操作系统中,Chro me浏览器从33版本开始引入了独立的复杂文本布局引擎,而在NT 6.X系列Windows操作系统中,Chr o me浏览器从29版本开始引入了独立的复杂文本布局引擎,即开源项目Harf Buzz,从而对蒙古文的处理不依赖操作系统的复杂文本布局引擎。在Linux桌面操作系统和Android操作系统中,Chr o me浏览器27及更高版本中一直在应用独立的复杂文本布局引擎,所以对蒙古文的处理不依赖操作系统的复杂文本布局引擎。然而,测试发现Chro me浏览器在Mac OS X和i OS操作系统中处理方式与其它操作系统中的处理方式不一致,也未查阅到准确的官方信息,估计须应用AAT字体技术。

3 结束语

为突出重点,在这里只讨论最新Uniscribe和Harf Buzz的共性问题,即测试点E的处理缺陷。这也是已有的标准符合性测试系统不容易发现的问题。进一步对蒙古文元音间隔符(MVS)出现的这一问题及其根源进行比较广泛的研究和分析,发现蒙古文元音间隔符(MVS)在“Unicode Character Database(UCD)[14]”中的“General Category”和“Bidirectional Class”两个属性值(Pr operty Val ue)存在问题。

 

从属性的对比中可以发现,MVS的“General Categor y”和“Bidirectional Class”属性值分别为Cf和BN,而NNBSP对应的属性值为Zs和CS。可以理解为MVS是纯粹的控制符,且无“空格”特征,所以Uniscribe和Harf Buzz等复杂文本布局引擎未能正确处理MVS。实际上,MVS和NNBSP拥有非常相似的字符特征[14]

此外,本文未对苹果系统(Mac OS X和i OS)的复杂文本布局引擎及其AAT字库的设计开发进行研究,这是我们目前正在进行的重点工作之一。

七月初七,山间黄昏,一路夜气初发,草木生香,萤火点点,照亮蚊柱飞旋,蚊雷嗡嗡。袁安与李离跟在她身后,两个少年已经将花间游内功练到了第五重,周身经脉通畅,气息流转,就是蚊蚋的细足蹬踏上来,也会被真气反弹,趔趄一滑,扫兴而去。

Windows 7/8/10操作系统、微软Office 2007/2010/2013/2016办公软件和IE浏览器共享复杂文本布局引擎 Uniscribe。其中,微软 Office 2007/2010/2013/2016自带复杂文本布局引擎,而IE浏览器则依赖操作系统的复杂文本布局引擎。此外,据了解,最新的Linux、Android操作系统和Chro me、Firef ox、Opera等主流浏览器都应用复杂文本布局引擎Harf Buzz。开源项目Chro miu m及其衍生浏览器在Mac OS X和i OS系统中依赖操作系统的复杂文本布局引擎,Chro me浏览器29以下的版本在Windows、Andr oid系统中也依赖操作系统的复杂文本布局引擎。

[1] 确精扎布.蒙古文编码[M].呼和浩特:内蒙古大学出版社,2000.CHOIJINGJAB.Mongolian encoding[M].Hohhot:Inner Mongolia University Press,2000.

语文学科是小学阶段的基础学科,也是重要学科。语文课程的学习不仅是帮助学生学习文字知识,更是要整体提高学生的文化素养。可是在教学中,教师往往忽略了对学科素养的培养,以致学生不能有效培养自身的综合能力。因此为了使学生不仅能够熟练地应用语言文字和提高学科素养,笔者将针对小学的语文核心素养以及语言文字的运用进行详细分析,希望为以后的语文教育事业作出一定的贡献。

中央电视台、山西电视台、运城电视台等多家新闻媒体都对闻喜花馍专题报道,《人民日报》海外版用整版篇幅对其进行了详细的介绍。闻喜当地的机关、团体、企业单位更是将闻喜花馍作为文化礼品对外赠送。

[2] 确精扎布,陈壮,何正安,等.信息技术 蒙古文变形显现字符集和控制字符使用规则:GB/T 26226—2010[S].北京:中国标准出版社,2011.CHOIJINGJAB,CHEN Z,HE Z A,et al.Infor mation technology—Mongolian presentation f or ms character set and use r ules of controlling character:GB/T 26226—2010[S].Beijing:China Standard Press,2011.

[3] 确精扎布,何正安,达胡白乙拉,等.信息技术 传统蒙古文名义字符、变形显现字符和控制字符使用规则:GB 25914—2010[S].北京:中国标准出版社,2011.CHOIJINGJAB,HE Z A,DAHUBAIYILA,et al.Infor mation technology—Traditional Mongolian no minal characters,presentation characters and use rules of controlling characters:GB 25914—2010[S].Beijing:China Standar d Press,2011.

[4] 王欣,何正安,达胡白乙拉,等.信息技术 编码字符集测试规范 第1部分:蒙古文:GB/T 29270.1—2012[S].北京:中国标准出版社,2012.WANG X,HE Z A,DAHUBAIYILA,et al.Inf or mation technology—Specification for t he testing of coded character sets—Part 1:Mongolian:GB/T 29270.1—2012[S].Beijing:China Standar d Press,2012.

[5] 赵颖霞.蒙古文信息处理产品标准符合性检测系统的设计与实现[D].呼和浩特:内蒙古大学,2013.ZHAO Y X.The design and i mplementation of Mongolian infor mation processing pr oducts standards co mpliance testing system[D].Hohhot:Inner Mongolia U-niversity,2013.

在新医改形势下,对于公立医院的经济发展造成了一定的冲击,传统的公立医院经济发展模式已经满足不了新时期环境的要求,这就需要公立医院充分认识到目前经济发展中的现状,客观分析其经济发展面临的机遇与挑战,进而采取有效的措施来促进其经济更好的发展,这也是公立医院经济发展中需要重视的内容。

[6] 何正安,王欣,陈海.蒙古文软件标准符合性检测的研究与设计[J].信息技术与标准化,2015(1/2):47-49,53.HE Z A,WANG X,CHEN H.Research and design of standar d conf or mance test of Mongolian soft ware[J].Infor mation Technology&Standardization,2015(1/2):47-49,53.

[7] Micr osoft.Typography[EB/OL].[2017-10-11].http://www.microsoft.co m/Typography.

[8] Freedesktop.org.Harf Buzz[EB/OL].[2017-10-11].http://www.freedesktop.org/wiki/Soft ware/Harf-Buzz/.

[9] 确精扎布.传统蒙古文名义字符到变形显现字符的转换规则:第九稿[M]//确精扎布.确精扎布蒙古文信息处理专辑.呼和浩特:内蒙古教育出版社,2014:380-403.CHOIJINGJAB.The traditional Mongolian nominal characters to presentation character conversion r ules:9 edition[M]//CHOIJINGJAB.Choijingjab’s Mongolian infor mation processing albu m.Hohhot:Inner Mongolia Education Press,2014:380-403.

[10] 确精扎布.托忒文名义字符到变形显现字符的转换规则:第五稿[M]//确精扎布.确精扎布蒙古文信息处理专辑.呼和浩特:内蒙古教育出版社,2014:404-416.CHOIJINGJAB.The Todo nominal characters to presentation character conversion r ules:5 edition[M]//CHOIJINGJAB.Choijingjab’s Mongolian inf or mation processing albu m.Hohhot:Inner Mongolia Education Press,2014:404-416.

[11] 确精扎布.锡伯文名义字符到变形显现字符的转换规则:第二稿[M].确精扎布.确精扎布蒙古文信息处理专辑.呼和浩特:内蒙古教育出版社,2014:417-426.CHOIJINGJAB.The Sibe no minal characters to presentation character conversion rules:2 edition[M]//CHOIJINGJAB.Choijingjab’s Mongolian infor mation processing albu m.Hohhot:Inner Mongolia Education Press,2014:417-426.

29 Time series analysis of per diem expense of inpatients with chronic kidney disease in a tertiary referral hospital in Shanghai

[12] 确精扎布.满文名义字符到变形显现字符的转换规则:第四稿[M]//确精扎布.确精扎布蒙古文信息处理专辑.呼和浩特:内蒙古教育出版社,2014:427-440.CHOIJINGJAB.The Manchu no minal characters to presentation character conversion rules:4 edition[M]//CHOIJINGJAB.Choijingjab’s Mongolian infor mation processing albu m.Hohhot:Inner Mongolia Education Press,2014:427-440.

[13] The Unicode Standard[S/OL].[2017-10-15].http://www.unicode.org/.

[14] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.信息技术 通用多八位编码字符集(UCS):GB 13000—2010[S].北京:中国标准出版社,2011.General Ad ministration of Quality Supervision Inspection and Quarantine of the People’s Republic of China,Standardization Ad ministration of the People’s Republic of China.Infor mation technology—Universal multiple-octet coded character set(UCS):GB 13000—2010[S].Beijing:China Standar d Press,2011.

 
呼斯勒,白双成,确精扎布
《广西科学院学报》 2018年第01期
《广西科学院学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号