更全的杂志信息网

基于规范字符集的多语种统一字符编码方案*

更新时间:2009-03-28

0 引言

传统蒙古文、托忒文、锡伯文和满文具有相似性,都是一个字母具有独立、词首、词中、词尾4类不同形态,且字母的每种形态具有零到多个规范的(通常认为是被列入字母表中的)字符形式。除此之外,一些字母在某些特定上下文情况下还有其他的形变字符形式,是世界上最为复杂黏着连写的字符系统。例如锡伯文元音u的字符有1种独立形式、1种词首形式、3种词中形式和5种词尾形式。

与单纯的句酷批改网反馈方式相比,学生对三稿式人机结合的写作教学模式的态度更加积极,他们认为后者反馈的准确性和清晰度显著高于前者(P=0.000),学生能更好地理解反馈信息并进行修改。此外,学生认为三稿式人机结合的写作教学模式能更全面关注到他们作文中的问题,包括篇章结构、写作内容的一致性与连贯性、词汇、语法、长句等,两种模式有显著差异(P=0.000)。由这两点可以看出,学生很认可三稿式人机结合的写作教学模式,因为它具体、全面,弥补了句酷批改网单一反馈模式的不足。至此,第三个假设得到验证。上文五篇作文的三稿成绩呈递增状与这一结论相一致。

蒙古文信息技术国家标准工作组发布的国家推荐标准GB/T 26226-2010[1]中给出的编码字符集是以传统蒙古文为基础,在一个字母的多个字符形式中择其一个,并指定一个计算机编码码位,这个字符被称为对应字母的名义字符。其他的几种文字则以托忒文、锡伯文、满文和阿礼噶礼字(蒙古文阿礼噶礼和满文阿礼噶礼本质上是蒙古文和满文为梵文注音而创制的注音符号,本身并非一种文字)的顺序依次认同或补充新的名义字符,也就是如果名义字符中已经存在本语种对应字母的名义字符,则认同该名义字符为本语种文字的名义字符,否则就补充一个新的名义字符。一个字母的多个字符形式,除了名义字符外,其他字符形式则以变形显现形式表示。

名义字符系统虽然减小了编码字符集的规模,却带来了诸多的其他问题,其中最典型的有以下3个:

螺栓:采用M22mm粗牙螺纹热镀锌高强螺栓,性能等级6.8,有出厂合格证和实验报告,其质量及性能指标应符合GB/T 3098.1—2010《紧固件机械性能螺栓、螺钉和螺柱》的相关规定。

(1)锡伯文和满文中有的字符与传统的蒙古文名义字符有相同的字符形式,却不能认同。例如:蒙古文元音i的名义字符为独立形式字符“”(编码为1822)。锡伯文和满文的元音字母i也有独立形式“”,并且i的词首、词中和词尾的形式也和蒙古文相同或相似,但没有认同蒙古文的这个名义字符,而是分别以锡伯文词中形式“”(编码为185E)和满文的词中形式“”(编码为1873)补充为名义字符。

这样的情况在GB/T 26226-2010[1]中还有很多。究其原因,是不同语种字符的拼写规律存在差异,用同一个名义字符,难以实现字符在不同上下文的各种变化,也就是存在名义字符在不同语种中变形显现的冲突问题。

规范字符集子集中字符的顺序就是一个字母的规范字符的顺序。这个顺序体现字符串比较时相同字母的不同字符之间的排序关系。这个问题已经有非常成熟的结论:一个字母的不同字符形式可以按以下任意一种方式排列:(1)独立形式,词尾形式,词首形式,词中形式。(2)独立形式,词首形式,词尾形式,词中形式。表1就是按照方式(1)排列的,对于不同文种,由于认同的原因,也不存在孰先孰后之分。

这套标准中使用的控制符有7个:GB/T 26226-2010[1]的名义字符表里有4个,即自由变形选择符1(FVS1:180B)、自由变形选择符2(FVS2:180C)、自由变形选择符3(FVS3:180D)和蒙古文元音间隔符(MVS:180E),此外还使用了窄无间断空格(NNBSP:202F)、零宽度连接符(ZWJ:200D)和零宽度禁连接符(Z WNJ:200C)。

本方案的变形显现形式与规范形式的差异并不十分明显。例如:(bu)的拼写中,b由规范字符形变为,又比如:(be)的拼写中,e由规范字符形变为。这样的形变是细微的,在字符之间插入空格时,形变字符还原为规范字符,并不会使人感到诧异和困惑。

 

表1 使用控制符典型示例[1]Table 1 Examples of using control characters[1]

  

的显现形式Presentation f or m of using使用的显现形式Presentation for m of not using字符序列Character sequences不使用字符序列Character sequences

举个简单的例子:

例1 人们在编辑文本时,无论是汉文还是其他语言的文字,经常会有这样的情况,就是为了某种目的,会用空格将单词中的每个字或者每个字母分开。例如:“中国国家标准”→ “中 国 国 家 标 准”,“Standard”→“St a n d a r d”。又比如,拼音文字在文化教育中经常会拆解组合,如图1所示。

综合考虑原始决策表的离散化过程与最终得到的极小决策算法,得到的按路径1离散化后故障分级的决策规则用自然语言可解释为:当评价指标a2的量化值处于86~93之间时,决策对象应划分为关键故障灰类;当评价指标a2的量化值处于70~85之间时,决策对象应划分为主要故障灰类;当评价指标a2的量化值不高于69时,决策对象应划分为次要故障灰类。

  

图1 锡伯文单词alin的拆解和组合Fig.1 The split and co mbination of the Sibe word alin

图2给出了4组单词直接插入空格后的拆解情况对比:第1组是人们预期的效果,后面3组是使用GB/T 26226-2010[1]标准的单词拆解情况。编号为2的是微软字体Mongolian Baiti,编号为3的是易文通字体SMBT1,编号为4的是蒙科立字体Menk Qagan Tig。

可以根据改良措施的不同将治理方法分为物理、化学、生物和综合改良,不同地区由于土壤盐碱化程度、性质不同,其具体适合的改良措施也不尽相同。

  

图2 4组单词插入空格后的效果比较Fig.2 A comparison of 4 word letters inserted into spaces

通常,可以将规范形式看做是一个文种字母表中所有的字符形式(事实上这些字母表往往是不完备的)。规范字符包括了字母的各种基本形式,这些基本形式都是常见的,并且字符形态对于同一个字母而言多数具有较为明显的差异,主要体现了字母在单词中不同位置时的差异性以及与不同上下文拼写时的差异性。例如锡伯文、满文的字母e,其规范字符如表2所示。

采用名义字符编码,不仅会出现插入空格这样的问题,在字符的查找、搜索、替换这样普通的文本操作上也会引起人们的困惑和疑虑。

位于巴黎蒙马特的Lesage刺绣坊,经过跨越世纪的甄选积淀,迄今已拥有超过60吨的收藏,流苏、水钻、饰带、珍珠、幻彩水晶以及精致宝石都在其中,当中包括自19世纪70年代保存至今的闪光水晶、20世纪的蛋面切割宝石、莱茵石、琉璃珠等。客户包括:Givenchy、Christian Dior、Scherrer、Calvin Klein、Oscar de la Renta、Christian Lacroix、Yves Saint Lauren 等。

(3)GB/T 26226-2010[1]中的名义字符集首先是以传统蒙古文的某种辞典序排列的,其他语种则以认同、补充的方式附加在其后面。对于传统蒙古文这是有序的,然而对于其他文种而言则是无序的。虽然国际标准中并不要求字符的有序性,但也并不排斥字符的有序序列。如果传统蒙古文、托忒文、锡伯文、满文和阿礼噶礼的字符都像拉丁字母的字符那样是一个统一的有序序列,那么对这些文种的信息处理和应用将极为有利。

二是转基因农产品。我国《农产品质量安全法》第二条规定,农产品指来源于农业的初级产品,即在农业活动中获得的植物、动物、微生物及其产品。而转基因农产品是指应用现代生物技术,导入特定的外源基因,所获得的具有特定性状的改良生物品种[1]。

鉴于上述问题,下面将给出一种针对传统蒙古文、托忒文、锡伯文和满文的、有序的、基于规范字符的多语种统一字符编码方案。

2.2 两组患者出院后发生不良反应情况 对照组患者出院1个月后大便出血1例,牙龈出血1例;3个月后大便出血2例,皮肤黏膜出血2例,下肢血栓栓塞2例;6个月后大便出血2例,牙龈出血2例,胃出血1例;下肢血栓栓塞2例。实验组出院6个月后牙龈出血1例。两组患者出院3、6个月发生不良反应情况比较差异有统计学意义(P<0.05)。

1 几个术语的定义

1.1 GB/T 26226-2010[1]的定义

名义形式(No minal For m),即名义字符。GB/T 26226-2010[1]中给出了其定义:蒙古文字母的主要形式。它适用于蒙古语的书面形式以及附加符号的表示、传输、交换、处理、存储、输入及显现。

变形显现形式(Presentation For m),即变体显现字符。GB/T 26226-2010[1]中给出了其定义:一个字母的各个显现形式为该字母的名义形式或其他图形字符区的字符序列在特定上下文中的使用提供可选形式,这种形式依赖于该字符相对于其他字符的位置。通常,显现形式不用于替换本编码字符集中规定图形字符的名义形式。

交通部门负责维修治理站认定,负责维护站联网监管;环境部门负责车辆排放性能检测监管,负责检验机构联网监管;公安部门要求排放不合格车辆禁行,并对其进行安全性能检测;质检部门负责对检测站和维修站设备等技术能力进行认定。

1.2 本方案的定义

变形显现形式(Presentation For m),即变体显现字符。变形显现形式是字母规范形式在某些特殊上下文条件下与对应规范字符相似且有一定形变的变形显现字符形式。

规范形式(Nor malized For m),即规范字符。规范形式是传统蒙古文、托忒文、锡伯文和满文等多个语种字母的基本表示形式。它包括字母的独立、词首、词中和词尾字符的基本形式。

郡有名山水,灵运素所爱好,出守既不得志,遂肆意游遨,遍历诸县,动逾旬朔,民间听讼,不复关怀。所至辄为诗咏,以致其意焉。[10](《谢灵运传》,P1753-1754)

1.3 关于定义的说明

后面3组字体出现这种情况的原因是字符采用的是名义字符编码,在单词中插入空格后,名义字符失去了变形的依据,则只能以名义字符默认的字符形式显示。这3种字体如果想要达到预期的效果,除了插入3个空格外,还必须分别插入6个控制符。

 

表2 锡伯文、满文字母e的8种规范字符表示形式Table 2 The eight nor malized character representation of Sibe and Manchu letter e

  

字母Letter独立形式Isolate f or m词首形式Initial f or m词中形式Medial f or m词尾形式Final f or m

表1就是GB/T 26226—2010[1]给出的使用控制符的典型示例。控制符的使用,不仅难以记忆、容易遗忘,更重要的是会给普通用户造成疑虑和困惑,尤其是以改变用户操作习惯为代价的。

2 基于规范字符的多语种统一字符编码方案的建立

2.1 基于语音、字形和功用相结合的认同方式

蒙古文、托忒文、锡伯文和满文都是纵向黏着连写的拼音文字,字母的字形和功用(或者说是所用字符的目的)也有相似性。因此,本方案的这几种文字的认同是以各文种规范字符的语音、字形和功用加以综合考虑的。例如:对于元音a,几种文字都存在相应的规范字符,可以将这几种文种a的规范字符整合在一起,如表3所示。

从表3可以看出,a字母的第1种独立形式、词尾形式、词首形式和第1种词中形式是4种文字共同认同的;a字母的第2种独立形式和第2种词中形式是传统蒙古文和托忒文共同认同的,第3种词中形式则只属于传统蒙古文。

用软件SPSS20.0对本次数据予以统计处理,用(%)显示计数资料,χ2检验;用P<0.05评估对比有无统计学差异。

2.2 多语种规范字符集的整合

表3给出了4个文种整合起来形成的一个字母a的各种字符形式的一个序列,这个序列就是字母a的多文种规范字符集。采用同样的方式,其他字母也可以形成各自字母的多文种规范字符集。所有字母的规范字符集按一定的顺序整合在一起,就形成了一个多文种规范字符集,每个字母的规范字符集则是整个多文种规范字符集的一个子集。

2.3 需要澄清的问题

通过上述方式形成的规范字符集,会产生多个字形相似甚至字形完全相同的规范字符。以锡伯文和满文为例,元音字母a的第一词中形式、元音字母e的第二词中形式和辅音字母n用于收音的词中形式字形完全相同,都以“”的形式出现。某些同行可能会认为这是不允许的。事实上,这几个字符虽然字形相同,但它们的语音不同,具有不同的目的和名称,在规范字符集中分布在不同的子集当中。

规范字符中的3个,同样用于不同的目的并具有不同的字符名称,分别作为规范字符集的成员并给予编码是没有问题的。类似地,规范字符中的2个、2个和其他的相似字符形式也是这种情况。

自由变体选择符(Free Variation Selector)。一种组合用字符,紧随于特定的名义字符之后,用来区分在同一条件下的同一个名义字符的不同变体。

国际标准ISO/IEC 10646—2014[2]中6.3.2节关于图形字符有这样一段描述:“相同的图形字符不能分配一个以上的码点。在本编码字符集中存在形状相似的图形字符,但他们用于不同的目的并具有不同的字符名称。”国际标准中又做了这样的举例:“本标准中规定的图形字符用它们的名称作为唯一的标识。这并不意味着这些图形符号成像的图形一定是不同的。图形字符相似的图形符号的例子有大写拉丁字母A,希腊大写字母阿尔法和西里尔大写字母A。”同样都是A,字形完全相同,但它们分别是不同语种的字母符号,他们用于不同的目的并具有不同的字符名称。因此,在国际标准中虽然字形相同,但他们分别有各自的编码。

同理,一个字母的多个不同形式,只要是用于不同的目的并具有不同的字符名称,也可以作为编码字符集的一个成员。比如拉丁字母的大写字母和小写字母都具有不同的字符编码;又比如位于FB50~FBFF码位区间的阿拉伯文包含了字母的独立、词首、词中、词尾不同的形变字符形式;又比如汉字“国”和“國”是同一个字的简体形式和繁体形式,虽然字义相同,但字形不同,使用的目的也不同,国际标准ISO/IEC 10646—2014[2]中分别指定 在 码 位56FD和570B上。因此,没有理由将蒙古文、托忒文、锡伯文和满文规范字符集中的,除名义字符外的其他字符排斥在编码字符集之外。

 

表3 蒙古文、托忒文、锡伯文和满文元音a的规范字符Table 3 The nor malized characters of Mongolian,Todo,Sibe and Manchu vowel a

  

项目Ite m 独立形式Isolate for m词中形式词尾形式Final for m词首形式Initial f or m Medial f or m编码顺序Coding sequence 12345678蒙古文Mongolian托忒文Todo锡伯文Sibe 满文Manchu

2.4 阿礼噶礼字的问题

蒙古文阿礼噶礼字和满文阿礼噶礼字是蒙古文和满文对梵文的注音符号[3-4]。梵文的语音比较丰富,大多数情况下传统蒙古文和满文都可以用已有的字符进行注音,但是,仍然有一些语音无法标注,因此传统蒙古文和满文针对这些语音又创制了一些新的注音符号,GB/T 26226—2010[1]中的阿礼噶礼就是这部分注音符号的名义字符。

这些阿礼噶礼字符除了针对特定的语音外,从字符形式而言,也有规范的独立、词首、词中、词尾的字符形式。因此,也可以采用上面所述的方式建立相应的规范字符集。

3 规范字符集的顺序和编码

3.1 规范字符集子集字符的顺序

(2)由于一个名义字符需要对应太多的变形显现字符,使名义字符与变形显现字符对应的逻辑关系变得非常复杂,产生了选择冲突,致使某些字母无法简单地以字母在单词中的位置自动来确定采用何种变形显现字符。为了解决这个问题,GB/T 26226-2010[1]不得不采用人工干预的方式,人为输入控制符来选择合适的字符形式。

3.2 规范字符集字母子集的顺序

字母子集的顺序体现的就是字母的顺序。目前,我国拼音文字(包括注音符号)的顺序有以下3种:(1)拉丁字母顺序(a,b,c,……),(2)汉语拼音注音符号顺序(b,p,m,f,……),(3)文字传统顺序(如蒙古文、满文按12字头中字母出现的顺序)。

许多学者出于传承传统文化的意愿,似乎更愿意采用传统顺序。但是,无论是蒙古文12字头或者满文12字头,都是以音节形式表现的,虽然多数字母有一定的顺序,仍然有不少字母没有给出确定的顺序,从而出现了不同顺序的传统排序方式。例如蒙古文辞典的顺序就有17种之多[5],满文辞书也有类似的情况。并且,由于语种的不同,元音辅音的数量不同,其传统顺序的排序习惯也不尽相同,因此,要形成一个多语种统一的顺序,传统顺序显然是不可取的。

整个实践活动包括四个阶段,分别是:M+C(强调创意的构思)阶段、M+D(强调创新的设计)阶段、M+I(强调创造的实施)阶段、M+O(强调分享的运行)阶段,各个阶段的活动内容见表1。整个过程体现了体验教育、快乐教育、基于项目的教育和创造中学等教育理念。

最初不少汉文典籍中采用的就是汉语拼音顺序或其他注音符号顺序。传统蒙古文、托忒文、锡伯文、满文多语种字母排序按汉语拼音顺序也并非不可。但是随着计算机技术的应用以及国际化趋势,现在的新版《新华字典》《汉语词典》等汉文字典词典也都采用了拉丁字母顺序排序。

因此,规范字符集字母子集的顺序按照拉丁字母的顺序排序应该是一个理想的选择。至于传统蒙古文、托忒文、锡伯文、满文以及阿礼噶礼字母中一些用英文的26个字母无法对应而采用其他扩充拉丁字母形式表示的,则需要国家相关机构组织相应的信息技术国家标准工作组以及有关专家共同协商解决。一旦这些拉丁字母形式确定之后,字母的顺序按拉丁字母以及扩充的拉丁字母的固有顺序排列即可。

3.3 规范字符集的编码

在规范字符集的基础上进行字符的编码,可以采用两种方式:

(1)按照规范字符集的字符给定的顺序编码。这需要相关组织和机构重新划定或扩充这几种文种的编码区间。如果是重新划定编码区间,就能充分发挥规范字符集的优势,如果仅是扩充编码区间,原来1800~18 AF码段的字符则需要重新规划,调整字符的顺序。

(2)原来1800~18AF码段的字符不做调整,只在新的编码区间指定规范字符集中补充的其他字符的码位。这种方式会降低编码字符集的使用效率,丧失在查询、搜索、排序方面的优势。

4 结束语

采用本研究方案的规范字符集,编码字符的数量有一定的增加。GB/T 26226—2010[1]中蒙古文、托忒文、锡伯文、满文和阿礼噶礼字的名义字符一共有123个(不包括数字和其他符号),而规范字符初步统计大约为360~370个,也就是说规范字符的数量仅比名义字符多不到250个。从数量上而言,似乎是个缺点,然而,这个数量的增加并不十分明显,带来的好处却是十分显著的。这一方案,使文字处理过程更加符合用户的一般使用习惯,在插入空格、查找、替换等操作上与拉丁文、中文的操作保持一致,不再令用户困惑和疑虑。其次,规范字符的使用使字符的形变逻辑变得简单,因此无论是锡伯文还是满文,都不再需要靠自由变体选择符来加以控制和改变,传统蒙古文和其他文字也会大大减少控制符的使用。采用规范字符,当然会使输入法的编程处理过程变得复杂得多,然而,这个难题面对的对象是软件编程人员,对于普通用户而言,则是文本处理过程更为简单方便。另外,如果能按照前面方式(1)提出的规范字符的顺序进行编码,则会大大提高文字信息的搜索、比较、排序的效率,减少文字信息处理的成本。总而言之,规范字符集的方案更有利于这几种文种的信息化建设的发展。

参考文献:

[1] 确精扎布,陈壮,何正安,等.信息技术 蒙古文变形显现字符集和控制字符使用规则:GB/T 26226—2010[S].北京:中国标准出版社,2011.CHOIJINGJAB,CHEN Z,HE Z A,et al.Infor mation technology—Mongolian presentation for ms character set and use r ules of controlling characters:GB/T 26226—2010[S].Beijing:China Standard Press,2011.

[2] ISO/IECJTC1/SC2/WG2.Infor mation technology—Universal coded character set(UCS):ISO/IEC 10646-2014[S].[S:l,s:n],2014.

[3] 聂鸿音.《同文韵统》中的梵字读音和汉语官话[J].满语研究,2014(1):5-10.NIE H Y.Sanskrit and Mandarin pronunciation in Tong wen Yuntong[J].Manchu St udies,2014(1):5-10.

1.2.1 西医诊断标准 参照1998年《中国腹泻病诊断治疗方案》[4]以及2009年发布的《儿童腹泻病诊断治疗原则的专家共识》[5]制定。

[4] 同文韵统,阿礼嘎礼.读咒法[M].清乾隆内府刻本.上海:上海涵芬楼影印,民国十八年.TONGWEN Y T,ALIGALI.Read the mantra method[M].Photocopy of the Qing Qianlong inner palace.Shanghai:Shanghai Hanfeng Building,The 18th year of the Republic of China.

[5] 米吉生.蒙文字母表与蒙文辞书的音序排序[J].内蒙古师大学报:哲学社会科学版,1982,9(1):17-19.MI J S.The alphabetical or der of the Mongolian alphabet and the Mongolian dictionary[J].Journal of Inner Mongolia Nor mal University:Philosophical&Social Science Edition,1982,9(1):17-19.

 
付勇,郭公
《广西科学院学报》 2018年第01期
《广西科学院学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号