快捷分类

三进制域Tate对的蒙哥马利模乘器设计

更新时间：2009-03-28

0 引言

基于身份的加密算法(identity-based encryption，IBE)[1]作为公钥算法之一，利用用户的ID，或个人信息，如姓名或者邮箱作为加密的公钥。相对于其它基于数字签名的公钥系统，IBE的公钥可以是任意长度的字符串，而且无需认证中心(certificate authority)对数字签名进行存储与验证，节省了大量存储空间和运算资源，非常适合用在资源受限的无线传感网WSN(wireless sensor network)的节点上。

作为IBE的基础，双线性对是一个复杂而且耗时的运算，占据了经典IBE运算中约40%的时间[2]。为了实现双线性对的快速计算，人们不断提出新的双线性对的理论计算方法，其中Tate对由于其在超奇异椭圆曲线上具有较高的计算效率被广泛研究并应用于IBE中。在三进制域，Tate对的安全性最高，而且在相同的安全等级下，三进制域的Tate对比二进制下更加节省存储和运算资源，因此三进制域的Tate对更加适合硬件实现[3]。MDL(modified Duursma-Lee)算法将Duursma-Lee算法中的立方根运算化简为两次立方运算，降低了运算复杂度，是实现三进制域Tate对最有效的算法之一[3]。在硬件实现方面，模乘作为双线性对的核心运算，其性能对双线性对的运算影响非常大。在二进制域或三进制域上的双线性对运算中应用较广泛的模乘算法有LSDE(least-significant-digit-element first)算法[4]和MSE(most-significant element first)算法[5]。而在高速应用上，蒙哥马利模乘器更受欢迎。文献[6,7]分别提出了800 MHz与633 MHz的基于高基蒙哥马利模乘器的Ate对硬件加速器。

随着模乘算法和硬件结构的优化，模乘运算的速度越来越快，双线性对的硬件实现性能也越来越好，但是却鲜有针对功耗和面积优化的设计，而将IBE应用于WSN中必须有低功耗低开销的双线性对实现方案。本文针对资源受限的设备，如WSN的节点，将蒙哥马利模乘算法扩展到三进制有限域上，并且证明了三进制域Tate对的MDL算法在蒙哥马利域计算的可行性，解决了其在应用中的数据域转换开销大问题。实现了三进制域的低功耗蒙哥马利模乘器的硬件设计，同时还加入了功耗感知模块和压缩编码模块进一步减少硬件电路的功耗和存储空间。

（四）全球债务风险持续累积。4月，IMF《财政监测报告》显示，2016年全球公共和私人债务总额创历史新高，达164万亿美元，2.25倍于全球GDP，比2009年金融危机期间高出12个百分点。发达经济体公共债务占GDP平均比重达105%，为二战以来最高水平，新兴经济体和低收入发展中经济体该比重分别接近或超过50%和40%。当前，市场普遍忧虑减税并扩张财政的美国债务问题，以及“金融退潮”中新兴市场和发展中国家债务违约问题。持续上涨的债务风险将削弱经济增长、消费和就业，并加大银行危机发生的概率。

1 IBE、Tate对与MDL算法

自1984年IBE的概念提出之后，不断有人提出具体的IBE实现方案，但是大部分都没有给出相应的安全证明。Boneh和Franklin利用椭圆曲线上的双线性映射构造了安全可用的IBE方案[1]。双线性对的有效计算通常是利用Miller算法[5]，其中Weil对和Tate对的研究相对较多。相对于需要2次Miller算法的Weil对，Tate对只需要1次，尽管最后还需要一次幂运算，但是Tate对还是更加简单高效。

有限域的元素个数被称为有限域的阶数，一般为一个素数的幂pm，其中m为正整数。GF(pm)是阶为pm的有限域的一般表示形式，其中GF(Galois field)代表Galois域，素数p被称为GF(pm)的特征，m被称为GF(pm)的度。假设G1是有限域GF(p)上超奇异椭圆曲线的q阶加法群，G2是有限域GF(p2)*的q阶乘法群。双线性对运算是将两个加法群映射为一个乘法群的过程，即e：G1×G1→G2，同时要求所有的P，R∈G1和所有的a，b∈Z满足

e(aP,bR)=e(P,R)ab

(1)

MDL算法用于计算三进制域的Tate双线性对，其只适用于GF(3m)的椭圆曲线E±∶Y2=X3-X±1。假设P=(xp,yp)， R=(xr,yr) 是该曲线上的阶为l两个点，其中xp,yp,xr,yr∈GF(3m)，定义变形映射φ(R)∈E±/GF(36m)

在三进制域，立方操作可以利用式(6)计算

φ(R)=φ((xr,yr))=(ρ-xr,σyr)

(2)

e(P,R)=el(P,φ(R))ε=τ∈GF(36m)

(3)

变形映射φ使得双线性对的计算更高效，其中ρ,σ∈GF(36m) 满足ρ3-ρ∓1=0和σ3+1=0。利用该映射，Tate对的定义由式(3)给出，其中ε=33m-1。 Tate对的计算可以分为两步，第一步计算t=el(P,φ(R))∈GF(36m)*，由算法1中所示的MDL算法完成，算法由m次循环组成，每次循环包含GF(3m)上4次立方运算，1次加/减法，2次模乘，4次加法逆元运算，以及GF(36m)上的1次立方和模乘运算。是Tate对运算中的主要部分；第二步是GF(36m)的幂运算τ=tε，该运算较简单而且可以被分解为GF(3m)上的运算。

算法1：三进制域的MDL算法

加强学生校外实践和创新创业实践的引导，积极和校外企业联合，建立校外实训基地，作为学生素质和技能提升的孵化基地，定期输送优秀学生到实训基地参与企业实际项目的训练．

输入： P=(xp,yp), R=(xr,yr)∈E±[1]

(xGF(3m))

输出： t=e33m-1(P,φ(R))∈GF(36m)*

初始化： t=1∈GF(36m)，d=(±m)mod3∈GF(3)

(1) for i=0 to m-1 loop

目前，教育部门新课标中对初中英语阅读各项训练技能进行了明确的规定，要求英语教师首先从宏观层面把握作者的主观态度，然后结合文中特定的情景来对文章整体脉络进行预测。英语教师首先要自行搜索相关的参考资料来解决阅读中所遇到的诸多问题，在此基础之上，来完成初中英语教学，传授相关的阅读技巧和方法，并实现寓教于乐，提升学生的阅读积极性。

引入功耗感知技术，必须控制伴随而来的开销，只有开销小于节省的功耗，才能真正达到降低功耗的目的。根据算法2，A[i]在每个周期都会更新，而B[i]每隔s个周期才更新，所以B[i]和A[i]以串行的方式进行非零检测，从而复用检测电路，可以减小电路开销。首先，每隔s个周期都会对B[i]进行检测，如果B[i]不为零，则每个周期都会检测A[i]是否为零并更新相应的控制信号。如果B[i]为零，则保持乘法器输出为0直到s个周期后B[i]被更新。对于系数F[i]和M也是如此。

(3) μ=α+x+d[GF(3m)上加法]

(4) γ=(-μ2)ζ0+(-βy)ζ1+(-μ)ζ2+(0)ζ3+(-1)ζ4+(0)ζ5[ζ=3m]

(5) t=t3[GF(36m)上立方运算]

(6) t=tγ[GF(36m)上乘法运算]

(7) y=-y[GF(3m)上加法逆元运算]

(8) d=(d±1)mod3

累加器由两个简单的8位GF(38)加法器组成。由于三进制域上的运算都是基于有限域，因此只需要将操作数对应位直接相加即可，也即

2 基于蒙哥马利模乘的三进制域Tate对运算

从算法1中可以看出，MDL算法包含了有限域GF(3m)的立方，加减法，模乘和加法逆元运算以及GF(36m)的立方和模乘运算。由于GF(36m)可以看作是GF(3m)的拓域，GF(36m)的立方和模乘运算均可被分解为GF(3m)的加法和模乘运算，本文重点讨论GF(3m)上的模乘，具体算法可参见文献[5]。在这些运算中，模乘是最复杂而且频繁使用的运算，是Tate对中最关键的运算。

目前，LSDE模乘算法是三进制域的应用最广泛的模乘运算之一。但是在素域下，蒙哥马利模乘由于模运算的简化而更受欢迎，因此将素域上的蒙哥马利模乘用到三进制域中，很可能有利于面积和功耗的降低。三进制域中的蒙哥马利模乘定义为

说到“末”字，不得不提一个有趣的历史故事。战国时期，齐赵两国互相交好，齐王派使臣问候赵威后。赵威后却不关心献礼和书信，反而问使臣：“齐国的庄稼和百姓好吗？还有你们的君王也好吗？”使臣心里很不高兴，认为赵威后不先问候齐王，却先问庄稼和百姓，这样先贱后贵，没有尽到礼数。赵威后却认为是先有百姓，才能有君王。既然百姓是本，君王是末，那么哪有舍本问末的道理？看到这里，我们不禁为赵威后点个赞。作为封建王朝的统治者，她能够早早意识到百姓的重要性，明白水能载舟、亦能覆舟的道理，真是难能可贵！

C=A·B·R-1modF(x)

(4)

其中，是GF(3m)的不可约三项式，R是GF(3m)中一个固定的元素，为了简化运算通常取值为R=xk。

2.1 算法复杂度分析

式(5)～式(7)表明蒙哥马利域的加法和立方运算与三进制域的运算是一致的，因此可以将MDL算法在蒙哥马利域运算。图1展示了所提出的Tate对运算的过程，其中蒙哥马利域的操作数及运算以上划线表示。首先将Tate对的输入转换到蒙哥马利域上，在蒙哥马利域上进行MDL算法的运算，然后将结果返回到三进制域中，最后一步是GF(36m)的模幂运算，可以被分解为GF(3m)的基本运算，其中MM表示蒙哥马利模乘。综上，蒙哥马利模乘的域转换开销相对于Tate对的运算是非常小的，因此很适合在Tate对中使用。

GF(3m)模乘算法的硬件实现有位串行(digital-serial)，可伸缩分组并行(digit-serial)和完全并行3种结构。位串行结构以1位为单位进行运算，面积小但是所需时钟周期较多速度较慢。完全并行模乘器则要求在一个周期内完成运算，在高速需求的应用具有较大的优势，但是其面积和功耗开销太大，并不适用于大部分密码学领域应用。而分组并行的方式，也叫字串行的方式，以字为单元进行运算，选取不同的字长w，将m位的乘法分解为若干w位的乘法和加法的组合，即GF(3w)上的乘法和加法，运算速度和面积功耗得以平衡，非常适合在无线传感网络中使用。

蒙哥马利模乘算法有很多派生的实现算法。如SOS(separated operand scanning)算法，其将乘法操作和模约减操作分开独立实现，运算时间和存储空间开销都较大；CIOS(coarsely integrated operand scanning)算法，其将每轮循环中乘法操作的部分积直接做模约减，降低了存储空间开销；FIOS(finely integrated operand scanning)算法减少了总循环次数，但是相对于CIOS算法多增了一些加法操作和存储器读写开销。根据文献[8]的分析，CIOS算法在GF(p)上所需的算术运算及存储开销相对都是最小的。因此本文选取CIOS算法在GF(3m)上的实现。

设优化设计和原始设计中每个周期计算A[i]·B所需要w×w乘法次数分别为Nopt_AB和Norg_AB，可以得知Norg_AB=s，而Nopt_AB可以由式(11)计算。当s=13时，优化后节省的乘法次数为Norg_AB -Nopt_AB=0.004

表1 LSDE算法与CIOS算法的算法复杂度分析

算法GF(3w)乘法次数GF(3w)加法次数存储空间/bits时钟周期LSDEs2+245ms+2m+ms()2s2+23m+1()s+2m32+1s()3m+5ms2s2+(m+2)s+m+msCIOS2s2+2s4s2+2sm+4ms2s2+2s

从表1可知，虽然对于较小的字长w，CIOS模乘需要较多GF(3w)的w位乘法，但LSDE模乘由于模约减操作的复杂性仍然需要较多的加法和存储空间，运算周期也更多。通过对表1中两种算法的乘法次数公式联立求解方程可知，在w大于22的时候，LSDE模乘所需的GF(3w)乘法也将比CIOS多，因此CIOS模乘器更加节省运算资源。另一方面，LSDE算法所需要的储存空间几乎是CIOS的3倍。作为常用的储存介质，SRAM由于其易失性并且其供电电压不能降到和一般的数字逻辑电路一样低，而且SRAM部分不能采用电源门控和超低电压设计这两种重要的低功耗技术[9]。因此若采用超低电压设计，储存器的静态功耗将成为主要的功耗来源，所以，采用需要储存空间较少的CIOS算法不仅有利于面积降低还有利于降低系统功耗。

2.2 蒙哥马利域的MDL算法

在看到蒙哥马利模乘降低模乘运算复杂度的同时，还要考虑数域转换的开销。蒙哥马利模乘运算之前，需要先将操作数与x2k进行蒙哥马利模乘转换到蒙哥马利域，运算完成后再将结果与常数1进行蒙哥马利模乘返回所在域。如果在Tate对计算中每一次模乘都进行域变换，时间和面积上的开销太大。Tate对的实现主要利用的是MDL算法，因此我们将MDL算法的输入数据直接转换到蒙哥马利域，直到计算得到该算法的最终输出时，再进行输出的转换操作，一次域变换可以对应n次模乘运算，当n较大时，域变换的开销就微乎其微了。除了模乘运算，MDL算法中还包含加法和立方运算，但这两种运算同样可以在蒙哥马利域种以普通有限域下的方式计算，其证明如下：计算普通域加法C=A+B时，蒙哥马利域的计算为

(A+B)xkmod F=Cxkmod F

(5)

为验证本重量控制系统的综合性能，将系统集成到经过改造的卷烟机机组中进行安装与调试，经过一段时间运行，控制效果良好。通过在现场取样进行测量，各项指标均能满足设计要求。

(6)

而蒙哥马利域的立方运算为

(7)

为了对传统的LSDE算法和蒙哥马利算法进行定量的比较，判断蒙哥马利算法是否相对于LSDE算法有优势，我们对两种算法的运算复杂度进行预估。

图1 蒙哥马利域下的Tate对计算流程

3 三进制域蒙哥马利模乘器的设计

本文将蒙哥马利模乘算法拓展到三进制域并进行了硬件实现。算法2展示了字串行的蒙哥马利模乘算法，其中w是算法的字长， s=m/w是所需要的循环次数，F0’(x)=(-F0-1(x))mod xw是一个预计算的变量，并且 F0’(x) 在每次Tate对的运算中只需要计算一次，因此其开销可以忽略不计。可以看出在蒙哥马利模乘中模约减可以通过简单的移位来完成，这也是本文采用蒙哥马利模乘的主要原因。在硬件实现方面，由于CIOS算法每个周期都对部分积直接进行模约减，大大简化了模约减的操作，减少了运算和存储的开销。本文也将普通域的CIOS算法移植到了三进制中。现有的三进制域LSDE模乘器都基于特定不可更改的m+1阶不可约三项式F(x)，也就是模乘运算中的模数，来节省运算周期数和模约减运算的开销，拓展性有限。而本文设计的蒙哥马利模乘器的模数F(x)是可配置的任意m+1阶不可约三项式。

在有限域GF(397)上的双线性对占用的运算和储存资源相对较少，其安全性略小于ECC中素数p取512位，l取160位的情况，而且文献[10]中利用252个PC核用了150天才最终破解了基于GF(397)上双线性对的IBE算法。所以本文以m=97，即有限域GF(397)上的模乘运算为目标，考虑到模乘器延时、面积和运算时间之间的平衡，选取w=8的模乘器为最终的方案。

算法2：三进制域字串行蒙哥马利模乘算法

输入： A(x),B(x),F(x),F0’(x)∈GF(3m)

输出： C(x)=A(x)B(x)x-mmod F(x)

(1)初始化：C(x)=0

(2)for i=0 to s-1 loop

(3) C(x)=C(x)+A(x)Bi(x)

3)周边存在旅游景点。由于大部分森林古道周边自然景观优美，当地政府利用周边优势开发了部分旅游景点。如果利用协调好这些景点，可将其作为周边森林古道的连接枢纽，将单一割裂的森林古道形成体系，增加人流量，唤起森林古道活力。

(4) M(x)=C0(x)F0’(x) mod xw

教师节来了，我轻轻拈起笔，可又重重放不下，我发自内心地想写点东西，向我的老师发出问候和祝福，向关怀我成长的老师们表达自己的感恩。

(5) C(x)=C(x)+M(x)F(x)

(6) C(x)=C(x)/xw

(7)end loop

(8)返回 C(x)

回家后的赛利亚审视自己未来的出路：一方面，她继承了祖母留下的卡拉米洛披肩，看到了自己与他人、家庭、民族之间的联系，这使得她理解了祖母和家人、接纳了自己的民族身份；另一方面，她以一种更加理智、全面的方式重建自己的文化身份，文化身份不再是一个非此即彼的选择，而是一个融合了多重文化的身份重建。

在此算法中，乘法运算相对最为复杂，且其计算复杂度会随着w的增大而增大。所以，对于资源受限的嵌入式系统，设计中一个周期只进行一次w×w位乘法操作。图2中虚线内展示了该模乘器的顶层模块，该模乘器由控制器，GF(38)的乘法器，三输入的累加器以及数据通路组成，同时还有SRAM和寄存器堆用于数据存储。乘法器用于计算算法2第3～第5行中的乘法运算Ai(x)B(x)， C0(x)F0’(x) 和M(x)F(x)，累加器则负责乘法中间结果的累加。而控制器根据顶层处理器的控制信号控制电路的状态，同时数据通路负责存储器与运算单元之间的数据传输。

图2 三进制域蒙哥马利模乘器

3.1 控制器设计

该模乘器设计中一共有8个状态，其转换如图3所示，电路在检测到start信号后从SRAM中读取操作数，接着开始计算C(x)=C(x)+A(x)Bi(x)(算法2第3行)，由于采用字长为w的字串行结构，每个周期只进行一次w×w位乘法操作，因此该计算需要s=m/w个周期，其中j是计数器。计算变量M(x)并读取F(x)之后，将计数器j清零，并开始计算C(x)=C(x)+M(x)F(x) (算法2第5行)，因为F(x)是m+1阶的多项式，因此需要s+1个周期才能完成运算。计数器i则用于控制蒙哥马利算法中的循环的次数。循环s次后将结果写回SRAM中并由控制器返回一个finish信号以便于顶层处理器的读取。根据上述设计，一次模乘运算可以在2s2+4s+2个周期内完成。

图3 蒙哥马利模乘器控制状态转换

3.2 GF(38)的累加器

(9) end loop

(8)

其中，(ai+bi)为GF(3)上的加法，定义为ci=(ai+bi) mod 3，若ai,bi均采用二进制编码，即00对应三进制中的0，01对应1，10对应2。则GF(3)上的加法c=(a+b) mod 3可由以下逻辑运算所得，其中下角标0、1分别表示编码的低位与高位

3.3 GF(38)的乘法器

乘法器是整个电路的关键路径，因此需要尽可能地快来提高电路的工作频率。与加法运算同理，乘法部分积由GF(3)上的乘法来计算，定义为c=(a·b) mod 3，可由以下逻辑完成，其中下角标0、1分别表示编码的低位与高位

从对访谈的分析中笔者得出这样的结论：一些英语学习者的英语水平之所以低下，与英语学习大环境、教师、学习内容和学习者个人的素质（包括性格、情商等）这几个因素都有关系。尽管教师和学习内容这两个因素的作用不可忽视，但是学习者个人因素起了很大作用，学习动力的严重缺乏或不成熟的情商（不清楚自己哪个阶段应该干什么以及较弱的情感控制力）造成了他们的英语学习现状。C男和C女都认为英语学习是一个负担，都决定通过大学英语四级考试后放弃英语学习。

c0=a1·b1+a0·b0c1=a1·b0+a1·b0

如图4所示，该乘法器首先由8个w×1位乘法器并行计算出8个部分积，再通过三级GF(38)加法器的累加得到最后的结果，整个乘法由64个GF(3)的乘法单元和56个GF(3)的加法单元组成。

图4 GF(38)乘法器部分积累加的过程

3.4 存储器的选择

在该设计中，模乘器的输入被调用的次数较少而且SRAM在空闲的时候功耗较低，因此选用了单端口SRAM来存储模乘的输入和最终的计算结果。由于中间结果会被频繁读取，而且在CIOS算法中，即使当m=512时，也只需要1 kB的空间来存储中间变量，因此用功耗较低而且速度较快的双口寄存器堆来储存中间变量。对于GF(3m)的蒙哥马利模乘器所需的SRAM规模为(4s+1)×16 bits，寄存器堆规模为(s+1)×16 bits，因此本文中GF(397)蒙哥马利模乘器所需要的SRAM和寄存器堆的规模分别为848 bits和224 bits。

其中：n=0,1,…,N-1，N为最大循环迭代次数；Sn等于1或-1，表示矢量旋转角度的方向：-1对应顺时针旋转；1对应逆时针旋转.

4 三进制域蒙哥马利模乘器的低功耗技术

4.1 功耗感知

功耗感知技术是将执行同一功能的单元设计成多个大小规模不一的单元，实际运行时根据输入情况的不同，选择相应规模的单元进行操作，关闭其它不进行操作的单元。这样，对于那些可以用小规模电路处理的数据可以避免采用大规模单元带来的功耗浪费。本文综合考虑判断逻辑等其它额外电路的开销，采用相对较简单的一种方案，只考虑乘法器输入操作数为零和不为零两种情况如图5所示，A[i] 和B[i]是模乘器两个输入A和B的系数，逻辑电路通过检测A[i]和B[i]是否为0产生两个控制信号。如果A[i]和B[i]中至少有一个为零，运算结果就会被模块H1赋零。同时乘法器(H2)输入的寄存器值保持不变，避免乘法器内部逻辑的翻转从而降低了功耗。

图5 功耗感知模块

(2) α=α9,β=β9[GF(3m)上立方运算]

本文做了相应的理论计算来评估该功耗感知模块节省的功耗。如算法2中所示，A[i]、B[i]，M和F[i]是三进制域GF(38)的8位操作数，而F(x)是一个(m+1)阶的不可约三项式，这4个参数分别为0的概率由式(9)～式(10)给出。在下面的推导过程中，参数w=8，而s=m/w=13是所需要的循环数

(9)

(10)

设模乘器的字长为w，并定义s=m/w为模乘算法所需要的循环的次数，根据LSDE算法[4]与算法2中的蒙哥马利模乘算法，将算法中的m位的运算，如加法，乘法，模运算等分解为w位的加法或者乘法，如算法2中第3行中m×w乘法运算A(x)Bi(x)就可以被分解为s次GF(3w) 上w×w乘法和2s次GF(3w)上w位加法。而LSDE算法由于模运算包含部分GF(3)上的运算，需要先统计GF(3w)的运算在GF(3)上的复杂度，再将GF(3)的运算复杂度等价转换到GF(3w)，如GF(3w)的加法可以分解为w次GF(3)上的加法，GF(3w)的乘法可以被分解为w2次GF(3)上的乘法与(w-1)2次GF(3)上的加法。从而GF(3)上的加法等价于1/w次GF(3w)的加法，GF(3)上的乘法复杂度等价于1/w2次的GF(3w)的乘法减去[(w-1)/w]2 次的GF(3w)的加法。通过上述方法得到LSDE算法和CIOS算法的算法复杂度分析见表1。

2008年9月底的一天，有个客户开了一辆银灰色的凯迪拉克驶入厂区，正值下班时间，许多人都驻足观看，就连平素高傲的副总裁的女儿方勋梅也发出了一声赞叹：“哇，凯迪拉克！”程晓暗恋方勋梅由来已久，只因门户悬殊，他只有将自己的白日梦安放在姥姥家了。现在听到方勋梅对凯迪拉克如此景仰，程晓的心久久不能平静。他在网络上把能让方勋梅发出惊叹的那辆凯迪拉克型号搜索了出来：它线条俊朗刚毅，身姿优雅华贵，颜色明丽诱人，是凯迪拉克3.6L运动型，报价68.86万元!

(s-n)·P(B[i]≠0)=

(11)

而在运算M·F[i] 中，由于F(x)是一个三项式，其不为零的系数只有F[0]、F[k]和F[s]，其中0<k<s，则优化设计中计算M·F[i]需要的乘法次数为

Nopt_MF=P(F≠0)·P(M≠0)·(s+1)=

(12)

原始设计中，M·F[i] 尽管需要进行s+1次乘法运算，但是根据前文提到的不可约多项式的特征，F[0]～F[s]中存在连续为零的情况，因此乘法器只在计算M·F[0]、M·F[1]、M·F[k]、M·F[k+1]和M·F[s]这5项的时候才会翻转，因此实际上产生功耗的乘法运算次数为：

综上所述，功耗感知模块降低的功耗百分比由式(13)计算所得，当m=97且s=13时，理论功耗降低了11.13%

(13)

4.2 数据压缩编码模块

一位三进制数通常由2比特二进制数来表示，也即’0’ 对应二进制中的’00’，’1’对应’01’，’2’对应’10’。由于二进制编码’11’没有用到，这样的编码方式冗余较大。考虑两种压缩方式，第一种将每5位三进制数映射到8比特二进制数，尽管该方式冗余较小，节省的储存空间更大，但是编码和译码逻辑的面积和功耗较大。第二种将每3位三进制数映射到5比特二进制数，即将GF(33)的数据压缩到GF(25)上。这两种方案具体编码方案见表2。根据SMIC 130 nm工艺下综合的结果，方案二编码解码电路的功耗，延时和面积均小于方案一(见表3)，因此更加适合用在此模乘器中。

表2 压缩编码方案

方案一方案二三进制编码二进制编码三进制编码二进制编码00000000000000000000000000000000000000100000001000001000010000000010000000100000100001000000001000000001100010000011…………101010100011110000101000110001010101001111100011010011100110101010101111001010101011010

表3 压缩编码方案性能比较

模块方案面积/门数延时/ns功耗/μW编码器方案一4941.24210.2方案二500.8230.81解码器方案一3191.06205.4方案二520.4939.52

由于在模乘器中以8位三进制数为单元进行运算，因此操作数的前6位通过两个编码器映射为10比特的二进制数，而后2位则用4比特二进制数来表示。图6展示了压缩编码模块在电路中是如何工作的。可以看出每一个编码器或者解码器都是由3个子编码器或者子解码器组成，实际上将8位三进制数映射到14位二进制数，也就是将GF(38)上的数据压缩到GF(214)上。通过该压缩编码方案，可以降低1/8的存储空间，对于本文中的蒙哥马利模乘器则一共降低了134比特。节约存储空间不仅可以节约面积开销，更重要的是，减小存储器电路的静态功耗——如前所述，在WSN节点中静态功耗往往占主要成分。

图6 数据压缩编码模块

最终，优化后的蒙哥马利模乘器总体电路结构如图7所示，其中，乘法单元采用优化后设计，存储器采用同时压缩SRAM和寄存器堆的优化方案。所以，SRAM只需要将输出数据进行解码，而寄存器堆需要将输入数据进行编码，输出数据进行解码。控制器通过控制信号来控制状态转换及SRAM和寄存器堆的读写操作等。

图7 优化后的蒙哥马利模乘器总体电路结构

5 性能评估与对比

我们将设计的三进制域下的蒙哥马利模乘器在Xilinx Artix7 XC7A100T FPGA上进行仿真与验证，并且评估模乘器的面积和工作频率。同时为了比较该模乘器与文献[11]中LSDE模乘器的功耗，本文根据文献[11]中的描述实现了相应的LSDE模乘器。在SMIC 130 nm工艺下，通过1000组随机的输入向量测得不同的模乘器在100 MHz下的功耗波形，最后用primetime工具得到模乘器的平均功耗。图8显示了1000组仿真波形中的一组，黑色方框为运算完成后将结果以每周期8位三进制数(16 bits)写入SRAM，并且将结果全部输出之后返回一个finish信号，其输入如下

A=197’h 2419888190589920aa114540194040512a699284259212442

B=197’h 24452a524841964115480981916510884061852a890188854

新预算法的推进和实施，是对我国近来年财务预算管理问题的一次总结和归纳，有针对性的对财务预算管理曾出现的问题做出了解释、回答并给出了真实有效的管理办法和约束性的法规。因此，事业单位需要严格依照新预算法的相关内容，在深入了解和认识自身的预算体系和具体情况后进行改革和完善，强化财务管理力度，提高行政事业单位财务的透明化水平。这样一来，才能对事业单位的资金、人力以及物力进行高效的配置和运用，最大限度发挥政府资源的公共效益，更好的为国家和人民群众服务。

图8 三进制域蒙哥马利模乘器仿真波形

表4 模乘器性能比较

模乘器频率/MHz运算时间/μs面积/LUTs功耗/mWLSDE[11]1610.6111667.70*原始设计1991.896344.81优化设计1632.327334.35

注：*该模乘器的功耗为本文作者测算所得。

如表4所示，与原始设计相比，优化后的设计功耗降低了9.6%，由于理论计算时并未考虑到功耗感知模块带来额外的功耗，因此优化幅度相比于理论计算值偏小。而相对于传统的LSDE模乘器，蒙哥马利模乘器在面积和功耗上都有着显著的降低，分别降低了37.1%和43.5%。

6 结束语

本文设计了用于三进制域双线性对计算的低功耗蒙哥马利模乘器，并提出在蒙哥马利域中计算MDL算法以降低域转换的开销。完成了一个低功耗三进制域的蒙哥马利模乘器的硬件设计采用的功耗感知和压缩存储技术有效降低了模乘器的功耗和存储器开销。优化后的模乘器的平均功耗相对于传统的LSDE三进制域模乘器面积降低了37.1%，功耗降低了43.5%，更适合在资源受限的无线传感网节点上使用。

在大数据时代，信息资源更新速度快，电视晚会在编排阶段主要关注收视率。而电视晚会的编导则迫切渴望以成本低、时间短的方式创造大量的电视晚会节目。实用主义电视晚会的目的是为了在市场发展中占据一定地位与经济利益。在当今市场机制的约束下，电视编导难以真实发挥自身的创新能力。电视晚会是集体创作的主要形式，一些电视编导即使有创新的想法，也很难获得理想的试验和测试。此类过分追逐量化和时效的做法，违背了电视晚会的节目内涵。在整体市场环境的影响下，阻碍了电视编导的创新能力与思维。所谓的市场体系建设对电视编导的理念的创新具有一定的抑制影响。

参考文献：

[1]Boneh D,Franklin M.Systems and methods for identity-based encryption and related cryptographic techniques[P].U.S:Patent 8,130,964,2012.

[2]YAO Zhuoyu.IBE algorithm design and implementation in WSN[D].Nanjing:Nangjing University of Posts and Teleco-mmunications,2012(in Chinese).[姚卓禹.IBE算法及其在无线传感器网络中的设计与实现[D].南京:南京邮电大学,2012.]

[3]El Mrabet N,Fournier JJA,Goubin L,et al.A survey of fault attacks in pairing based cryptography[J].Cryptography and Communications,2015,7(1):185-205.

[4]Pan JS,Lee CY,Meher PK.Low-latency digit-serial and digit-parallel systolic multipliers for large binary extension fields[J].IEEE Transactions on Circuits and Systems I:Regular Papers,2013,60(12):3195-3204.

[5]Chung SC,Wu JY,Fu HP,et al.Efficient hardware architecture of ηT pairing accelerator over characteristic three[J].IEEE Transactions on Very Large Scale Integration Systems,2015,23(1):88-97.

[6]Li Y,Han J,Wang S,et al.An 800 Mhz cryptographic pairing processor in 65 nm CMOS[C]//Solid State Circuits Conference.USA,NJ:IEEE,2012:217-220.

[7]Han J,Li Y,Yu Z,et al.A 65 nm cryptographic processor for high speed pairing computation[J].IEEE Transactions on Very Large Scale Integration Systems,2015,23(4):692-701.

[8]Mrabet A,El-Mrabet N,Lashermes R,et al.A scalable and systolic architectures of montgomery modular multiplication for public key cryptosystems based on DSPs[C]//International Conference on Security,Privacy,and Applied Cryptography Engineering.Switzerland:Springer International Publishing,2016:138-156.

[9]Ashwin JS,Praveen JS,Manoharan N.Optimization of SRAM array structure for energy efficiency improvement in advanced CMOS technology[J].Indian Journal of Science and Technology,2014,7(S6):35-39.

[10]Hayashi T,Shimoyama T,Shinohara N,et al.Breaking pairing-based cryptosystems using ηT pairing over GF(397)[C]//International Conference on the Theory and Application of Cryptology and Information Security.Berlin:Springer Berlin Heidelberg,2012:43-60.

[11]Grabher P,Page D.Hardware acceleration of the Tate pairing in characteristic three[C]//International Workshop on Cryptographic Hardware and Embedded Systems.Berlin:Springer Berlin Heidelberg,2005:398-411.

作者

王徐生，马江莎，李翔宇

出处

《计算机工程与设计》 2018年第05期

上一篇：基于联合编码误差消除机制的LTE-5G数据传输算法

下一篇：适用于传感器采集网络的轻量级安全通信协议

《计算机工程与设计》2018年第05期文献

基于信号传递的半监督谱聚类社区发现算法作者：崔宇童，牛强，王志晓

基于终端功率-信噪联合感知的5G网络信道退避算法作者：何春燕，高飞，费莉，刘薇宁

基于深度自编码器的WSN数据融合算法作者：潘琢金，秦蓓，罗振，杨华

数据中心混合网络作者：蒋维成，李兰英，袁连海，柳军

基于信息量的工控网络异常检测技术作者：程相，周安民，郑荣锋，刘嘉勇

基于预发射-精度提升机制的LTE-5G数据传输算法作者：冷鹏，黄晶，陈巍婷

干扰约束的认知网络最优功率分配算法作者：许翊，许晓东

因特网与无线传感网通信网关的设计与实现作者：邱鹏，霍瑛

基于联合编码误差消除机制的LTE-5G数据传输算法作者：范晖，夏清国，黄健

三进制域Tate对的蒙哥马利模乘器设计作者：王徐生，马江莎，李翔宇

适用于传感器采集网络的轻量级安全通信协议作者：苏彬，马丽梅，崔宝江

基于Hash轻量级RFID安全认证协议作者：张兴，李畅，韩冬，颜飞

基于安全模式的软件安全本体模型及推理作者：关慧，金梓奕，李杨

基于可信计算的工业控制系统作者：裴志江，邹起辰，谢超

基于便携式语音的智能家居系统的设计与实现作者：王磊，何勇，张宇，孔维田

基于seL4的分区操作系统健康监控设计作者：王天辰，赵承鼎，魏鑫，高艳华

基于ARM平台的实验室视频监控系统设计作者：王欢，张玉清，陈双刚，魏子超

计算存储一体的体系结构研究与实现作者：马千里，侯毓敏，何虎

双控制器RAID系统中缓存镜像技术研究与实现作者：徐晗，姚智慧

杂志信息网