×
FPGA/DSP > DSP系统 > 详情

为什么说MIPS只是一个数字而已

发布时间:2022-03-02 发布时间:
|

     人们通常用每秒百万条指令(MIPS)来衡量微控制器(MCU)的计算性能,但是没有任何两个MCU/SoC架构是完全相同的,加速不同应用性能的集成度也不相同。因此,在采用适当硬件特性的情况下,固件应用可减少对CPU资源的占用。在移植到不同架构的过程中,如果开发人员只关注MIPS,仅以MIPS来预测应用所需的计算性能,那么就会大错特错了。本文将就典型的计算问题分析MCU/SoC的多种架构特性,目的是说明MIPS并不能真正反映器件的计算性能,并探讨我们应当如何应对这一问题。此外,鉴于目前比较此类产品系统级功能的基准标准较少,本文还将专门重点讨论运行速率在100MHz以下的MCU/SoC器件。

  100MHz以下架构的特点

  100MHz以下的MCU通常使用8位、16位或32位架构,数据总线宽度为8位、16位或32位。这些产品也可分为其它多种类型,如Harvard/Von Neumen和RISC与CISC等,每种类型都有其引人关注的不同之处。对大多数MCU而言,不同的指令需要执行不同的机器资源。此外,振荡器频率通常与机器工作周期不同,比如,就经典的8051而言,振荡器的12个周期才相当于机器工作1个周期。而对许多PIC器件而言,4个振荡器周期就对应于1个机器工作周期。

  下面我们通过一个示例来更好地了说明这一问题。假设某器件的振荡器频率为20MHz,其两个振荡器周期对应于1个机器工作周期。此外,指令执行需要1到6个机器工作周期。那么,该器件的MIPS额定值是多少呢?我们将振荡器频率除以2,得到可用的机器工作周期为1千万。不过,如何将机器工作周期转换为MIPS则取决于我们如何看待这一问题。如果您是营销人员,您会只专注于情况,也就是假定每条指令只要一个工作周期,这样这款产品的性能就是10 MIPS。如果您想了解的理论性能,那么就会假定每条指令需要6个工作周期,这就会得到1.66(10/6)MIPS。这里我们得到了和的MIPS。对典型应用而言,实际的MIPS性能介于二者之间,具体取决于应用的指令集组合。我们这里还作了令一个假定,即认为不同的架构指令计算性能类似,但这基本上是不现实的。

  我们这里假定机器工作周期数量是决定器件执行指令数量的因素。下面,我们设想一下闪存对处理性能的影响。一般而言,闪存提供数据的速率不超过20MHz。因此,如果CPU运行速率超过20MHz,而用闪存执行指令,那么闪存数据速率就成为了的瓶颈。在此情况下,我们可让闪存总线带宽高于数据总线带宽,并创建指令缓冲器以跟上指令速率,从而解决上述问题。要做到这一点,CPU就要在执行当前指令时调用下一条指令。这种做法对线性代码而言没问题。但不幸的是,实际系统代码很少是线性的。每次代码出现分支,指令缓冲器都必须重构。另一种改进性能的办法是添加缓存容量。简而言之,如果一个MCU/SoC管理闪存的效率较高,而另一个效率较低,则即便机器工作循环和指令集相同,性能数据也将大不相同。

  我们已经比较熟悉类似上述的各种因素,开发人员通常会在比较不同器件的性能时考虑到这些相关因素。下面我们来谈谈某些不太明显的因素。

  DMA对MIPS的影响

  某MCU/SoC器件支持DMA(直接存储器存取)功能,其能将CPU从存储器存取工作中解放出来,从而提高性能。我们怎么*估DMA对MIPS的影响呢?先来看看主模式下串行通信协议SPI的典型使用情况。SPI是一个很好的例子,因为它通常是MCU/SoC上吞吐量的板内通信外设,而且配合存储器、以太网、无线收发器芯片等一同使用。

  假定:

  SPI速率:8Mbps

  数据包大小:128字节

  数据吞吐率要求:每个数据包160uS

  如SPI速率为8Mbps,那么传输1个字节需要1uS。因此,传输128个字节需要128uS。我们的预算为每个数据包160uS,这就剩下32uS(160-128)用于SPI管理。这32uS的预算要平均分配给128个字节,因为系统每一个uS都要载入一个新数据字节。32uS除以128即可得到SPI管理每数据字节传输有250nS的时间。


  就上例而言,DMA将MCU/SoC速率需求降低了160MHz,而将CPU处理能力需求降低了200MHz。如果我们假定周期相当于MIPS,那么本应用的DMA就相当于一个200MIPS处理器。

  DMA实现的高效MIPS在很大程度上取决于吞吐量需求。我们再举一个本应用的极端例子。假定每个数据包没有时间限制,那么DMA每字节节约的CPU周期数达50个,那么就128个字节而言,周期数节约可达6400个。如果MCU需要在16MHz的情况下支持8MHz SPI,且128个字节的数据包每秒只传输,那么不支持DMA的MCU/SoC运行速率就需达到每秒16,00*00条指令,性能水平和支持DMA的MCU每秒160万条指令相当。因此,就这一特殊的使用而言,DMA的影响可以忽略不计。

  协处理器对MIPS的影响

  MCU/SoC带协处理器的情况并不少见。协处理器能并行处理某些高计算强度任务,将CPU解放出来并提高处理器的MIPS效率。

  我们不妨设想一下这样一款应用,其输入音频数据进入后由ADC采样,采样频率为44.1Ksps。假设我们希望抑制50或60HZ的直线频率。为此,我们需要使用数字带阻过滤器。

  采样速率:44.1Ksps,采样间隔22.7uS

  FIR过滤器抽头数:128

  为了简化说明,我们不考虑过滤器的输出级。


  就上例而言,协处理器将CPU速率要求降低了44.1 MIPS。请注意,该示例采用了简单的FIR过滤器。如果需要更复杂的过滤器,那么MIPS要求可能会高得多(数百MIPS)。

  可编程数字器件对MIPS的影响

  一些MCU/SoC器件的可编程数字逻辑为CPLD或FPGA逻辑形式,这使开发人员能用硬件实施CPU功能,而CPU功能传统上是用软件实施的。下面我们来看看可编程数字逻辑对MIPS有什么影响。

  我们假设三相无电刷DC(BLDC)电动机的转速为30,000rpm。电动机的转动要求脉冲时序。出于简化目的,我们还假定用霍尔感应器来探测电动机转子的位置。三个这样的霍尔感应器用来实现上述目的。每转60度,霍尔感应器输出之一就会发生变化。如果电动机有两个转子极组,那么两个电气循环将对应于机械转动。这就是说,就完整转动而言,霍尔感应器输出会改变12次。霍尔感应器输出导致6个PWM输出变化。各带配套输出的三个PWM用于创建6个PWM输出。下图显示了霍尔感应器输入同PWM输出之间的关系。PWM值为正说明PWM高压侧工作,值为负则说明PWM低压侧工作。

  下面我们来分析通常如何实施BLDC转换,以及如果器件具备可编程逻辑(CPLD或FPGA)功能,又将如何简化BLDC转换。

  就上例而言,可编程数字技术将CPU速率要求降低了1MIPS。如果电动机转速较低,那么该技术对MIPS的影响也较低,反之亦然。上例采用了优化组装和简单的开环控制。实际应用会更加复杂,且通常使用C代码,以简化维护和再利用。如果使用一般性C代码,则MIPS要求会增加到3 MIPS。几乎所有电动机控制应用都需要类似于PID控制的多控制回路,这提高了计算要求。不过,如果通过硬件来完成相同工作,那么就能确保CPU占用为零。因此,整个电动机控制应用的MIPS需求介于5到10 MIPS之间,而采用硬件方法,需求则为零。

  基于可编程逻辑的实施方案具有较高的再利用性,且不存在任何集成问题。实施一个电动机控制所需的可编程数字逻辑要求非常低,因此我们能在硬件中实施多个电动机控制和转换逻辑。如果用CPU完成相同的工作,由于我们无法同时处理两个中断,那么MIPS需求就会增长好几倍。此外,为了保证合理的中断响应时间,CPU运行速率必须比速率要求快得多。因此,我们能用可编程逻辑轻松地实施完整的BLDC电动机控制系统,比如4个这样的系统。不过,如果用MCU固件来实现相同的任务,则需要约100 MIPS的性能。

  正如本文所述,MIPS并不能代表MCU/SoC器件解决系统级问题的真正能力。如果器件具备上述所有功能,那么什么样的器件MIPS性能才适用呢?200 MIPS、500 MIPS还是1,000 MIPS?在所有情况下,MIPS不过是一个意义非常有限的数字而已。

  那么,开发人员如何确定适合应用需要的器件呢?不幸的是,这个问题并不太容易回答:

  ·确定应用中存在关键计时或CPU性能要求的区域。

  ·确定MCU/SoC厂商是否提供应用说明或类似于您所需应用的示例项目。如果已经提供,则能为您针对既定MCU/SoC来优化应用的程度提供指导。如果没有提供,则应想办法找到使用给定架构实施应用的潜在办法,并了解您可使用哪些硬件特性。

  ·根据上述示例所示粗略估算MIPS性能要求。计算不必特别。您应尽力确定潜在的巨大差距。在上述所有示例中,性能差异都已足够大,计算已非必要。

  ·如果性能差距较小,比如在10%到20%之间,而工作任务是应用的主要组成部分,则的选择是用厂商的开发工具包创建特定的实施方案,检测实际性能差距。

  ·如果您计划购买大量器件,则有关要求可作为RFQ(询价单)的一部分。这让厂商能根据您的特定应用提供器件性能相关信息。


『本文转载自网络,版权归原作者所有,如有侵权请联系删除』

热门文章 更多
基于超声波测距和PSD红外测距的智能语音导盲器(一)