|
EDA365欢迎您!
您需要 登录 才可以下载或查看,没有帐号?注册
x
2 V/ S4 w# M+ W% _, x/ d; V1 _
概括FPGA应用设计中的要点,包括,时钟树、FSM、latch、逻辑仿真四个部分。( o. f; D- l+ I$ T( ?( k! I
* c/ P, H$ x9 Y0 N7 b7 E" U
FPGA的用处比我们平时想象的用处更广泛,原因在于其中集成的模块种类更多,而不仅仅是原来的简单逻辑单元(LE)。5 M4 L0 \: \+ s( ^
: A9 J! @: U/ F; Z- R2 q
早期的FPGA相对比较简单,所有的功能单元仅仅由管脚、内部buffer、LE、RAM构建而成,LE由LUT(查找表)和D触发器构成,RAM也往往容量非常小。" ~1 a C% O+ ^% _' s* y
9 ?& e8 _ \0 M4 R& C% X
现在的FPGA不仅包含以前的LE,RAM也更大更快更灵活,管教IOB也更加的复杂,支持的IO类型也更多,而且内部还集成了一些特殊功能单元,包括:
! \/ k& |! p! @
+ f# C% h' L7 C4 @4 s' @DSP:实际上就是乘加器,FPGA内部可以集成多个乘加器,而一般的DSP芯片往往每个core只有一个。换言之,FPGA可以更容易实现多个DSP core功能。在某些需要大量乘加计算的场合,往往多个乘加器并行工作的速度可以远远超过一个高速乘加器。
2 a+ [4 }4 b( d( ~" A' R
4 F5 u, u! e7 G/ Y# Y# k1 u* uSERDES:高速串行接口。将来PCI-E、XAUI、HT、S-ATA等高速串行接口会越来越多。有了SERDES模块,FPGA可以很容易将这些高速串行接口集成进来,无需再购买专门的接口芯片。
! Y0 k. W1 G( @9 N" A) H1 K/ `) ~8 s5 I- s# S: {5 k5 Y- r
CPU core:分为2种,软core和硬core。软core是用逻辑代码写的CPU模块,可以在任何资源足够的FPGA中实现,使用非常灵活。而且在大容量的FPGA中还可以集成多个软core,实现多核并行处理。硬core是在特定的FPGA内部做好的CPU core,优点是速度快、性能好,缺点是不够灵活。6 ?* P; E. w7 z9 p. t N$ g' A
/ m. c( |4 X) A. V- G. ?
不过,FPGA还是有缺点。对于某些高主频的应用,FPGA就无能为力了。现在虽然理论上FPGA可以支持的500MHz,但在实际设计中,往往200MHz以上工作频率就很难实现了。" |/ R% Y' t- @& n
A0 E3 @6 n5 g: N/ z; f7 n# mFPGA设计要点之一:时钟树
& m S U5 Q1 ^ P; f4 `2 l% T. Z5 J0 D/ ]$ S5 |/ }7 y1 z
对于FPGA来说,要尽可能避免异步设计,尽可能采用同步设计。
8 M$ Z. _1 f3 b v, h: V2 }" h7 v: w
6 @* R& H' {- N8 w( z+ l3 J. U% m( O同步设计的第一个关键,也是关键中的关键,就是时钟树。/ N. N; @4 ?- I6 P
' W4 T% f5 y* v3 `
一个糟糕的时钟树,对FPGA设计来说,是一场无法弥补的灾难,是一个没有打好地基的大楼,崩溃是必然的。6 Z/ r+ u v/ e$ }" k: C0 z
: P3 N' Q: p: k0 P具体一些的设计细则:" X8 G6 d2 q5 k) k
, ]$ e8 S0 i7 l: e
1)尽可能采用单一时钟;% H& \7 R; q" v; q" M! P8 T9 G
# y8 @0 s4 d8 q) {0 k3 E$ m/ h2)如果有多个时钟域,一定要仔细划分,千万小心;2 G8 t w: `! L0 H5 c7 R& h: F
+ R5 d; W9 m( S- d, {3 x8 V3)跨时钟域的信号一定要做同步处理。对于控制信号,可以采用双采样;对于数据信号,可以采用异步fifo。需要注意的是,异步fifo不是万能的,一个异步fifo也只能解决一定范围内的频差问题。
+ t0 F8 J( T4 {6 J2 S/ A8 m
+ ? j) x c Q& q4)尽可能将FPGA内部的PLL、DLL利用起来,这会给你的设计带来大量的好处。& V- W/ S7 G) x" J5 g4 x% }
& i; Q! {: {7 x3 _8 x. \- L
5)对于特殊的IO接口,需要仔细计算Tsu、Tco、Th,并利用PLL、DLL、DDIO、管脚可设置的delay等多种工具来实现。简单对管脚进行Tsu、Tco、Th的约束往往是不行的。# e. J" \3 x1 m. k
* C2 X- F% j' @' C* c
可能说的不是很确切。这里的时钟树实际上泛指时钟方案,主要是时钟域和PLL等的规划,一般情况下不牵扯到走线时延的详细计算(一般都走全局时钟网络和局部时钟网络,时延固定),和ASIC中的时钟树不一样。对于ASIC,就必须对时钟网络的设计、布线、时延计算进行仔细的分析计算才行。
$ r, k+ O+ f) C( J3 L$ B
! f' }& r8 b& j: b7 q) [FPGA设计要点之二:FSM
: l- O' c2 k' x
4 C/ W' ?% T( ?" D( TFSM:有限状态机。这个可以说时逻辑设计的基础。几乎稍微大一点的逻辑设计,几乎都能看得到FSM。+ }8 J# B8 T+ O8 \
1 y* B0 Z4 a5 d9 r. O) ~( i) n
FSM分为moore型和merly型,moore型的状态迁移和变量无关,merly型则有关。实际使用中大部分都采用merly型。3 R5 p/ ]* ]" d# n
* x$ f2 d0 x. Y: K5 l
FSM通常有2种写法:单进程、双进程。
2 h$ v( u0 a, X! c# |6 s2 R
/ [- `( i7 b4 w5 V: b) R4 u" ~初学者往往喜欢单进程写法,格式如下:
& l7 t) ~- x! z3 R0 X9 m8 N$ P7 c% G) E
always @( posedge clk or posedge rst )6 y; @5 Y! b9 E3 A$ c
( b9 A. E9 ~7 B @; Y2 s! {. Tbegin
8 Y9 S l" x2 I# o; Y( L
- b/ C X! i1 c- @9 g! ?% F+ eif ( rst == 1'b1 )9 N; h9 U; ?7 l2 J& y
* ?$ q" \. e- cFSM_status <= ......;. w1 h6 e0 |: t! b! M& U7 g* a4 a5 I
8 X- }6 [/ _/ ^; P6 J5 C2 e5 Oelse
g' D, z: n$ h4 e% s- |/ T4 A8 j: L2 N5 Y& s; m
case ( FSM_status )0 Q) A6 P- v) @6 ?% r! o
% ]. @' t' m0 @0 H1 P......;
7 B3 y3 ~% v( H3 p. x5 X% {! L: A7 H5 O. u" n
endcase' o8 n2 W) Z+ I3 D x' c' W/ a
* T' R/ x5 ?) J9 E5 B/ |end) w# g* G1 D/ E2 A! p; q
' k3 v, \. g9 J" m" _- t# [
简单的说,单进程FSM就是把所有的同步、异步处理都放入一个always中。
n p9 C$ B1 G$ S0 Y) v& O2 j3 @; k5 f+ \7 P$ u. c9 }$ _: p
优点:
6 \; A! |3 O( a) m
B9 H' r. k& q9 ^% W1 |9 K7 O3 L4 G1)看起来比较简单明了,写起来也不用在每个case分支或者if分支中写全对各个信号和状态信号的处理。也可以简单在其中加入一些计数器进行计数处理。
! u1 k8 |6 `$ c; p3 O8 C
6 b# C' W9 s2 d B4 W* c1 X2)所有的输出信号都已经是经过D触发器锁存了。
. f1 Z# q8 ]* U" J! A) A2 h' N
, D# ?4 Y$ A- H2 X缺点:
; H- m$ ^. K* U, b. }0 N
8 i6 z. t) Q: \1)优化效果不佳。由于同步、异步放在一起,编译器一般对异步逻辑的优化效果最好。单进程FSM把同步、异步混杂在一起的结果就是导致编译器优化效果差,往往导致逻辑速度慢、资源消耗多。8 Q) u: E! ?0 Y" k( I
4 s8 r4 h. V. U) Z2 i: N. Z8 s
2)某些时候需要更快的信号输出,不必经过D触发器锁存,这时单进程FSM的处理就比较麻烦了。# B9 [! w& H, E1 T, }
! h1 D( p( d) i$ K- m* b
双进程FSM,格式如下:/ L$ T+ W; E# _" N. o, P% B
% B. A( f$ U) O" n1 [, N1 Y
always @( posedge clk or posedge rst )' m+ p; M8 i. W6 c2 D/ ?
1 h& X j* `( R& p% k& x1 g: M
begin
- M! ^5 s# e1 b+ Y, R6 T
$ |) ^8 C) G, H) N0 qif ( rst == 1'b1 )% f) l. z) x' r) k; i5 ]" J# ~( k1 n
8 P: ^; a1 Z3 Z/ T! h+ s
FSM_status_current <= ...;
7 [5 n/ F! r& g; _: d
9 a$ D6 Y, l: |# |* E0 i# M Jelse
6 q- ^& j @5 d- L1 a3 Y# }. Y2 n7 _% _
FSM_status_current <= FSM_status_next;6 n5 a& T$ f2 _% M& n" v; j; j
: d' Z+ U: S. B* Q
always @(*)
- i# q) }. h# r. ^, z$ S6 t, _" t/ `( D' E; F0 l P+ V
begin7 |* _3 r9 \+ z- A: X2 u3 Q
: ?. M0 e: w0 l$ v
case ( FSM_status_current )
5 O% O. R# c5 ^
1 [- k0 ?6 j' t4 q% n- g j' [3 JFSM_status_next = ......;
; t, `% d5 P1 d& k/ W- R$ H, ~
$ n6 W X8 o, c8 i- |endcase& `& U- ~4 e; n4 p
! H: X+ J- M4 a
end
: O6 d9 t; u4 _& G
4 Q+ c3 M3 X" n5 Y. m: a从上面可以看到,同步处理和异步处理分别放到2个always中。其中FSM状态变量也采用2个来进行控制。双进程FSM的原理我这里就不多说了,在很多逻辑设计书中都有介绍。这里描述起来太费劲。
% P+ s1 X" k- G$ v9 a2 Y# g* ~, Z$ v/ a2 _# c
优点:
1 n: O, n* X- [/ h3 D" P A2 O8 w
/ ^; S% S6 v" l/ u5 \0 n1)编译器优化效果明显,可以得到很理想的速度和资源占用率。
1 |4 i8 [4 u% P* m5 `
( ^, Y3 n; b% z8 G: f' M( f2)所有的输出信号(除了FSM_status_current)都是组合输出的,比单进程FSM快。! v) F3 _( p) }4 l! K
0 M* Q1 T8 [: r/ D
缺点:. u1 d b$ m, D1 \5 C# c
* [$ w( T$ ?$ _3 r1)所有的输出信号(除了FSM_status_current)都是组合输出的,在某些场合需要额外写代码来进行锁存。5 J) h3 w: b& H4 @" T
& D, B% i* Q+ n+ ]2)在异步处理的always中,所有的if、case分支必须把所有的输出信号都赋值,而且不能出现在FSM中的输出信号回送赋值给本FSM中的其他信号的情况,否则会出现 latch。
3 a3 n1 Q8 E Z; l2 B4 d4 W% p t
latch会导致如下问题:
% ?8 k0 t; c" e! }/ N
0 ~7 ?. _" `$ ~4 a; X1)功能仿真结果和后仿不符;
' s* P! }7 N# L- |1 p
, C1 j" b! q4 T" T" |9 O2 T2)出现无法测试的逻辑;3 Y) ]3 \; G3 q: v# M& x+ o
. u3 c$ j4 ]/ H, b1 B2 X' z
3)逻辑工作不稳定,特别是latch部分对毛刺异常敏感;
3 J) q+ g0 Z' ^& n
7 `7 m+ w( v) d- G! A4)某些及其特殊的情况下,如果出现正反馈,可能会导致灾难性的后果。
- a+ E- _; {# J3 \; v* i2 ^4 i5 _* S
这不是恐吓也不是开玩笑,我就亲眼见过一个小伙把他做的逻辑加载上去后,整个FPGA给炸飞了。后来怀疑可能是出现正反馈导致高频振荡,最后导致芯片过热炸掉(这个FPGA芯片没有安装散热片)。
( p. V8 r& v+ J* V4 I. Z4 {
8 c4 A- P R$ b( G/ J2 |FPGA设计要点之三:latch
0 f# q9 X; b# L
7 t# u4 O4 B2 n首先回答一下:* w6 C, [5 Z: \- @
J& e8 Q% s: n% S, w
1)stateCAD没有用过,不过我感觉用这个东东在构建大的系统的时候似乎不是很方便。也许用system C或者system Verilog更好一些。
# _" R0 k9 N' t. t% G
/ ^3 A3 Q, P" N2 W2 W' b2)同步、异步的叫法是我所在公司的习惯叫法,不太对,不过已经习惯了,呵呵。
0 n& X8 U- S) M4 }3 P& o8 _: z+ B7 g2 L) h
这次讲一下latch。
+ |; N( {! [4 v- I- F! ?# p* U, j+ q% R
latch的危害已经说过了,这里不再多说,关键讲一下如何避免。 X1 k" U3 e( z5 U' s; H4 W
: d3 X7 [! t3 ]1)在组合逻辑进程中,if语句一定要有else!并且所有的信号都要在if的所有分支中被赋值。
& j% Y8 @' t) ]8 }1 h* b0 I1 R& d( [8 s* r
always @( * ) begin) g3 h" @. _% U8 v, t( O6 y" [' }
8 ]+ R- {1 j) ]8 W( xif ( sig_a == 1'b1 ) sig_b = sig_c;% g3 b3 y- Q J8 N! @5 ?8 D# s
6 @+ K# E4 o7 b& I& \- @+ yend8 h: z" c9 a. |$ z/ U& I0 ?
! u: U4 y5 ~. [+ _1 ^% }0 t* t
这个是绝对会产生latch的。 b* F% C7 m, _ w9 B3 M! G6 u$ X
8 {' U" q* M" S7 X
正确的应该是
) f5 p' A$ V4 P# T+ w
u D2 M* F( A* t7 @0 {6 salways @( * ) begin. l4 Q$ ^" `" n% X7 |- z9 B
2 b: x/ O- @( q: lif ( sig_a == 1'b1 ) sig_b = sig_c;$ W: _4 K/ ~$ d+ }4 d4 }. o
* |- \. x1 b) L
else sig_b = sig_d;
3 B) V0 `1 y j( u1 J+ S( l( R* R, o' k. F& L
end# Y6 A( y+ t' U( E3 O
" Y" Z5 h# p' b; j9 u' b另外需要注意,下面也会产生latch。也就是说在组合逻辑进程中不能出现自己赋值给自己或者间接出现自己赋值给自己的情况。
0 E* v& R6 a5 f$ L: A
' K8 t9 {( @* H$ I: F1 dalways @( * ) begin
5 |, P7 ?& s. I- K$ C/ D4 @* P) b$ y, E% ?# {6 q
if ( rst == 1'b1 ) counter = 32'h00000000;
W' f, c8 ]+ e, s) r" r0 j3 o
Z1 v: c& z. r0 F- V/ o6 C! `# Zelse counter = counter + 1;
; o. R; l E- k7 N+ o4 J) q
; E0 [0 R( C0 Dend
* v2 w* t& k. w; O( }$ {" f* ?
- f; H1 B# Y' q& ~3 G$ L' K但如果是时序逻辑进程,则不存在该问题。
4 M9 x K/ D' I! o, ~. g0 J# t) ]% |/ W: ?8 p
2)case语句的default一定不能少!
& [3 c4 z( k/ Z W) l5 l
, G/ R$ v; t3 j K& V8 Y原因和if语句相同,这里不再多说了。
4 F* S7 C+ f. A: h' p
" `0 o" e# }! T* e' d需要提醒的是,在时序逻辑进程中,default语句也一定要加上,这是一个很好的习惯。8 A/ O9 e+ m2 Z% e0 w1 e
- L! X; D6 e' E' ]. {+ }3)组合逻辑进程敏感变量不能少也不能多。
p' @1 q- D. E8 L: |! R: z: }# H0 X$ S8 D3 ~ y' f
这个问题倒不是太大,verilog2001语法中可以直接用 * 搞定了。9 f+ J( }. S% k9 X7 @6 t1 T
$ m# b% M' P3 ~0 F: b3 a顺便提一句,latch有弊就一定有利。在FPGA的LE中,总存在一个latch和一个D触发器,在支持DDR的IOE(IOB)中也存在着一个latch来实现DDIO。不过在我们平时的设计中,对latch还是要尽可能的敬而远之。4 ^5 o$ K: p& h. J7 a
1 `* {1 Q: m8 M" P, J) ?/ j. J0 N8 gFPGA设计要点之四:逻辑仿真
- ^& h! r0 O" P- Z9 _4 T% O; x& }% T5 q- z5 D
仿真是FPGA设计中必不可少的一步。没有仿真,就没有一切。
9 C1 C3 h# I6 N3 o
8 A7 E: N- r- M/ x, N q# T仿真是一个单调而繁琐的工作,很容易让人产生放弃或者偷工减料的念头。这时一定要挺住!
1 l+ d; P+ n/ K" a- L7 a( ~3 `. R& v& A# l0 _! k
仿真分为单元仿真、集成仿真、系统仿真。
6 S- V |! Z1 w1 Y
: }* G8 \7 d6 e# _& S% k单元仿真:针对每一个最小基本模块的仿真。单元仿真要求代码行覆盖率、条件分支覆盖率、表达式覆盖率必须达到100%!这三种覆盖率都可以通过MODELSIM来查看,不过需要在编译该模块时要在Compile option中设置好。
0 }% q8 \( \: C3 ^9 l4 Q- {6 P. _2 O; a
集成仿真:将多个大模块合在一起进行仿真。覆盖率要求尽量高。
, [" e8 M/ }4 |9 g! `) r3 p/ \7 y; K2 s+ U+ {( u2 K( r/ v
系统仿真:将整个硬件系统合在一起进行仿真。此时整个仿真平台包含了逻辑周边芯片接口的仿真模型,以及BFM、Testbench等。系统仿真需要根据被仿真逻辑的功能、性能需求仔细设计仿真测试例和仿真测试平台。系统仿真是逻辑设计的一个大分支,是一门需要专门学习的学科。 |
|