找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

巢课
电巢直播8月计划
查看: 2605|回复: 7
打印 上一主题 下一主题

FPGA三国志--第二篇/共四篇 结构篇 不可不看的故事 !【转载】

[复制链接]

604

主题

2859

帖子

1万

积分

EDA365版主(50)

Rank: 5

积分
13638
跳转到指定楼层
1#
发表于 2008-11-13 18:40 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您!

您需要 登录 才可以下载或查看,没有帐号?注册

x
FPGA三国志--第二篇/共四篇 结构篇 不可不看的故事 原创!长篇连载!第3楼有举例Altera FPGA的速度没有Xilinx的速度快,错!当然这种非对称的结构,你必须有一定的了解,才可以更好的利用。也就是要遵循:& \( ?4 v+ {0 ]& w  J

' o( @) v# X0 g2 o大的数据吞吐通道应该采用横向放置规划!, ?/ O# h" L7 X. J* b( e
控制通路采用纵向放置规划!
6 Z5 V/ {; E% R. W* M( |
1 i) q9 `9 A' q" w8 c. V$ GAltera至此以后, 一直沿袭这种结构规划。因此,如果你想有效利用好Altera的产品,就应该遵守这个规则。但是要说明的, 真正能体现性能的东西, 也许就是你意识不到的一种小东西, 就是简单的就是最好的。Altera正是凭借这个简单而高效的布局结构实现了今天的王道!昨天说到这里今天继续开始。 又有很多时候没有提Lattice,在1998年的时候, Lattice和Altera同时都有成为PLD霸主地位的意图。什么可以证明呢, 那就是谁最先推出可以ISP的宏单元超过1000个的PLD。 当然在这个游戏过程中, Altera有一些变化,他有效的将他的Flex8000的布局结构和他的MAX7000进行结合。 从而实现了在PLD规模扩大的同时可以实现
$ v6 \6 g# N6 D2 N1 T/ J
" _6 R' O% t$ n2 U$ N9 Q1--规模的迅速扩大, 可以比肩Xilinx的FPGA
2 Q8 h' ]/ F2 t7 A: m2--局部的快速布线,和ISP,使其在获得规模优势的同时, 保持布线延迟的稳定1 b9 M* `- o( e0 a0 \# |
3--沿用过去MAX7000的适配结构和FPGA的路由, 实现两者有效的统一。 6 [% n$ P8 V' \1 L

$ s; q8 }9 k4 C8 s5 d% _# pAltera在推出他的最大的9560,具有560个宏单元的PLD,登上了无可争议的PLD冠军奖台。
8 m# H7 f4 W( O# N max9000sg.JPG (48.04 KB)
5 R5 e" N4 _: ?% T3 ?' }6 W3 Z2 T& R2008-9-23 21:288 }% I3 E% K' b, _1 `
" E* S! D2 Y+ [! @" H+ F

4 n5 M6 T) }/ G0 V9 M
- ^( ^, N: @3 n3 T! m- s( r0 p1 e当然有的人要说, Lattice有推出1000个左右, 怎么不提呢。 正是因为这点, 导致Lattice步入歧途。 实际上,FPGA世界的游戏规则已经改变了。# p' B: r7 h) B, q0 A( O

0 ]( V) U8 v) z7 z: v' m4 ?7 H0 dMAX9000的成功得益于以下的细微结构。这个时候Altera又一次将自己的颗粒度进行了扩容。 有16个宏聚集在一起, 在实现更多位的加法, 控制, 超前进位,大的多选一的应用中, 可以将这些模块一次性放入一个LAB,同时在LAB内完成路由。 现在已经露出一种迹象。 大的规模要有, 但是速度的需求已经开始了。 所以在FPGA,CPLD的应用中,又有了新的裁判规则, 你不仅要够大, 还有够快
2 x: E: D. g, ~8 D8 I0 V max9000LAB.JPG (38 KB): c/ }4 c5 L5 M( w1 X
2008-9-23 21:54; m# V+ \! R7 f$ U' \

# n# r) [4 C" I9 R' d: x. t2 z+ Z! l- Y8 C* k
6 G* ]/ b8 N' X- s( c- c8 \
这个时候的异步设计还是非常的多, 而且板子上芯片间信号的互联也多起来了, 能够有效缩短Tsu已经成为一个重要的话题。 实际上,就是在IOC上要有DFF,来进行快速锁存, 同时也为所有进入CPLD的总线信号进行第一次整理。 怎么实现很多的异步设计, 看了下面,你就明白了。 第1点,就可以用所有信号的函数输出作为clk,第2点, 有效的将没有用完的资源很好借用给其他的宏, 来用对称的结构实现非对称的应用!用简单的结构,应变不断的变化。
# r3 {4 \4 u9 j7 \1 K: B max9000MC.JPG (42.83 KB); \2 C& G7 U9 r% z
2008-9-23 21:54
9 [: |. p) J- R% \9 e: R0 R' L- C# g) H  f, E# Y
5 @8 |/ ]2 U6 v% A( z
纵观当时其他的PLD,在结构上就落后很多了。 你想, 让你和姚明来争篮板球, 如果你没有人家的身材,赢他恐怕也是嘴上的功夫了
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏2 支持!支持! 反对!反对!

604

主题

2859

帖子

1万

积分

EDA365版主(50)

Rank: 5

积分
13638
2#
 楼主| 发表于 2008-11-13 18:41 | 只看该作者
这个时代的强者就是---谁有最多的逻辑资源, 或者memory,谁就是老大。上面说到Lattice已经在极力扩大自己的身材, 但是他不是靠结构上的改变, 而是Lattice收购了Vantis,也就是AMD的一个做PLD的小部门。 当然在当时, AMD的Mach就这样并入了Lattice的家族。 新的问题就出现了。 好比我们现在有人用什么大灵通, 小灵通, GSM,CDMA,是有百花齐放的感觉, 但是Lattice就像变成了解放前的蒋介石, 没有办法很好的用一套工具来统一使用不同的器件。 而且本身Lattice自己当时的工具也是3个独立的工具拼凑在一起的。 那个年代, 用过Tango,后者Orcad的人都知道, 他们的图形输入是第一名的, 但是和MaxplusII比起来,自动识别对象链接, 以及和Office 95类似的快捷键, 用过Maxplusii的人, 让他们转用Viewlogic等workoffice等, 简直简直就是抹他们的脖子。 还有当时Lattice的销售团队,总是宣扬他们是最好的PLD, 有些人竟然有 “我认为64KROM,就可以应付未来所有的软件需求” 这样的论调, 认为PLD必将击败FPGA, 事实上, 市场的残酷,告诉他们那是个很冷的冬天。 于是他们又一次在2000年左右, 如同水淹七军一样的结局, 又急忙掉转船头, 收购了ORCA,可惜了ORCA是出自Lucent的一条好汉, 由于没有良好的软件支撑, 使得每个工程师必须像哪吒一样。 对了, 怎么会像哪吒? 因为你必须有三头六臂, 如果你公司有些产品需要从32个宏单元到2000个LE的FPGA的应用, 你就必须学习3种工具来适应它。 你想想, 你是不是一定要像哪吒呢!
4 E- d  |6 W5 ?% ^, x# g2 Y/ {2 O1 l1 p1 c" p
FPGA产品结构的共性2 [8 `0 v, d  W: j7 Y' |6 y0 u

; _0 m- |5 e5 Z  X$ ?1--相对的细颗粒结构
) W6 x  ?( L6 [! a2--LUT的查找表结构% g3 e* \5 G$ A# G7 z
3--都有一定的逻辑模块2 u( q- z' v, }+ x

) M+ d: a% Y& H. M  |# _) O* p首先说LUT和MUX的对比, 实际上这两种模式都可以实现逻辑, 例如Quicklogic的FPGA就是基于MUX的, 由于在90年代中期的时候, 很多优秀的工程师大多使用图形的方式输入, 所以,他们那些对于用MUX形式思维的人, 可以利用这种结构得到更好与LUT结构的设计,但是这个没有太多的benchmark来说明。 可是当需要的设计是加加减减的时候, LUT就更加高效, 特别是还有一些进位链的结构更好。 " J9 k! K2 B/ u; Q8 g) o; C

; {7 }; |; p  g9 X1 w, q$ y什么样的LUT比较好! s7 c) o9 i$ A- a' F- p

# H1 j. [3 o5 v4 H) N! ^今天你可能发现基本上很多FPGA的结构是基于4输入的LUT,但是Xilinx早期的FPGA也是3输入的LUT,今天Actel的FPGA也是3输入的LUT。 很多公司宣称这个的粒度更好。 实际上这个结构之前争论太多了。 但是今天大家基本都是4输入的说明了这个的性能和面积是折中的考虑。 . Z+ D/ ~$ J0 E4 ]3 q9 M
" k! z0 y5 g5 @' n
但是今天的V5以及StratixII,III都是5输入以上的LUT,这又说明什么呢。 3 A( C5 `) P- D  D% a1 J, n
9 u  g' B2 v; F) k
因为一个LUT,每增加一位, 存储容量就要增加一倍。 可是当你需要做多个数同时相加,例如A+B+C,这个时候, 6输入的LUT就可以实现这样的功能,因为现在的延迟在路由上会消耗更多。 因此能在一个模块中完成, 这样可能也代表你的关键路径能获得更好的性能。
4 b" U- M- q+ i: f: d8 P; p
1 K1 U& K- x8 X- k/ e可能立即有人说, 那我应该放些3输入的,4输入的, 5输入的LUT进入一个FPGA,这样的利用率就最好了, 实际上,大家都知道基于FPGA结构的综合也是一个卖点, 例如Synplicity公司。 结构的一致性和有规律的重复能使综合更快更加有效。 另外, 当你完成一个综合的时候, 你可以看到现在大多数工具都会告诉你,有多少3输入LE,4输入LE,或者是5,6输入的LE的需求比例。
8 G% Z# ?( s- A- u! P" K" j再次谈结构以及方法学!这里开始讲些看来与我们主题有点不搭界的东西。
3 M2 ~- S5 W! a5 Q& {! p9 N- X7 d) S
1--两个人相遇,只握1次手1 t' L' u# s* q- m; a' @- u
2--三个人相遇,每人都握一次, 握3次手
! |( u0 g' l& v7 U) m/ ?/ j3--4个呢?就是2的结果加3次, 6次手- i+ _0 n2 W* f" O/ P, }# \; ^
4--5个呢?                                  10次手。 7 _+ O" T7 G: `
5--16个呢, 。。。。。。。天, 不少于。。。( ~# j( V: K9 A" B2 P

7 M5 ^% K( D; _; x0 \PLD就是这样的产物, 当逻辑模块不断增加的时候,你会发现, 路由的面积都超过了有效的逻辑面积。 而且, 越大越糟糕. 可以下载这个简单的PPT来发现一些小问题!
- x, L7 A& L0 o! i  \* I8 B$ Z$ f3 {, i5 D3 \/ [
advantagestruc.zip (117.98 KB) advantagestruc.zip (117.98 KB)
9 X. v( X+ U8 b' d) e% r' K下载次数: 103
- f/ |( I2 q/ B2008-9-23 23:18
; Z# d0 t9 }, C6 y9 \4 }4 V; n6 O% f/ f8 A1 R$ ]

9 M0 H0 r! G" H
+ K. p% z6 d1 L" ?8 s实际上今天你可能已经了解的历史, 正是某个公司崛起的密钥。
1 Z/ L, S. [. Y( Z
9 ^* H2 U! m2 `) T% a1984年, Altera就是将CMOS技术和EPROM有效的结合起来, 在消耗的能够忍受的功率范围内, 提高了当时流行的使用密度, 因为, 开始就是设计状态机以及粘连逻辑的。 这里有更早的公司发明PAL。 不过, Altera是最早开创不采用百分百路由技术的用一个中间的互联阵列链接的公司。 因此他的公司产品就叫MAX,是意思为多阵列结构。8 b& l0 ~5 V" D- a+ A0 D. ]
当然这个也必须有好的软件CAE,CAD的支持, 来获得好的布通。 所以说每家FPGA的公司都必须好好研究路由和不同的技术。
& U) L. p: j2 _# Y什么样的数目比较好,对于PLD的宏单元数目实践是检验真理的唯一标准。 有人说了, 256个是最好的结构, 为什么呢, 不然怎么那么多厂商都是在这个范围呢。 实际上, 他是由经济规律决定的, 就是当时用256个的宏单元结构的芯片的面积,和他们卖出的价钱,比较符合当时这些上市公司的利润要求, 所以。。。。。就以这个最流行了。 8 |3 ?. q6 S% n0 o5 A6 O% T
' U4 J+ l; N( F; @
但是Altera进行了很好的变通。 中国有句话叫“玄之又玄,妙之又妙”,什么是玄? 玄就是变通的意思,也是变得意思。 实际上万事万物都是相通的。 那Altera就像我们的学校一样, 每个年级分不同楼层, 每个楼层分不同班级, 每个班级上不同的课。 但是用行列块的方式, 达到既有规模, 也有位置相关性。 而且路由的面积也不会大到赚不到钱。 实际上你自己观察, 近10年 ,Altera的FPGA的主要框架是没有变化的!
- I  o5 c6 K* D% w: X# t! q$ F  }0 D9 D6 B/ M
Xilinx 的FPGA结构, 实际上, 有一个5200系列, 很向Altera的Flex6000,但是没有多久这个东西就不见了。 总之, Xilinx的结构属于称为 “孤岛式”结构, 就是CLB在中间, 路由围着这个孤岛。 在一定的密度的时候 ,这种结构也还是不错的, 当然有一个很重要的结构就是, 他是全对称的。 就是Xilinx的芯片的逻辑上资源的密集度是上小左右对称的。 这个有好处, 但是也有坏处。 Altera的呢,是横向资源丰富, 纵向资源相对较少, 但是, 在局部的横向上, 又可以进行级联LE, DSP,Carry chain 等等。 好了, 给大家举个简单的例子。) i  P. A0 D* T1 B  f

2 r2 @5 q: _  p孤岛式的结构
- O& X, z; q( j8 i# r: n; u* l/ R9 R, F4 k. r& e$ _3 R* z
islandstyle.JPG (96.92 KB)
# @8 z7 Y0 i& J# q! d/ T, w2008-9-23 22:473 M8 X9 G1 e' `1 c

% _1 {1 R7 w4 x& B2 T: h0 _) [" s
* V/ B, l- N% ^+ m+ {9 c; T, V9 v4 }6 Q: O/ B
Altera 的类似的结构, 但是颗粒度大, 从这张图, 应该可以看出altera在横向资源是很丰富的。 就是同一行的资源远多于同一列的。 输入输出就更是了。 当然, 这个和管脚的封装脚的出位不是绝对一一对应的。
0 k% C4 e! Q- \0 a9 O1 D0 ]+ r
8 a1 `3 O4 E* T( l- ~) D5 V: V alteralayout.JPG (81.45 KB)% {, d. R5 b9 K* P2 M# `1 S$ O
2008-9-23 22:52
! }" ]. `- u; _" Q% }
* e0 Q0 r3 H- n: P! I* M1 u/ j8 I- |( f5 h
Stratix的出现在2001年, Altera推出了他们最伟大的产品, Stratix。 当时FPGA的竞争规则又发生了改变
; ^* H/ Z# c1 Y" u0 w* j! w2 T6 N  e3 \2 u: U# w
1 A: [, t# }5 M9 G# Q; n
1---Altera用TRAM的形式和Xilinx的分布式RAM和blockRAM竞争- [3 l# o* f; o! R/ U+ e
2---Altera的PLL性能超越对手5 V6 g- O3 C; ?$ U6 O
3---布通率, 利用率,表现突出。 " P. ]9 I2 [; O: {
2 L' d2 W% H3 ~) m! ^1 N3 f
但是上面这三点, 都不是决定性的。 这个时候, 数据通信对背板走线和背板总线要求已经很高了。 实际上FPGA也摇身变为系统级芯片了。
5 w7 _3 ^! J( Q" h5 P6 L/ k  D; N8 t9 S2 Y4 J
你不仅要有大的逻辑规模, 合理的memory尺寸, 相对丰富的时钟资源, 还有就是要有高速的Serdes,缺少一项,你都会在系统级的应用中只能是亚军!* O1 V+ ^1 e4 I

; c5 \' d, u" |' _/ R( Z刚才说了系统级的应用,已经成了FPGA最残酷的竞争市场。 那么PLD呢, 怎么样了, 实际上自然总是物竞天择!PLD已经变为这样的几种应用了1 Y! V& ?: ?3 l$ r! U8 S; p+ S

' z! v  z# }/ D; y1--输入输出的扩展!& T7 D3 d$ L! R' g7 b' @  ^/ X9 r3 \% A
2--简单总线或者接口的协议转换
1 k. Y, S  q* Q3--对系统级的模块进行配置,或者控制。 + m2 Q  J0 d# q, i; N
4--上电初期的一些管理8 u1 u0 z% J* p7 l$ _
) a; {& V# q& d$ I* t
就像一个国家的海军一样, PLD已经成为一些简单的驱逐舰, 驰骋大洋的, 可以跨海作战的,绝对不是这样的产品可以涵盖的。 所以, 你今天喝可乐的时候, 不会有太多的选择。 偶尔的一些牌子如同过眼烟云, 很快就弹出你的视线了。
7 E: W$ @9 s: X' L$ b4 J0 `) T3 j. b  s. [
! |7 Z  B' A/ H, O. y! t! `是的, 十年前我的很多朋友, 有在Quicklogic,有在Cypress,现在还有一些在不断出产品的公司, 当然, 只能是剑走偏锋。 做些细分市场还是可以继续的。但是三国鼎立的形式已经是不可撼动的事实了。

604

主题

2859

帖子

1万

积分

EDA365版主(50)

Rank: 5

积分
13638
3#
 楼主| 发表于 2008-11-13 18:42 | 只看该作者
北京和深圳的差别?你到过我们的首都北京吗?到过我们的特区深圳吗?这样打比喻是因为我在深圳和北京都旅游或者工作过。实际上我也只是想借用这两个城市的布局来做个比喻。
; T/ v* r- @3 {* s/ T; @+ p北京是比较对称的城市, 有东直门, 西直门。 有东单, 西单等等。 总之, 他的布局就像Xilinx,无数个胡同就是像Xilinx围绕在CLB的路由线。 这些资源在Xilinx的数据手册中有:1 s4 u/ I/ K9 _

! |8 t/ s; R' q& I4 Y- {& a' L" c, c sp3erouting.JPG (57.47 KB)
0 f6 u- c2 N. I1 L3 y. {8 [2008-9-24 17:15
6 }  h/ V4 x& P7 r: |7 [9 Q: w
5 z5 n* o" ^& T; L1 i0 m  o3 ~% a. d' y5 f9 B! [( j

7 ^- w/ I+ Q! D% Q' H  V但是这些胡同间的联线并不是十分充足。 特别是到了规模很大的时候。Altera的呢?在深圳的人, 如果你不认路, 很简单, 只要你走到“深南大道,滨河大道,北环大道“上的任意一条, 你就可以再从这些大道到你要去的地方。 但是前提是 ,这3条大道的宽度要够。 提示一点,这三条大道也是东西走向比较平行的。 而且整个深圳也是一个东西走向的城市, 地下再有一条地铁,在同样资源的情况下, 布通率, 和平均车速是非常好的。 而北京的地铁,是环形的。资源上不如深圳的利用率高, 这里无意于评价城市规划和道路设计。 只是比喻。
8 Y1 Y8 ~- I5 k2 T' T7 F4 C; B9 |2 S: D6 K. J# F
Altera的FPGA就是如同深圳的道路, 他可以让你从列上很自如的转到宽阔的行上, 然后再到达你的目的地。 所以,可以告诉你一个经验。 $ [( x, q/ y5 {/ O
$ z! q3 s; C3 ^) a8 Y( n- w
9 ]" W: C3 w: O8 L% m- j
1---Altera FPGA, 布通率基本在95%左右, 没有太大问题, Stratix最大的产品,有人有99%的布通率) {) @1 \8 z! |5 U! W. }8 C
2---Lattice的FPGA,规模超过20KLEs,布通效率。。。。有愿意透漏的吗?
8 p) _7 H$ n7 v; q: G, w' u3---Xilinx,规模越大,有所恶化。" m' k& K' M8 d( O2 g

) t+ V# L" v- j另外, 这个地方也有颗粒度大带来的好处。 所以, 有些原来看似不精细的地方, 却在规则改变后, 就变得反而是犀利无比。
5 N$ B* `( n  V2 H+ n9 V" e: P0 T运筹学也是很重要的!经常有这样的情况, 大家选择FPGA的时候, 就开始翻看每种FPGA的选型手册, 然后对资源表。 有的甚至直接说:我这个是10万门的。 你的那个是6万门的, 实际上,这些都不是很正确的评估。 如同有人说, 我家的房子4室两厅, 你家的房子3室1厅双卫生间。 到底哪个更大呢? 到底哪个更节能呢。 厨房热水器之间离得很远又是问题。
2 c3 ^" z0 q  s' e. m
$ G) G6 W1 Z  U7 h所以说, 学会正确的评价资源是很重要的。 这个时候还要参照他的结构!!板式的, 还是砖混的!!!, O1 ]. u, X$ D9 I+ I3 f2 ^
; l+ J  v9 V, `2 d1 @) ?5 C$ _- ]
可能你还听说过一个使用面积的问题。 实际上, 有的房子看起来大,走道,不规则的布局,导致很多的地方都不能用!下面看个例子:
# m4 Q4 r7 M' R4 E, @7 O" b0 [: S" ]" i: V/ c4 F1 z5 j

0 K3 K  e; F& m4 n' F hopsource.JPG (22.62 KB). ?: V; U/ G8 S$ l( i1 P
2008-9-24 17:343 P8 j: |4 |- A2 i( Y$ r

! N3 W, n7 y8 E- e; k) M9 M  ?& y/ S7 [7 j/ o" z

: `  G* z% Y6 a左边的Hops代表跨一步的意思, 就是路由转换一次的意思。 这个表什么意思呢。 就是说在S3的路由过程中, 每个路由在第一次,就可以覆盖850LEs中的一个,V5是132. 如果你的逻辑,经过4跨,同样的路径覆盖的区域A的是X的2倍。 代表什么呢, O1 ?" T& H/ I& c& F$ z& s* c

  d3 N5 Y% k& m
6 K8 m/ h3 z2 j9 [$ \# @0 d) ]1---编译速度更快, 因为概率提高, 路由成功率提高
0 @+ y+ S( x1 |2---布通率更高
$ C2 W# b( g2 `3---速度更快!为什么, 90nm以后, LE内部延迟已经不如路由延迟的时间长了。 所以经过的路由多,就会严重降低系统速度。
1 {( J% C7 S5 `% ]3 ?
3 H7 P- v: ~3 {# H5 n6 t当然还有一些好事者, 例如 (http://www.opencores.org) 有很多公开的opencore,大家可以将它们同时尝试放在A,X,L,看谁放的多, 放的快, 系统延迟更小。 这方便数据就不多说了, 可能都成为一门学科都不一定, 因为不同的比对都有benchmark的不同标准。 最终我们应该很清楚的看到。
- p' z; H3 v, k+ a- @! ~1 f6 b+ C* b% f+ z9 c* m
结构真的是很重要,我们能干, 也要看是否站在巨人。。。
) v4 i- f" @+ |( I. a) H
  t' t' `7 i, P% T( ?/ M! r. }% X2 S2 ]; R* F5 I  s3 p( ~5 V
不过呢, 很多时候, 我们的朋友基本上都说: 结构和我无关, 我要学好VHDL, 我要。。。。codingstyle。 这个设计属于系统工程!. D' Z6 X2 L4 R/ v" w
4 p5 @# w$ }) j  S% i) t* Y
. H, u( p8 k% g
FPGA的真正命门和Know How实际上,能做FPGA的公司太多了, 但是能将我们的设计通过算法成功放到这个芯片上,而且算出正确的时间和你的仿真要求的。 就不多了, 说的难听点。 有些领域甚至是没有亚军的竞争!选择小规模PLD, 那些, 不是太重要的问题。 本身就不够养活一票人的产品.
9 d0 \  W% W% W( v7 A! u$ R! [苹果对苹果?目前,很多人都基本上对于新的中档设计都会集中在这连个系列的竞争中, 换言之, 在中国目前以成本为导向的第一要求下, 实际上中小公司的产品选用80%是集中在这里。然后就有人说,我的这个苹果是否和你的苹果互相换一下呢。 这里我们就又有话题了。 5 o$ ]# W3 I$ p

2 s( v' T. z$ [) k) \1 A: S系统门 ,可用门,等效门?实际门2 t( o. k- L( e
6 y; w$ N2 v- U* U* u+ _
这些名词我相信你一定听过很多次, 但是能说清楚的恐怕没有几个,实际上,这些或多或少都有误导和讹传的嫌疑。 甚至也有公司会在型号上标称自己的门数, 最后给设计者的选择就是, 为什么门数一样的产品, 怎么价格差很多。
8 H) G$ Q* m. ]4 F: H; f. v9 s  b& a- n2 |) {
说到这里, 我估计做FPGA的公司现在自己也不能说清楚这些名词到底想透露什么信息给客人, 实际上, 就是想说, 我的门比你的多, 因此, 大家在比较的时候, 一定要搞清楚你脑袋里面的门和他们说的门是一样的吗?
( M: |  w0 B1 I8 e: u
: a( V5 {, J: V: K$ R正确的方式:
2 K6 P4 D9 J' j2 j/ s/ @6 \
* g; r' o2 [" q9 E0 g& ^# B1--我需要大概多少逻辑资源, 也就是LUT和Reg的数目, 0 A* V1 R! h; `

/ a) r( D* Y! Q' R/ W: e& E. l/ O" i2--我需要多少memory,以及块: U2 ^) Y4 `; L( k$ p9 c
. M3 z4 c3 s% \! t# S9 G% ~
3--我需要多少个DSP单元来完成, 同时也要看DSP单元和memory的比例, 一般要有1:1.5以上块的比例, 有人问为什么, 例如两个操作数的队列, 进行乘法累加, 就是需要两个memory和一个DSP,但是也有一些需要固定的操作数和可变的操作数队列,这样就不需要1:2的了, 实际上, 现在有些RAM块还可以分割为两个来使用呢。
6 x- y% {! E  ^- [' S
) E. h4 Z+ ]" w; t; v4--还有我需要多少个LVDS以及serdes等
7 l# j2 a) Y& l% i5--功耗。。。。# W, ?$ y  e7 q" H: P' n

2 R* c, m5 y/ m1 ^3 N因此没有这样的对比, 你就只好听人家用各种各样的门来忽悠你吧。

604

主题

2859

帖子

1万

积分

EDA365版主(50)

Rank: 5

积分
13638
4#
 楼主| 发表于 2008-11-13 18:45 | 只看该作者
Cyclone III 与 Spartan3 的对决--苹果对苹果?经常有人说,为什么你们的LEs数目相同, 价格很不同。 做些解释, 一家之言。
# |1 M5 E; q6 g, z. J5 E1 P9 ]' S4 s! M4 }
1---在今天,尽管是可以编程的器件,还是有不灵活的地方。 例如, 你的应用决定你对什么资源敏感* N% c% g" p* {' u. U
2--不同市场也有不同的关注。 没有哪个东西绝对适合, 只能是系列之间互相交叉来完成。
0 R7 m& i- P+ s, m
% V* `1 F9 l0 H  L有一点要说,那些所谓我的是多少系统门的比较方式, 是典型的大忽悠模式
% }/ @$ Q* v  B! m) G0 X3 t! n7 i! E: ?# h6 @6 g$ Q7 B3 X. j
比较产品有很多benchmark。 这里列举一些。 不全的地方, 可以大家补充。 3 `& m1 Y% I/ L8 D7 d

5 }0 M, F: b1 I; o' w* A8 J1--工艺2 F9 C3 ]! V& T% M& f  e
% W- d6 O8 p" x
Cyclone III,65nm  L  v2 i5 d' G. X
Spartan3, 90nm
8 K' V8 C. h. k
  U( f7 }# t1 S! X8 H眼前看, 90nm是主流工艺, 但是未来降价空间在2009年中达到轨点, 另外,65nm的功耗不用说,35%的优势轻轻松松。
% W: C# j3 Q% [0 T6 I( B1 r* w
/ f6 V7 h+ O2 @  A2 n. ?8 @2--设计学+ |" M3 R& f8 G
; s: O: J/ ?# a7 ^& D
CycloneIII ---LP工艺, 有很多人不理解这个,同样的设计采用LP和不采用就很大不同。 4 y1 R$ W+ |+ x) f5 |
Spartan3--没有采用
1 `, s' h1 Z7 T) o% i: n
, y8 t5 y9 k# B/ l) b4 F3--规模1 C! N+ O6 G) _% k4 Y; E; H5 T) `
4 J* B& ]; b5 V/ @. @2 I$ M5 N
Spartan3,3e,3a,3an, 覆盖区域不同, 从1K到40KLE左右
5 T& }4 y' l# X) m' S$ OCycloneIII: 典型长中长焦距镜头, 5K到120K,4 a; a/ D5 D' g4 X+ X

$ h- q/ R2 Z) m3 X40K 以上, 基本上Spartan3没有产品,可以用V5, V5定义为Highend, S3定义为Lowercost- Z! Z# y6 C+ h9 h/ {
无线,DSLAM,医疗, 平均规模在25KLE到80KLEs为最多, CycloneIII解决了有无问题
  c" p/ E( u) n7 t# ~9 K) K
: E" |% T6 A6 ]* n+ h. b4--Memory1 p6 H9 j# X& A* s" E
2 ]- W: m- W/ K: Z: t" @0 f
这个是CycloneIII的幸运之处, 当时可能设计上没有这么大吧。
+ ?. V7 y4 Y. V8 Z9K块, 总容量绝对平均高出S为30%, 块数也同样。 Sp3dsp例外, 但是他只有两个孩子。定焦镜头。要符合你的品味。
/ @- d( b( Z+ A: ?6 q4 @6 H4 q% l* O* G6 m% n
memory多影响到: CPU速度的提高, DSP应用,DUC,DDC,FIR等,级数上可以做更多。 速度高, 还可以提高复用。   O& D2 P6 _. r0 {

* [7 A4 P* _9 _! r) g& h, h. m5--乘法器, 一个18x18的乘法器,相当于350-450个LEs,当然流水的话要另外算。 8 G% r& K( i8 X, x! Y$ z

- Q" K* f, V! D* X" s6--PLL: Altera是模拟的, X是数字的。 恢复性和收敛速度那毫无疑问,地球人都知道模拟的好。 A的时钟树更是多# O4 ~* [6 L  [+ v, E

% Q6 G  s- ?% k$ g; k% C. K. p7 d! f7--布局: 从左到有, 基本符合多时钟域交叉,
0 D# n- a( v; c2 I7 U! R) t# d  k- y
如: LVDS入, 经过第一级FIFO,进行时钟域交叉, 或者数据交叉, 第一次处理, 然后经过中间逻辑加工,参数重加载等,然后进入乘法器, 可以级联, 然后有通过通用逻辑池进行加工, 再次通过FIFO或者RAM来对接下一级。 ' v% s3 u0 f& O$ Y" K: i9 I2 F

: y4 h. a& D4 b9 b其他行可以独立构成NiosII等, 布局收敛性一流。 我尽量找个照片来显示。 9 D* W% I4 v6 @' b
3 l  u  x+ V/ @) ?2 ~3 ~

& P5 {1 L- ~8 q, f6 i, @所以不是简单说我的苹果和你的苹果一样。 S3只有销价处理才是真正的出路。
+ E3 \/ N/ u: g- ^+ _" b9 L0 @5 ~. a3 R$ g* Z

+ Q$ D; F) s! ]6 fCyclone III的巧合。Cyclone III的诞生,可以说也是有划时代意义的。但是赢得偶然,其中已有些必然。下面来说说这个东西。
5 z7 V5 l+ P( d; w  v" Z) m: U/ J4 Q- R8 p
前面有人说过Xilinx的V5不错, 但是如果说V5和StatixIII带有Serdes的产品同时间面世的话。 作为设计者, 可能问题就来了。 太多选择就是难以选择
. f! W. |9 K1 {% Z. T/ W  n# G2 c& S4 V# C6 M4 H2 e
StratixIII 速度快, 布线好, 但是没有Serdes
% p0 ~2 S) b. g( @! b& C( U5 Q5 p! K, uV5速度布线都不错, 出来的早, 快人一步也是卖点。
8 ^/ w2 c* n( n) c' i9 l7 Z' a' }( L8 V. N9 K
但是呢?这两个产品都很贵。
0 Q' [6 e6 Q  d" k- g: k3 p# g" ]3 G  c% s7 U5 q4 |, E0 @
由于Xilinx很重视高端用户, 因此他们也认为Spartan3可以解决目前很多需要,这个也对, 因此他们计划在45nm左右推出Spartan的升级产品。% T" x" h7 Q& L5 \% G

. l$ J# i& @4 P. OCyclone III,正好赶上高端DSP处理市场的繁荣, 以前Xilinx的website上面也有这方面的迹象。 号称Xilinx也是一个DSP的公司。 这个也要得益于其他生态链软件系统的发展, Matlab的simulink,* \) P& ]. `! r% w+ f4 _1 e

  Z5 v7 j/ f, `: x! N$ m8 `' q0 a另外, 目前的有线系统中对Memory的需求也非常高, 作为有效的缓冲也需要更多的空间。
$ A/ i7 |2 ~% k& }  O( g3 g! W举例来说, 一个Video的应用。 需要一些滤波或者其他的应用, 那需要的FIR的Tap数目实际上是可大可小的。 但是以前他们认为逻辑资源的比例太多于DSP的建立资源。 导致很多设计用30万个LE的资源的FPGA,实际上, Logic资源利用在30%左右, 而Memory仍旧显得很局促。 还有一个就是用DDR2的设计也有增多的趋势,
3 |, E$ W( H* e# o' W
6 y& x) _" {  f0 V3 h; |: W4 i
% n1 R: j% f$ m8 {$ W2 Q还有就是中型设计的比重已经上升很快, 就是在3年前, 大家很多集中在6000个LE左右的资源。 而紧接着的趋势是200个500个左右的资源和10000个LE资源的迅速两级化。 另外一个增长就是50000个LE左右的区间, 而这部分长期以来都是Stratix和v4,v5的传统空间。 可是现在由于memory,mulitiplier的增加, 导致系统性能也可以用CycloneIII实现资源换取速度和效率的方案。 因此CycloneIII的资源也能利用低价格来和高端FPGA分一杯羹。 2 X6 Q) Q, U/ o9 q  o

5 j: H6 k5 ]% Z% y/ i% |7 F1 V但是CycloneIII尽管有价格优势, 逻辑和memory的优势, 可是在Serdes的应用上, 还是一片空白。 这也是大家觉得他的缺憾所在。 ) i0 J7 \; |2 M0 O; h
  m5 [6 I* Z5 n9 Y: ?$ }. ?
总之, CycloneIII和Spartan3 DSPA系列的推广, 已经有一个暗示的信号,就是, c$ o0 N/ Q) v, P
  a, ^/ Z* Y% a* \
多块,大容量memory,Serdes可选的特点将成为新的中级FPGA市场的标杆了。
$ k8 n( H) ~/ @1 E: B- O" J4 S2 f$ c. A7 H  s. h
9 G9 z2 x- q5 L+ Z
为什么Cyclone,或者说Altera的粗颗粒有一定的好处?大家都知道, Altera的结构可以说看起来是大开大合, 实际上是粗中有细。
. j* ?4 k  m# Q4 i% o4 a& e5 j以前一个LAB有8个LE,大家都可以理解, 后来又发展成有10个LE,有16个LEs" O! d& o, x: Q" V0 p- s
cycloneLAB.JPG (30.67 KB)# u. u* t" }8 z$ m* V% z
2008-10-8 22:35/ n1 y0 Y; U& j$ }! g2 h) }

7 ?" u7 p1 B) P9 A5 o
7 s3 k. g( W& w如果你有一个计数器,假定在Cyclone里和Spartan里面跑, Cyclone和Spartan在做8位计数器方面应该是不相上下, 但是, 当在16位计数器还要跑同样的速度, 而且保证路由资源最简单的时候, Cyclone的优势, 或者说A家的优势就来了。
6 b7 p& ]1 r; \! @3 X# y! g8 V
8 s, z" ]2 B# [4 @
1 P# S, K9 K! y* B, ]6 X- }大家都知道,计数器就是进位翻转的传递链路是他性能的关键路径, 换句话说, 16位的计数器,就是两个8位计数器的级联,唯一区别的复杂度就是8位的传递时间如果是8x,那16位的就是16x了。 用另外一种方式来思考:2 \4 E. \9 z! B5 b; b. B
" C- K* o6 k$ K8 E
8位的计数器, 在到达FE这个数字的时候, 就用一个DFF进行一次隔离, 提前一个时钟节拍将进位准备好, 这样就将一个16位的计数器的复杂度降低到了8位一个样子。 可是原本Cyclone的LAB就有10个LE,因此为了防止毛刺的问题以及刚才需要一个插入的DFF,就刚好放在一个LAB里面, LAB里面的路由是最快的, 而且编译基本不太花时间。 同时也为设计流水线的译码技术, 提供两级的DFF延迟, 但是这些全部做到了放在一个LAB。 : U3 q6 x2 b$ v/ _
! p( E& N/ V& w/ s, d, c3 [! Z8 Z
大家回顾一下我们的设计, 不就是计数器, 加多选一, 什么FSM就是那几个玩意来回的组合。 然后中间加流水, 再平衡流水寄存器之间的路由。 没有新的发明, 只有新的组合。 但是Altera这样的结构就相对来说。。哈哈又要吹一下牛皮了。# j. h" n5 m# I. ^; K0 s
$ E3 m& m. N+ c+ t' @0 y, Q' Y

; s7 Y( L8 i' o. q! h6 m过去10年FPGA产业的发展和FPGA厂商的挑战?过去10年, FPGA产业发生了些重要变化, 简要3点:3 `1 K9 }: k8 S: z! q- r3 }+ \
7 ~  h" }! P. I4 m3 W  \
逻辑数量超过10年前50倍, , t! \' N& y2 G, ~# E
存储容量超过100倍( ?! ?6 {0 J6 ]+ x
Serdes速度接近10G(Xilinx6.5G)
" G9 X6 Q! Z" s" B# R/ Y消耗功耗只提高10倍多些。

7 b6 y5 _! t. `1 d0 P  y  n3 L: Y===============================
$ S0 E4 }1 M! ^  b% i" N
! G! _; x/ s* A2 K6 {编译算法和综合算法的提高  s; c  w  \; E2 ~: S2 L* S
和结构结合的物理综合
7 i. d$ D# b8 Y$ Y编译平台多CPU的支持, 例如4核CPU的PC
( H2 l% t2 k1 W. s递增编译和编译约束的更好支持

5 j, y# P6 p+ [
; l) b+ {! L3 w# G1 d
; p4 O+ Q" J6 b. e  W$ A0 e" }cycloneIII结构和Spartan3,V5在结构上的对比。主要指DSP应用或者数据链应用结构上的差异,首先看一下简单的结构上的! w9 ?; @( ?: S, j9 ]) D0 |* A, A- m& F
c3v5s3ram.jpg (142.15 KB)5 M# [1 o$ F3 I: F
2008-10-30 00:51
: u. j( X) Z0 V6 e( B3 n2 g3 T) C/ I. a0 ^

# u0 Q3 Q# z( e" X2 O# C% i9 k+ z5 ~1 T( W& f# l; g
CycloneIII或者V5, 或者S3
4 E8 `1 C' X; J, L0 C! T- X: H' n: n6 ?
乘法器的数目乘以2,就是大概的RAM块, 但是到了稍微大点规模的时候, 就是RAM块的个数有大于乘法器的个数的趋势增大了。 而且CycloneIII的RAM块的个数有比较大的优势。 1 Z# O+ i! I9 _7 x0 |+ q8 E3 b
0 b% n) w" H3 l' Q$ t. Q
另外一个重要的参数。 7 B( h( f, i5 `( w
" f8 G0 V0 n$ T! C* o
V5,110规模的RAM的容量和CIII的120的容量基本相当。 / O* N+ k4 C9 j' r( r+ y
S3的两个和CIII的40,55这两个兄弟的容量基本相当。 6 x6 F- O. \8 e; L3 c

( q5 c+ J3 |4 x- j" e" @% y2 n+ t, z这个时候。 我们再来看FPGA在DSP上是如何应用的。
- P1 p  i+ L0 G
; p$ j' F$ P: D4 b# T5 K实际上数字信号处理,可以看成就是一些信号的延迟和一些信号的卷积, 也就是象下面的结构图, 这里信号的输入, 输出, 以及参数都是需要FIFO来完成。 那么在FPGA中就是要靠BlockRam来实现。 有些人可能问, 那为什么不都是RAM的个数两倍于乘法器的个数, 这里要注意到是, 当乘法器可以复用的时候, 就可以认为RAM块的个数是DSP应用的关键因素了, 例如, 是否可以实现更多级数的FIR,是否可以实现更多级数的FFT等。
, h7 f1 Q  S, g7 O
: e9 h" N7 @$ {- A因此, DSP应用中关键的因素就是
! ~1 a9 r3 Z  S1 a
8 t$ Z* K  g  K; ?. D1--,memory的总容量很重要
& t2 k' R, k/ c) m0 T: E2---memory的块数更加重要,
- p  a2 |' E1 `
# \& p2 m  Z1 H* Y- N如果这两个因素可以表现比较好, 就说明他更加适合DSP的应用。 因此你选择器件的时候, 这就是两个关键的因素。 / K6 @# e* c! _

$ S: q5 Q  g4 o4 A& W- U DSPapp'.jpg (27.33 KB)
* s  E3 Q' c% S) B7 C  M2008-10-30 01:07
# U' w4 _% _5 n! U. m( D6 g7 `8 T7 e$ u, ~7 h) e) d* ?/ }& `

* ^& ?* {0 _4 u  f7 s) F. @
0 P, M" l) G$ }; K9 y3 O3 R( S
2 x1 U9 T4 K6 R8 P: {
7 @5 S  Z4 h/ Q# k0 K, S他们的分歧在哪里呢?大家实际上可以看到的主要分歧就是StatixIII中ALM结构和V5中的6-LUT结构的比较, Altera认为是1个ALM相当于1.8个以6输入LUT为基础的逻辑单元结构。 但是Xilinx认为是1.2个, 因此就得出截然不同的结论。
# E/ b1 g: n$ t6 R; C: _3 `" C) d0 W, S' y% e* i
这里Xilinx说,Altera的设计样本中有很多是经过挑选比较适合Statix结构的, 也就是说Register-rich的设计相对来说Altera是占便宜的。 如果只是比较大扇入的LUT,Xilinx应该有优势。
6 M; `% O9 N) s" |
6 e3 ^8 C9 G! Y5 `1 s; X不过我搜索了一些文章, 又发现一些不同的论调和Altera的论文。 3 ]+ i" R5 x+ y9 c# y
3 [' y( g* T: s9 |
1---用流行的第三方的IPcore来测试谁的器件更加有好的布通率和利用率% ~/ }' M9 A/ J2 W# Z! ~6 T
2---用第三方的综合工具来进行综合* Q% G, m0 O2 w- X; W

. ]7 P# t! ?* _3 k  @/ V$ B: ]  Z大家可以看到这里链接, 尽管是Altera的人写的, 但是也有一些借鉴的意义。 1 g8 M/ N  \+ U" k2 o. V

$ j% c! ^# t# T* Xhttp://www.pldesignline.com/showArticle.jhtml?articleID=197005332
  e+ b1 e; I9 I# P( D
( _7 @& L2 `- ~, a* k( B这里也有一些我自己的见解。我用红色画上不同点。
2 B8 T1 D" U/ _0 C
8 i! ^+ l2 V% a$ Y8 Q V5andS3.jpg (68.66 KB)
8 J8 a: o8 f! O& C' C2008-11-2 13:48- H" x; @+ S+ t; I

% _2 L: u* b' Z3 ]  P* V
4 G4 d0 |( s& F1 N8 t# i( s  }" C( G+ S! ]5 ?- e
可以采用另外一种说法: % D; z. {+ J$ P6 |/ `
ALM是一个至少6输入LUT, 有时8输入的有至少4个输出的包含2个DFF的结构。 / h2 N; S/ T" N: |* ~* R0 j  h* @
. f7 p1 P% p' X6 e
V5 的单元是一个6输入LUT,有3个输出的包含一个DFF的结构。 1 E2 K. ~8 {- s) M5 g8 B/ s
! H& N8 x( D( v1 f, a- {
如果你的设计是全同步, 多级流水结构的设计, 那么S3占有上风。 如果不是Rigester敏感的, 要看运气
0 i2 \! k% P2 v& Q2 L, s6 v9 S& ^2 }8 g
如果你的设计中有很多高性能的宽度比较大的总线结构, 那么S3也相对占上风。 # h/ P. H5 j7 K: G+ c$ f4 o/ W

3 K: r* u) Q& h7 x' K1 l在资源利用率为70%的时候, SIII和V5区别不大, 在超过这个的时候, 要具体情况视乎最终结果来看。 根据双方提供的资料, SIII在20%的设计中拥有两倍以上的等效容量比V5,在5%的设计中,V5的容量和SIII相同。 以下内容出自Xilinx的论文:: I+ x. \1 }3 R4 e# Q; k

$ b; ?/ W3 p# |# z% u xilinxtechv5.jpg (59.39 KB)4 d1 Q  J7 ~0 B
2008-11-2 13:48
+ N' C2 s' ?1 t
/ {1 ?2 O- H6 }, A5 S8 Y, H/ j7 B
更加权威或者说学术论证的说法大家知道, 产业界总是以引用谁的文章次数的多寡来说明这篇文章的重要性。 1 u; C+ s3 Z8 ^0 b6 Q

" k4 B( `9 g( `, K在Google上搜索以及切的图形! f" s( u6 Q0 y$ @
3 ]/ U* Y" t4 x" Z* \5 J
IEEEFPGA.jpg (157.53 KB): z5 ]8 ?+ ^' f; y+ A2 W
2008-11-2 14:142 G% a6 y  L5 |* A3 s) s9 x
  W! }: r+ z, w. \9 e: v
: ^1 G' h/ S- `) u$ S$ z" ?
1 Q# F6 N& h+ h# K% n  T- c9 ]

' ^$ X' \% q. W0 z' q8 I( dThe effect of logic block architecture on FPGA performance1 H1 A% h" n. I1 X
Singh, S.   Rose, J.   Chow, P.   Lewis, D.   
6 Q) k1 ]$ l- P- j8 k4 nDept. of Electr. Eng., Toronto Univ., Ont.;/ W3 [0 y& C0 ?; {

& o8 j, V$ Q7 e
0 S7 P5 h6 n& T9 BThis paper appears in: Solid-State Circuits, IEEE Journal of
% U: b/ L5 `: r+ cPublication Date: Mar 1992
, C  d) G: k0 K6 H4 |4 aVolume: 27,  Issue: 3
0 w+ |) B1 K0 x  D( M7 z$ }' D# SOn page(s): 281-287! r6 r& L' a( S' l$ j
ISSN: 0018-9200
/ d* H  S! H1 s, O' u6 C7 [References Cited: 29
: K6 Z- e, J9 ]+ w( |' p" I! oCODEN: IJSCBC
' @4 V  F: j' c: O% EINSPEC Accession Number: 41389576 S9 O+ f( D0 v" k6 u3 d
Digital Object Identifier: 10.1109/4.121549
4 d# |* P2 t5 bCurrent Version Published: 2002-08-06 ' R/ o4 I* t2 |. ~, A/ u$ p- ]. c

! g* K+ E6 z) e, n! D8 [) N8 I
7 [  m' R$ J& v" @% {  [5 y
; D* Q8 S& J7 H* |% ]8 M$ d
+ a/ @+ o' U- O6 D
Abstract
/ N/ b7 J  _" f2 U$ [- k& BThis authors explore the effect of logic block architecture on the speed of a field-programmable gate array (FPGA). Four classes of logic block architecture are investigated: NAND gates, multiplexer configurations, lookup tables, and wide-input AND-OR gates. An experimental approach is taken, in which each of a set of benchmark logic circuits is synthesized into FPGAs that use different logic blocks. The speed of the resulting FPGA implementations using each logic block is measured. While the results depend on the delay of the programmable routing, experiments indicate that five- and six-input lookup tables and certain multiplexer configurations produce the lowest total delay over realistic values of routing delay. The fine grain blocks, such as the two-input NAND gate, exhibit poor performance because these gates require many levels of logic block to implement the circuits and hence require a large routing delay' `7 ^: H, e9 b7 V; x& d6 p

7 }$ w% A/ }  A, |4 @5 j# R9 d- `; N$ X1 t3 s* j
这篇文章是来自IEEE的论文, 已经可以看到,目前的高端FPGA的结构都已经向着“粗颗粒,部分基于MUX,可以打包或者分开使用组合和时序资源”的方向发展。
" ?8 ?+ n8 f1 u- S, U) z
. ?& Q( m+ N& ?2 u% X- u7 I( S而当初讥笑altera最早采用粗颗粒结构的人是万万没有想到,当标准到了一定程度的时候, 裁判规则又发生了质的变化。
; X  R( i3 u1 z6 ?1 p; Z2 v
$ E, N. L# b, |6 i7 w) i
6 a7 C' ^' W9 ?为什么又回到了粗颗粒的结构呢?现在大家在利用大规模的,例如以20K逻辑单元来说, 经常有编译时间在20分钟以上, 以2C35,3S1400A为例, 在1G内存的非双核的笔记本电脑上, 基本上都要编译大约25分钟, 我当时就以多少K资源来衡量需要多少分钟, 今天的Altera最大的530K逻辑资源, 可以认为需要接近530分钟, 就是大概要10个钟头, 实际结果估计差不太多, 当然这个要用更先进的处理器的PC应该可以接近, 因为用2S180跑3个钟头也很正常。 # k3 A, W8 e  Z/ Y
实际上, 结构的不同和算法也有很密切的关系。 不好的结构, 可能也导致最后没有办法完成布局布线。
. Z) N, B2 W+ |% Q% D6 O
* ]& o1 H" U6 p" U2 Q6 [以前有很多低于4个输入的LUT,或者就是可以拆分成多个小单元的Mux结构的FPGA,称呼自己为细颗粒的。 总之都是以一个LUT加上一个时序的寄存器为基本结构。 这样的缺点就是当设计不是对REG很敏感的时候, 就有很多REG的浪费。 FPGA的细颗粒呢, 可能是基于以前ASIC的思想, 就是可以用更小的单元连在相关的小面积内, 来实现大颗粒的功能, 但是大家应该已经知道我说的那个握手的例子了。 细颗粒的实际逻辑综合显示其效率比较低,而FPGA也必须改名为可编程联线结构, 因为需要太多的联线,路径资源限制了很多应用的成功。 布线不通。 大家都知道, Altera的创新就是以最少的连接线尽可能联通更多的资源。 而且路径太多,必然导致延迟太大, 这也就是现在几乎高端的FPGA无一例外都是粗颗粒的了。 " J1 E% l% ]+ ?0 {; Y$ ~
( q& ?- K/ w6 c$ }0 R+ b* s
当然小规模的, 100个LE,到5K个LE的,可能还有些喜欢用细颗粒结构的。

4

主题

204

帖子

-1万

积分

未知游客(0)

积分
-11837
5#
发表于 2009-3-17 13:08 | 只看该作者
谢谢提供

12

主题

348

帖子

3902

积分

五级会员(50)

Rank: 5

积分
3902
6#
发表于 2009-5-27 22:28 | 只看该作者
好,好,还是好没啥说的啦

1

主题

57

帖子

-8943

积分

未知游客(0)

积分
-8943
7#
发表于 2009-5-30 15:34 | 只看该作者
好哦
& w, @1 i# g( S1 z( F, F学习学习

10

主题

88

帖子

625

积分

三级会员(30)

Rank: 3Rank: 3Rank: 3

积分
625
8#
发表于 2009-7-9 06:44 | 只看该作者
写得太好了,学习一下先!
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

推荐内容上一条 /1 下一条

巢课

技术风云榜

关于我们|手机版|EDA365 ( 粤ICP备18020198号 )

GMT+8, 2024-12-27 04:11 , Processed in 0.068027 second(s), 33 queries , Gzip On.

深圳市墨知创新科技有限公司

地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

快速回复 返回顶部 返回列表