|
EDA365欢迎您!
您需要 登录 才可以下载或查看,没有帐号?注册
x
首先,我们先了解一下内存的大体结构工作流程,这样会比较容量理解这些参数在其中所起到的作用。这部分的讲述运用DDR3的简化时序图。& I2 B% i! V: ^/ f# m6 A. \9 m
, E( h- x* H, @* A! H* E DDR3的内部是一个存储阵列,将数据“填”进去,你可以它想象成一张表格。和表格的检索原理一样,先指定一个行(Row),再指定一个列(Column),我们就可以准确地找到所需要的单元格,这就是内存芯片寻址的基本原理。对于内存,这个单元格可称为存储单元,那么这个表格(存储阵列)就是逻辑 Bank(LogicalBank,下面简称Bank)。
1 V* |6 F) s( }- Y. J
" E0 P* f o+ U: ~5 t' k' B) _- p' J5 g
/ `1 @% a- U8 S! U1 e) U$ Z% n. V# g8 U' _# U: O! X1 K# R
<img src="http://image61.360doc.com/DownloadImg/2013/06/0817/33026688_1.png" />6 d3 N* ?' l c) |( J( a
DDR3内部Bank示意图,这是一个NXN的阵列,B代表Bank地址编号,C代表列地址编号,R代表行地址编号。
# { P% p8 L+ \0 J( J( B7 a7 }# @9 ~- c6 n4 P* |" j
如果寻址命令是B1、R2、C6,就能确定地址是图中红格的位置
8 E- M+ D5 e: s8 x5 V% d( w
! T4 E8 ?! b$ i 目前DDR3内存芯片基本上都是8个Bank设计,也就是说一共有8个这样的“表格”。
2 r; J9 y8 v% x2 g G' |; u5 Z4 d$ J
寻址的流程也就是先指定Bank地址,再指定行地址,然后指列地址最终的确寻址单元。
' x9 U3 k8 D7 S" w& k! O4 B7 I. F* A. Y% |+ I
目前DDR3系统而言,还存在物理Bank的概念,这是对内存子系统的一个相关术语,并不针对内存芯片。内存为了保证CPU正常工作,必须一次传输完CPU 在一个传输周期内所需要的数据。而CPU在一个传输周期能接受的数据容量就是CPU数据总线的位宽,单位是bit(位)。控制内存与CPU之间数据交换的北桥芯片也因此将内存总线的数据位宽等同于CPU数据总线的位宽,这个位宽就称为物理Bank(PhysicalBank,有的资料称之为Rank)的位宽。目前这个位宽基本为64bit。
/ A) m) Q# o4 u$ @5 @( U- R8 ]0 w, K l8 I/ o# k M" t
在实际工作中,Bank地址与相应的行地址是同时发出的,此时这个命令称之为“行激活”(RowActive)。在此之后,将发送列地址寻址命令与具体的操作命令(是读还是写),这两个命令也是同时发出的,所以一般都会以“读/写命令”来表示列寻址。根据相关的标准,从行有效到读/写命令发出之间的间隔被定义为tRCD,即RAStoCASDelay(RAS至CAS延迟,RAS就是行地址选通脉冲,CAS就是列地址选通脉冲),我们可以理解为行选通周期。tRCD是DDR的一个重要时序参数,广义的tRCD以时钟周期(tCK,ClockTime)数为单位,比如tRCD=3,就代表延迟周期为两个时钟周期,具体到确切的时间,则要根据时钟频率而定,DDR3-800,tRCD=3,代表30ns的延迟。8 X% z5 {& ^/ U1 t3 d1 S, k6 C+ t
* Y3 \- J" T- O2 L3 u
& v8 Y' H3 N0 `# a O. g
: `7 C/ E+ p( p0 i0 t7 Y<img src="http://image61.360doc.com/DownloadImg/2013/06/0817/33026688_2.png" /># p r& q- ?3 L! m7 Q# M
图中显示的是tRCD=3
# Z3 s/ L7 t/ i$ S3 V' n3 ^) e
9 A. y$ D. ?, |$ @" d+ N z 接下来,相关的列地址被选中之后,将会触发数据传输,但从存储单元中输出到真正出现在内存芯片的I/O接口之间还需要一定的时间(数据触发本身就有延迟,而且还需要进行信号放大),这段时间就是非常著名的CL(CASLatency,列地址脉冲选通潜伏期)。CL的数值与tRCD一样,以时钟周期数表示。如DDR3-800,时钟频率为100MHz,时钟周期为10ns,如果CL=2就意味着20ns的潜伏期。不过CL只是针对读取操作。, m7 s4 v& e6 F v
! D/ l: A6 |2 r8 v; b! ?' V 由于芯片体积的原因,存储单元中的电容容量很小,所以信号要经过放大来保证其有效的识别性,这个放大/驱动工作由S-AMP负责,一个存储体对应一个S- AMP通道。但它要有一个准备时间才能保证信号的发送强度(事前还要进行电压比较以进行逻辑电平的判断),因此从数据I/O总线上有数据输出之前的一个时钟上升沿开始,数据即已传向S-AMP,也就是说此时数据已经被触发,经过一定的驱动时间最终传向数据I/O总线进行输出,这段时间我们称之为 tAC(AccessTimefromCLK,时钟触发后的访问时间)。4 y+ C- z, f4 }1 C/ t' X
& D& R# E2 r! F& e1 n2 W0 \2 E; e: g ' f: \5 \4 U/ p1 r% Y
7 N7 M: g7 m6 ?! L+ e# b/ J1 g/ i% y/ G
<img src="http://image61.360doc.com/DownloadImg/2013/06/0817/33026688_3.png" />
6 g6 \# P- J2 B6 e7 n3 ? 图中标准CL=2,tAC=1' u9 Q1 y3 D7 \% T
9 {/ }) |5 O, H! ^- U
目前内存的读写基本都是连续的,因为与CPU交换的数据量以一个CacheLine(即CPU内Cache的存储单位)的容量为准,一般为64字节。而现有的Rank位宽为8字节(64bit),那么就要一次连续传输8次,这就涉及到我们也经常能遇到的突发传输的概念。突发(Burst)是指在同一行中相邻的存储单元连续进行数据传输的方式,连续传输的周期数就是突发长度(BurstLengths,简称BL)。
# h; k" k: V4 j6 }$ t/ P* d# [+ x6 |' q! r! M
在进行突发传输时,只要指定起始列地址与突发长度,内存就会依次地自动对后面相应数量的存储单元进行读/写操作而不再需要控制器连续地提供列地址。这样,除了第一笔数据的传输需要若干个周期(主要是之前的延迟,一般的是tRCD+CL)外,其后每个数据只需一个周期的即可获得。
2 B1 ]: n" n9 }1 W
+ A7 x; G7 t a% ?3 p/ ~: b $ K) Z, N+ I/ Q, l0 D. h+ h' B! K4 K
! [3 e! Q8 \9 M! m! Z
<img src="http://image61.360doc.com/DownloadImg/2013/06/0817/33026688_4.png" />. w( s+ y7 q' g9 U" e
突发连续读取模式:只要指定起始列地址与突发长度,后续的寻址与数据的读取自动进行,而只要控制好两段突发读取命令的间隔周期(与BL相同)即可做到连续的突发传输。, q# g& ?4 P- Y! W7 N3 {* s4 J" R
9 {+ `/ T. r% E! B! |. A2 H 谈到了突发长度时。如果BL=4,那么也就是说一次就传送4×64bit的数据。但是,如果其中的第二笔数据是不需要的,怎么办?还都传输吗?为了屏蔽不需要的数据,人们采用了数据掩码(DataI/OMask,简称DQM)技术。通过DQM,内存可以控制I/O端口取消哪些输出或输入的数据。这里需要强调的是,在读取时,被屏蔽的数据仍然会从存储体传出,只是在“掩码逻辑单元”处被屏蔽。DQM由北桥控制,为了精确屏蔽一个P-Bank位宽中的每个字节,每个DIMM有8个DQM 信号线,每个信号针对一个字节。这样,对于4bit位宽芯片,两个芯片共用一个DQM信号线,对于8bit位宽芯片,一个芯片占用一个DQM信号,而对于 16bit位宽芯片,则需要两个DQM引脚。8 d/ x8 o$ ^/ O& k3 H
0 o# f& K i# @$ o! }- g* T
在数据读取完之后,为了腾出读出放大器以供同一Bank内其他行的寻址并传输数据,内存芯片将进行预充电的操作来关闭当前工作行。还是以上面那个Bank示意图为例。当前寻址的存储单元是B1、R2、C6。如果接下来的寻址命令是B1、R2、C4,则不用预充电,因为读出放大器正在为这一行服务。但如果地址命令是B1、R4、C4,由于是同一Bank的不同行,那么就必须要先把R2关闭,才能对R4寻址。从开始关闭现有的工作行,到可以打开新的工作行之间的间隔就是tRP(RowPrechargecommandPeriod,行预充电有效周期),单位也是时钟周期数。
" y2 p) A* i/ @, H4 y: G
5 Z# G R& F) T! L9 ~! `1 x
! A* K# Y! N4 N, S0 K
( _( y& `9 h0 k4 Y<img src="http://image61.360doc.com/DownloadImg/2013/06/0817/33026688_5.png" />2 M1 G4 s! P8 Y4 ?8 P8 w7 E2 _" G7 e
在不同Bank间读写也是这样,先把原来数据写回,再激活新的Bank/Row。
1 c6 a3 N6 s% [- |4 z- e, ?) R4 |& t& T2 |/ _- P: |3 A! {" S
数据选取脉冲(DQS)
' r. q1 G0 l* i" L3 O# Q5 p3 Q+ E
8 `; @; U8 ^1 d7 D& {9 ^ DQS 是DDR中的重要功能,它的功能主要用来在一个时钟周期内准确的区分出每个传输周期,并便于接收方准确接收数据。每一颗芯片都有一个DQS信号线,它是双向的,在写入时它用来传送由北桥发来的DQS信号,读取时,则由芯片生成DQS向北桥发送。完全可以说,它就是数据的同步信号。, |7 z A( J+ C
( o( E3 l$ L! H4 [) J
在读取时,DQS与数据信号同时生成(也是在CK与CK#的交叉点)。而DDR内存中的CL也就是从CAS发出到DQS生成的间隔,DQS生成时,芯片内部的预取已经完毕了,由于预取的原因,实际的数据传出可能会提前于DQS发生(数据提前于DQS传出)。由于是并行传输,DDR内存对tAC也有一定的要求,对于DDR266,tAC的允许范围是±0.75ns,对于DDR333,则是±0.7ns,有关它们的时序图示见前文,其中CL里包含了一段DQS 的导入期。% H/ y2 L6 ^6 z0 B5 i* P) Y9 c
. Y) D* O* g5 d- t, V; O
DQS 在读取时与数据同步传输,那么接收时也是以DQS的上下沿为准吗?不,如果以DQS的上下沿区分数据周期的危险很大。由于芯片有预取的操作,所以输出时的同步很难控制,只能限制在一定的时间范围内,数据在各I/O端口的出现时间可能有快有慢,会与DQS有一定的间隔,这也就是为什么要有一个tAC规定的原因。而在接收方,一切必须保证同步接收,不能有tAC之类的偏差。这样在写入时,芯片不再自己生成DQS,而以发送方传来的DQS为基准,并相应延后一定的时间,在DQS的中部为数据周期的选取分割点(在读取时分割点就是上下沿),从这里分隔开两个传输周期。这样做的好处是,由于各数据信号都会有一个逻辑电平保持周期,即使发送时不同步,在DQS上下沿时都处于保持周期中,此时数据接收触发的准确性无疑是最高的。% o$ s) J2 u7 ?% V
Z7 x" d; p% h/ n4 Z8 s" I" L. ~3 m6 k / r! Q/ B9 m% I/ d1 _ l
0 I" d. t* z) N3 v) ]5 C3 H8 _
<img src="http://image61.360doc.com/DownloadImg/2013/06/0817/33026688_6.png" />4 v' N* H7 @! J# @2 Z' r6 f
在写入时,以DQS的高/低电平期中部为数据周期分割点,而不是上/下沿,但数据的接收触发仍为DQS的上/下沿
; ~% l+ Z9 d2 V1 @4 T+ h$ b3 r& D! _4 o( _' W& x2 |
3.容量的计算: d6 }3 }, |1 @2 {
& _9 Z7 D9 r) [4 ~
: W9 g6 I/ z) E% K2 m7 X* m8 R R% n0 n ?- V) [1 y
<img src="http://image61.360doc.com/DownloadImg/2013/06/0817/33026688_7.png" />6 r g% a, h, p; U' V. F
上图为X8data的单颗DDR3架构图, |
|