DDR 的交织原理有点不理解?

222 天前
 allmightbe

https://zhuanlan.zhihu.com/p/627566068

看了这篇文章,对 DDR 有两个疑问。求各位大佬不吝赐教。

首先为什么说“column line 上的功能要远比 row line 上的器件复杂”,就因为 column 线连接着 data buffer 吗?还是说有着其他理由?

原文提到:多 bank 情况下,交叉读写不同 bank ,可以有效提高读写带宽。一个 bank 完成对一行的数据读写后,如果需要再次读取同一 bank 的另外一行上的数据,那必须耗费较长的时间重新打开一行,如果只有一个 bank ,那此时总线必须处于等待状态。这就叫做“交织”。

上面这一段话我理解它的意思,但是为什么上面这个图是这么画的? 但我觉得应该这样画吧:

这样我在对 地址 [ 0 0 0 0 ] 请求还没结束的时候,就可以去请求 [ 0 0 0 1 ] 地址了。或者说,这样的地址排布才是最“交织”的呀。( PS:原文说:该编码保证对同一 bank 的连续地址访问都是在同一行上的,我好像没有理解到 这个好处)

2433 次点击
所在节点    程序员
20 条回复
liwufan
222 天前
物理法则限制
1. column 上有放大器,电荷小导线长。
2. bank 切换不需要释放寄存器重新充电。
有个完美的视频讲解
<amp-youtube data-videoid="7J7X7aZvMXQ" layout="responsive" width="480" height="270"></amp-youtube>
分别在第 15 分钟和第 25 分钟有详细的讲解
Ayahuasec
222 天前
DDR 控制器发出列地址以后,需要等待一段时间才能读写数据,在此期间可以多发几个地址,延迟时间到了以后连续读写。这样性能比较高。
DDR 跨行访问要先把当前行关掉,再打开新的行,这个步骤会引入额外的延迟。(或者考虑用自动预充电)
每个 Bank 是相对独立的,可以同时打开多个 Bank 的行。多个 Bank 只是共享了一个 DDR 的接口。
实际设计为了提高随机读写性能,我见过的比较多的设计是按 Row-Column-Bank 去编址的。
可以看一下 micron 的内存颗粒文档的时序图,我记得是比较全的。
allmightbe
221 天前
@liwufan #1
@Ayahuasec #2
两位大佬,谢谢回答了。现在我对 DDR 又有了进一步的理解。但又有了新的疑问。

先说下我现有的理解:
- x4/x8/x16 ,是指的 memory array 堆叠的高度。在一个 bank 里,原来一个坐标 [row ,col] 只能定位到 1bit ,现在如果是 x8 ,那么一个坐标 [row ,col] 可以定位到 8bit 。
- 2n/4n/8n prefetch ,主要指的 双边沿采样技术。如果是 x8 和 4n 预取的配置,那么一次访问,可以访问到 4*8bit ,也就是 4 字节。

对于上面的总结,我有点疑问,就是这个预取的东西,肯定是一个缓存,它是放到了什么位置呢,是 bank 内的一个缓存吗?

另外,这篇文章 https://depletionmode.com/ram-mapping.html 讲到了另外一个知识点:
'physical' address actual memory address
0x00f00010 -> 0x00f00010
0x00f00011 -> 0x00f00010
0x00f00012 -> 0x00f00010
0x00f00013 -> 0x00f00010
0x00f00014 -> 0x00f00010
0x00f00015 -> 0x00f00010
0x00f00016 -> 0x00f00010
0x00f00017 -> 0x00f00010

大概意思就是,如果 cpu 发出一个地址,如果这个地址在 8 字节对齐范围内,那么其实都对于同一个地址去了。之所以是 8 ,是因为一个 rank 里面有 8 个 chip 。
进一步的,因为有 8 字节的数据,但实际上又只需要 1 字节的数据,所以还要通过原地址低 3bit 来选出那个字节。
然后,作者说,这个东西和 CPU 的 cache line 有关系。

对于上面的总结,我有点疑问,这个一次性取 8 字节的东西,是在哪个地方或者说哪个接口?
另外,我最大的疑问,我现在把这个一次性 取 8 字节的东西 和 prefetch 有点搞混了,但是它们俩 又好像有点相似之处?所以它们到底是不是同样的东西?还是说 这两个技术 是同时存在的吗,可以根据具体的配置,举一个具体的例子吗?
liwufan
221 天前
@allmightbe

x4/x8/x16 是宽度,画 pcb 时候看的。
prefetch 是 stack depth ,burst mode 在 mode register 里面 set 好以后,读写是两个 buster 。ddr5 能做 16n 。
过去寄存和缓存是外置的,比如 rdimm ,rbdimm 。现在都做到 die 上面了。

cpu 一次取几个 bit 就是 primary bus width = banks x bank width ,和 rank 无关。
rank 是 oem 定制容量用的,客户要多大容量就插几个 rank 。不影响电气特性(超频玩家不属于正常客户

详细建议搜 micron product datasheet 。
Ayahuasec
221 天前
@allmightbe

关于缓存,我印象里每个 bank 是有一个 row buffer 的。

一次性取 8 个字节,大概是因为 DIMM 的位宽是 64 bits 的吧(带 ECC 是 72 bits ,不过有效数据还是 64 bits ),但是实际上 burst length 对于 DDR4 的情况是常用 8 (因为好像从 DDR3 开始 prefetch 一般都是做的 8n ),也就是说一次连续的读写会涉及到 64 bytes 。如果要在一次读写中只让部分数据有效,一个是会用到 Data Mask 引脚,把部分数据位掩码掉;另一个是 burst chop ,让 burst length 变为 4 。但是如果都是短字节的随机读写,就会让 DDR 接口上一次读写操作中有大部分数据是浪费的。所以 CPU 里要做 Cache ,在需要的时候按 Page 为单位和 RAM 做数据交换,从而把内部比较随机的 RAM 读写变成相对连续的 DDR 读写。

不过关于一次读写的数据长度这一点上,我理解这个还是要和具体的 DDR 控制器设计相关的,我见过的一个用到 DDR 的设计是一个 Memory Channel 只带 2 个颗粒,DQ 位宽 16 bits ,burst length 固定为 8 ,这样的话发出一个地址请求,就会读写 16 bytes 的数据,内存控制器的地址是按 0x10 对齐的,也就是地址的低 4 位只用于配合读写长度进行字节的提取,但是 DDR 控制器到内存颗粒上总是一次读写就是连续的 16 bytes 。
allmightbe
220 天前
@liwufan #4
@Ayahuasec #5
好吧,先抛开 cpu cache line 那篇文章不谈。

我先确认下 对 prefetch 的理解:
假设是 x8 ,4n prefetch 的配置,那么,
- 内部总线是 8bit*4 ,也就是 32bit 宽度;外部总线是 8bit 宽度。
- 内部总线的频率是外部总线频率的 4 分之一。

在外部看来,我想要拿到 8bit*4 ,至少会经过 4 个 cycle 。(这里我是按照 axi 的知识来理解的。重点是外部总线的宽度还是 8bit ,所以必须有 4 个 cycle )。

不知道上面我的理解对不对
allmightbe
220 天前
@liwufan #4
@Ayahuasec #5
这篇文章 https://depletionmode.com/ram-mapping.html 讲的东西我稍微总结一下:

一个内存条是一个 module ,一个 module 有两面,一面就是一个 rank 。
一个 rank 上面有 8 个 chip (也就是有 8 个 黑色长方形坨坨,人眼能看到的)
一个 chip 里面,有 4 个 bank 。

它就是强调,一个地址转到了 DDR 控制器这边以后,没有用地址的部分 bit 来定位到某个 chip 上去(相反,比如会用 部分 bit 来定位到某个 row ),相反,这个地址线 连接到所有的 chip 上面去了,那么也就是说,所有 chip 都会根据地址线的信息 来返回数据。

然后地址线发送了一个地址以后,这个地址送给了所有 chip (文中是 8 个 chip ),然后 8 个 chip 都返回了 data 。

所以,最后 DDR 就一次性 返回了 8 个字节。

根据大佬的回答,和我看网上的文章。它说的这个 技术,应该不是 prefetch ,因为 prefetch 是发生在 bank 内部的,而文章说的事情,是发生在 某个 rank 上的所有 chip 上的。

PS:不排除这个作者说的东西,是有问题的。因为别的文章没有提到过。
allmightbe
220 天前
@liwufan #4
@Ayahuasec #5
纠正纠正,“ prefetch 是发生在 bank 内部的”,这句话可能有问题。
liwufan
220 天前
感觉数理逻辑绕进死胡同了。我给不出准确答案。

你可以回忆一下模电概念帮助消化,prefetch 的目标是降低每个指令 duty cycle 。虽然 duty cycle 降低以后,直觉上是用无状态的 rank 去真刀真枪拼并发。但是现实上不太会这么搞,比如 https://blog.cloudflare.com/ddr4-memory-organization-and-how-it-affects-memory-bandwidth/
里面这个内存控制器性能差异也就 2-3%。反过来看控制器里腾点空间再加一个通道,直接带宽翻倍,容量其实也翻倍了。所以用 rank 拉带宽是理论上的一种构想。

还有一点,模电上 bit 不能转为信息意义上的 byte ,int 0x01 和 char 0x31 的对位是人为定义的一种信息。所以在不考虑数电逻辑概念下,单 DQ 还有一些信号处理上的逻辑电路。
https://media-www.micron.com/-/media/client/global/documents/products/technical-note/dram/tn4040_ddr4_point_to_point_design_guide.pdf?la=en&rev=d58bc222192d411aae066b2577a12677
当然这都是些 driver 相关的简单逻辑电路,实际不会影响内存访问优化逻辑或者人脑思考的对错。但是用文字沟通时会产生很多混淆的概念。
allmightbe
220 天前
@liwufan #9
好的,有时间我看看你发的这两篇文章。

看了 micron 的几个 data sheet ,看起来,我理解的 prefetch 应该是对的。
allmightbe
220 天前
@liwufan
@Ayahuasec
不过,micron 的 block 图里面,有一个地方不是太懂了。
![]( https://s3.bmp.ovh/imgs/2023/10/04/5c22e1c8ea3c56e4.png)

就是上图的两个粗箭头。

上面那个粗箭头,我是理解的:从 row line 选中一行后,就会输出 1024 x 4 的 data 出来,所以和这个粗箭头是 1024 x 4=4096 宽。
- 粗箭头,我理解是代表这个接口处的线很多。上面的粗箭头,则有 4096 根线。

但下面那个粗箭头,就不是很理解了:
- 本身它是个粗箭头,我就不是很理解。这里,我理解是为了选择确认某一 col ,那也是 10 根线,就可以了。
- 另外,这个粗箭头,到底是 1024 的宽度,还是 1024x4 的宽度呢?(就是那个括号里的 x4 要算上吗)

PS:不知道这个 block 图和实际硬件设计,是否能完全关联起来。也许这个粗箭头,只是一个逻辑上的概念。
allmightbe
220 天前
liwufan
220 天前
1024 就是解码电路 https://en.wikipedia.org/wiki/Binary_decoder
我发的视频你没看,里面就是在讲电路
allmightbe
220 天前
@liwufan #13
是我蠢了。我理解这个 Decoder 的意思了。因为每行有 1024x4 的数据,所以下面那个粗箭头,需要有 4096 根来分别选中它们。

视频我又看了一遍,那我理解 下面那个粗箭头,应该就是 1024x4 的宽度(要把括号里的 x4 乘进去)。毕竟都叫 bit line 了。

视频我是看了,只是我是 最开始,当时那一遍没太看懂。后面这两天 又看了好多乱七八糟文档文章。
allmightbe
220 天前
deorth
219 天前
v 站大佬真多啊
allmightbe
219 天前
@Ayahuasec #2
我见过的比较多的设计是按 Row-Column-Bank 去编址的。
-------
对于这个地址交织,这个我是明确的:就是 row 必须在 col 左边。但至于 bank 到底放到哪里,这个有什么说法吗?

https://imgur.com/bGKe6le.png
看了一个视频,里面是这么放的:
- 因为访问一般是 4 字节对齐的,所以 col 的低 2bit 放最右边。
- 然后接着放 bank 的 2bit ,这样可以利用到 bank 之间的独立性
- 然后放 col 的高 1bit ,这样一轮循环后,使得 col 地址变成 1 时,就可以利用到 row hit 的高效率了。

不知道这么理解对不对。
allmightbe
219 天前
Ayahuasec
215 天前
@allmightbe #17 一个 column 对应的是多个 bits ,比如 x16 的颗粒是 16 bits ,如果一个控制器连的所有颗粒总计 DQ 是 64 位(比如一个 dimm ),就需要 4 个 x16 的颗粒,那这种情况下每个 column 地址其实是 8 bytes 。对应到按 1 byte 的字节的地址空间,其实是低 3 位不用。

举个例子,假如说地址空间是 32 位,那 Row-Column-Bank 编址可能是{row[15:0], column[9:0], bank_addr[2:0], 3'h0},这样连续读写可以用到所有 Bank 。

未对齐的访问一般在 Cache 端的控制器做,或者用 CPU 的异常中断做,Cache 到 DDR 一般只让对齐访问。
Ayahuasec
215 天前
@allmightbe #18 修一个上一个回复(#19 )的 bug ,看到你这张图我想起来了,BL=8 的时候列地址的低 3 位也是不用的,保持为 0 。列地址一般是 10 bits ,上面这个例子其实应该是{row[15:0], column[9:3], bank_addr[2:0], 6'h0},或者也可以说是{row[15:0], column[9:3], bank_addr[2:0], column[2:0], 3'h0}。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/978598

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX