Re: [情报] 传NV打算推出GD6X版本的3060

楼主: tint (璇月)   2023-03-08 11:51:09
※ 引述《hn9480412 (ilinker)》之铭言:
: https://tinyurl.com/bp8zpdj8
: 现在还是乳摸而已,看看就好。不过爆料者是T4C Fantasy(TechPower UP的GPU数据库编
: 辑者)
: 爆料出来的资料是核心为GA104。VRAM为12GB,频宽和参数都没说
: 不过价格多少才是重点吧?
如果RTX3060 12GB GDDR6X版 真的推出上市
除了VRAM等效频宽提升之外
(如果使用19Gbps的GDDR6X,等效频宽为456GB/s)
我觉得这张卡的一个优点可能在专业运算用途上
Ampere架构GPU家族中
GA104以上芯片的IMC才支援GDDR6X
所以RTX3060 12GB GDDR6X版必需使用GA104
将GA104芯片大砍42%的CUDA数
降到标准RTX3060的CUDA数规格
其实之前NV就推出过采用GA104核心的RTX3060
在2021年9月~12月出厂的RTX3060
有不低机率拿到GA104核心的
可参考之前板上文章:
#1XO6noDI (PC_Shopping)
https://i.imgur.com/WjkhMeH.png
https://i.imgur.com/w6aI8NQ.jpg
核心是GA104-150-A1,DeviceID为2487
当时华硕、技嘉、微星、EVGA、七彩虹、耕宇...
都有网友回报拿到GA104版的RTX3060
过往X104等级芯片降阶给60等级卡使用
因为切到相同CUDA数,游戏效能不会有明显差距
但是不同等级芯片中,GPC配置的不同
一些专业运算时可能会有隐藏效能加成
比如RTX2060 TU104版(当时常见EVGA的2060 KO版)
https://i.imgur.com/AGMaARU.jpg
可以看到在Blender测试表现下
效能比标准版2060(TU106版)优秀许多
https://youtu.be/mUFRBnJdx3Y
之前2060(TU104版)Gamers Nexus测试
这推测可能是GPC结构差异造成
TU104每组GPC是8个SM单元,共6组GPC(3072个CUDA)
TU106每组GPC是12个SM单元,共3组GPC(2304个CUDA)
TU104要切到2060标准1920个CUDA,势必无法平均切
所以会有更多组GPC结构被保留
GA104和GA106二者的情形也是类似
GA104每组GPC是8个SM单元,共6组GPC(6144个CUDA)
https://i.imgur.com/8unkVyx.jpg
GA106每组GPC是10个SM单元,共3组GPC(3840个CUDA)
https://i.imgur.com/SnokYAH.jpg
当GA104要砍到剩28组SM时
最少都还是保留有4组以上的GPC
甚至可能保留到6组GPC(各组GPC平均遮蔽)
这样仍然比GA106先天结构只有3组GPC多
拥有更多组GPC结构的差异
推测在一些重度thread运算情况时调度上
可能效率会更高一些
之前一些RTX3060 GA106版和GA104版的对比测试
一样可以看到GA104版在运算渲染上表现更佳
https://tinyurl.com/2292ybnd
Reddit讨论,3060 GA104版的Blender测试快非常多
https://www.chiphell.com/thread-2426664-1-1.html
对岸网友测试
3060 GA104版在DaVinci Fusion渲染速度可提升10%
不过当时RTX3060 GA104版存在市面上时间不长
而且通常要上机才能确认核心(各大厂那时混著核心卖)
所以有运算需求的人也不容易挑到GA104核心的3060
这次如果RTX3060 12GB推出GDDR6X版本
核心一定都是GA104,才能支援GDDR6X
不必像之前要挑核心才能拿到GA104版本的3060
虽然用GDDR6X功耗也会增加一些
但采用GA104核心,且又配置12GB VRAM
对于有专业运算需求的人,也许是一个不错的选择
作者: smallreader (小读者)   2023-03-08 11:56:00
(加入愿望清单
作者: overno (狗不理)   2023-03-08 12:01:00
加价卖
作者: tagalong1024 (YenJ)   2023-03-08 12:21:00
推~
作者: ayanami00 (39's 4 shar3)   2023-03-08 12:32:00
但是有专业需求的,不会需要省这个钱在这个价位上买吧
作者: Arbin (路人_Lv菜逼八)   2023-03-08 12:35:00
看你的“专业需求”到哪边,不过依照本版标准大概会先叫你用colab
楼主: tint (璇月)   2023-03-08 12:36:00
这张卡主要是一些专业运算有趋近3060Ti表现 且又有12GB VRAM
作者: oopFoo (3d)   2023-03-08 12:59:00
你想的太复杂了。一个是4MB/SM的L2,一个是3MB/SM的L2。某些运算,L2多的赢。然后rtx40系列,L2加大很多。
楼主: tint (璇月)   2023-03-08 13:12:00
NV它SM的L2会一起砍 之前桌面3050用GA106核心 SM的L2砍到2MB像40系列的4060桌面版 之前的爆料L2从AD107满规32MB砍到24MBhttps://i.imgur.com/FmIMJmH.pnghttps://i.imgur.com/Cb3VgTI.jpg
作者: leviva (华丽幻影)   2023-03-08 13:17:00
请问oop大,三倍L2 / 三倍L3, 哪一种cpu跑游戏更快?
楼主: tint (璇月)   2023-03-08 13:18:00
像3060 GA104和3050 GA106 它的L2仍是砍成标准的3MB和2MBNV的刀工是很细腻的 像当年970就是刀法太细腻砍到ROP数量才会造成后来的3.5GB VRAM争议事件https://i.imgur.com/k0gy15Q.jpg 右表是NV承认970实际规格970实际上的规格是56个ROP L2为1.75MB而不是最初宣称的2MB
作者: oopFoo (3d)   2023-03-08 14:06:00
是啊,NV可以砍,但砍下来,性能因为调度而差那么多?不太可能。现在跑gpu code,基本上等data的时间是最多的,线序再多,帮助有限,卡还是卡资料频宽。NV跟I家都是增加L2,因为现代硬件跟程式码的架构,加L2的效果较好。在GPU里L3有点尴尬,还不如内存频宽加大一点,主要是GPU吞吐资料量实在太大,大L2+大频宽的效果是目前最好的。https://tinyurl.com/5n6h4s4x如何有效利用L2的locality一直是最佳化的问题。加大比较简单,改程式比较困难。
作者: wertyorz (落天雪夏)   2023-03-08 14:34:00
这个3060的12G一出,那个谣传的4060 8G就真的不用混了
楼主: tint (璇月)   2023-03-08 14:45:00
当年的2060 TU104版 L2规格一样砍成3MB 但Blender渲染结果
作者: leviva (华丽幻影)   2023-03-08 14:47:00
看到时候实际价钱,如果12490~12990元/等效3060 ti, 4060又会是绝大多数人的首选
楼主: tint (璇月)   2023-03-08 14:47:00
效率提升非常多 这其实满有趣的当年2060Super的L2完整保留 规格有标出L2是完整4MB如果2060 TU104版和3060 GA104版 实际上规格是完整L2 4MB那只能说NV非常佛心了
作者: wolver (超级大变态)   2023-03-08 14:53:00
价格才是重点皮衣刀客现在没那么佛心
楼主: tint (璇月)   2023-03-08 14:55:00
https://tinyurl.com/352kyvk3 2060 TU104版 TPU数据库规格https://tinyurl.com/ykeftac8 3060 GA104版 TPU数据库规格L2快取都是标示3MB而已 如果实际上是4MB 这就非常有趣了
作者: oopFoo (3d)   2023-03-08 15:00:00
我可能猜错,但性能差这么多,如果L2不变,那就是L2的
作者: sorrojvr (sorrojvr)   2023-03-08 15:01:00
ai当道 老黄只会越来越贵
作者: oopFoo (3d)   2023-03-08 15:02:00
latency差很多。但latency差多的话,基本上所有程式都会有改进。所以猜L2的size不一样是最有可能的。我还是不相信线序调度可以差这么多。不是不可能,但我想不出怎样的程式会这样。
楼主: tint (璇月)   2023-03-08 15:11:00
如果L2容量没砍 这样应该也会反映在游戏效能上?当时我帮人装机 有装过ASUS和EVGA的3060 GA104版型号3060 Dual和3060 XC 但和GA106标准版游戏效能几乎没差别https://i.imgur.com/N68NPcr.png
作者: oopFoo (3d)   2023-03-08 15:22:00
L2没砍,游戏影响比较小,compute影响比较大。主要是106的sm/gpc比104的sm/gpc多。理论上反而是106在调度上有优势,所以我实在想不出需要多跨gpc效能反而高?到底是什么神奇程式。不然就是L0的设计是不一样。不管如何我还是盲猜是Cache的帮助。
作者: dreamix (光里亚)   2023-03-08 16:50:00
好哦,3060Ti Pro Max 真是太专业满出来
作者: ksng1092 (ron)   2023-03-08 16:58:00
是说他为什么要在消费级市场出一个可以跑专业运算的东西
作者: StarHero (离开)   2023-03-08 16:58:00
卡是奈米制程,刀工也是奈米等级的因为芯片还一大遍山头的库存
作者: leo3258 (leo)   2023-03-08 18:56:00
老黄听到各位的心声 这张加价多卖5k很合理
作者: AreLies (谎言)   2023-03-09 01:02:00
库存太多
作者: sam80709 (Shuo-Shuo)   2023-03-09 13:31:00
便宜的还在海上漂

Links booklink

Contact Us: admin [ a t ] ucptt.com