主页 > imtoken多签钱包 > 深入挖掘 ASIC 芯片设计成本,我们向 ProgPow 核心开发团队提出了九个问题

深入挖掘 ASIC 芯片设计成本,我们向 ProgPow 核心开发团队提出了九个问题

imtoken多签钱包 2023-09-25 05:12:25

文章目录

免责声明:本文由站长首页内容合作伙伴36氪战略合作区块链媒体《Odaily星球日报》内容合作伙伴《Odaily星球日报》授权发布,译者:Moni。

本文来自Medium,原作者为ProgPow算法核心开发团队IfDefElse

概览

只要是和ProgPow和Ethash算法有关的,都会有各种猜测,关于矿机硬件的设计和开发成本,后面通常都会有权威的说法:请相信发布预测的作者,因为他/她在相关行业拥有丰富经验。这些猜测有时与加密货币 ASIC 芯片生产有关,有时与集成电路设计有关。

对于对代码比较熟悉,但对扇出和上升时间不太熟悉的读者,本文可能有助于他们更深入地了解 ProgPow 算法。

(星君o-daily注:Ethash是目前以太坊基于工作量证明的挖矿共识算法,ProgPow是试图削弱ASIC矿工优势的挖矿算法。Fan-out是一个单一的定义逻辑门可以驱动的最大数字信号输入的术语。大多数 TTL 逻辑门能够向 10 个其他数字门或驱动器提供信号,因此典型的 TTL 逻辑门有 10 个扇出信号;上升时间是脉冲技术中的一个技术术语,电压上升两次之间的时间间隔就是网络变压器的上升时间。)

程序员总是给人一种无所不能的感觉,从编写脚本到开发iPhone APP,从嵌入式系统到Windows操作系统。但是,会写代码开发应用并不代表就可以成为APP Store后台的权威(或者提高系统效率),能够开发实时多任务操作系统(RTOS)并不代表意味着可以扩大Windows操作系统的成本。给现场的人称重。

当然,作为ProgPow算法的核心开发团队,IfDefElse并不代表Windows设计者不是“优秀的程序员”,但需要注意的是,由于不同人的技术背景不同,很容易创建不同领域的理解和假设存在偏见,尤其是在讨论规模经济主题时。

同样,硬件设计师可能涉足不同领域,例如为电动牙刷设计芯片,或为网络设备构建硅架构师。生产 100,000 个用于电动家用牙刷的芯片的工程师可能不了解生产 100 万个芯片的网络工程师所考虑的可用规模经济,同一个加密货币 ASIC 芯片的设计者可能对 GPU-ASIC 芯片设计知之甚少——这些都没有行业之间的联系很多,有些国家之间甚至有差距。

我们要在概述中提到的最后一件事是,编程和工程都是技能,除非您每天都在编程和编写代码,否则您将很快落后并无法成为权威,因为这方面的知识更新非常快。或许这就是新的加密货币 ASIC 厂商很难进入基于 SHA-256 算法的挖矿市场的原因,毕竟新手程序员是不可能赶上一直在研究 SHA-256 的工程师的算法六年。

asic芯片挖矿

另一方面,关于加密货币生态系统中硬件的文章并不多。当然,加密货币本身就是一个以软件为主的行业,绝大多数硬件工程都是在少数私营公司内部“闭门造车”进行的。

一些“硬件积木”不遗余力地向软件工程师保证他们可以击败加密货币生态系统——我们已经在研究门罗币、比特币和 ZCash 等加密货币,我们已经看到了这种情况。但现实是,这个挑战还没有发生,想想看,如果比特大陆或者芯动科技做CPU,你觉得他们能打败英特尔和AMD吗?

ASIC芯片设计成本分析

规模经济总是很普遍——无论是在成本方面还是在经验方面。至于ASIC芯片的设计成本,芯片设计者似乎总是争论不休。让星星君(微信:o-daily)带你来看看,分析一下引起业界关注的九大问题:

问题一:无论挖矿算法是ProgPow还是ETHash,哈希值都是由外部动态随机存取存储器(DRAM)的存储带宽决定的,是这样吗?

事实并非如此。 ProgPow 的哈希值由两个因素决定:

1、计算核心

2、内存带宽

这就是Ethash和ProgPow有区别的原因,如下图1和图2所示:

图1:NVIDIA芯片产品挖矿算力对比

深挖 ASIC 芯片设计成本,我们问了 ProgPow 核心开发团队九个问题

asic芯片挖矿

图2:AMD芯片产品挖矿算力对比

深挖 ASIC 芯片设计成本,我们问了 ProgPow 核心开发团队九个问题

在这个阶段,ETHash 挖矿更有利可图。算法对内存的需求显着增加,对高带宽内存的需求增长也带动了下一代高速内存技术的发展,如GDDR6(带宽速度高达768 GB/s)和HMB2(带宽速度高达 256 GB/s)。

并不是所有的高带宽内存需求都来自“Ethash”,整个高带宽内存市场价值150亿美元,其中只有一小部分来自采矿业。高带宽内存的核心市场需求主要包括:GPU、现场可编程门阵列(FPGA)、人工智能(AI)、高性能计算(HPC)和游戏。相比1.2万亿美元的AI市场、300亿美元的PC游戏市场、350亿美元的掌上游戏机市场、290亿美元的高性能计算市场,矿工对高带宽、内存的要求真是“微不足道” ”。

问题2:由于ProgPow现有的架构和算法与ETHash类似,芯动科技的下一款ASIC芯片是否会为ProgPow量身定制?

事实上,ProgPow 和 ETHash 之间唯一的相似之处是在全局内存中使用了无环图 (DAG)。从计算的角度来看,ETHash 只需要一个固定的“keccak_f1600”内核和一个模函数。另一方面,ProgPow 需要能够执行 16 通道宽的随机数学序列,同时还能够访问高带宽 L1 缓存。设计一个可以执行 ProgPow 数学序列的计算内核比设计像“keccak”这样的固定函数哈希要困难得多。

还需要注意的是,ETHash 的哈希值仅取决于内存带宽,而 ProgPow 算法取决于内存带宽和随机数学序列的核心计算 - 了解这一点很重要。

工作量证明(PoW)的本质是通过消耗硬件和能源成本通过数学计算来证明。作为一种算法,ETHash 在数学证明中不消耗大部分硬件成本(计算引擎)。 相反,ETHash 只捕获内存接口,这就是为什么您可以使用 ASIC 芯片进行加密货币挖掘,将未捕获的数学部分删掉。

问题3:由于GPU是通用加速芯片,GPU的设计、制造、测试周期一般需要12个月左右,需要大量的硬件仿真和软件开发工作来覆盖不同的计算场景和场景.

ProgPoW 希望捕获全部硬件成本(尽可能),因为算法的更新部分能够捕获运行不同计算场景的计算硬件 - 直至架构皱纹 - 所以对于 ASIC 芯片设计,可能需要 3-4 个月以上。

由于时间跨度长,另一个问题又来了:为什么省略了浮点运算?这个问题的答案其实很简单:浮点运算不能芯片迁移,不同的芯片往往会以不同的方式处理与特殊值(如infimum、非数值以及相关变体等)相关的corner case 拐角案例也称为病态案例,是指运行参数超出正常范围的问题或情况,多为几个环境变量或条件处于极值的情况,即使这些极值都还在参数规范(或界限)。最大的分歧是对非数字 (NaN) 的处理,这是在使用随机输入时自然发生的,引用维基百科页面的解释:

asic芯片挖矿

如果有多个非数字 (NaN) 输入,则其有效负载结果应来自非数字数字输入之一,但标准未指定。

这意味着如果要使用浮点运算asic芯片挖矿,基本上每个浮点都需要配对一个“if(is_special(val))val = 0.0”检查。检查通常可以在硬件中完成,因此用于加密货币挖掘的 ASIC 芯片也可以从中受益。

接下来,什么是算力和“hash-per-watt”?

算力是衡量能源成本的一个指标,只要每个人都以同样的方式衡量,单位能耗就不那么重要了——矿工们也会继续尽可能多地投入到挖矿上。但是,即使您将计量单位从 1 ETHash(较小的单位,例如焦耳)转换为 1 ProgPow-hash(较大的单位,例如卡路里),运营成本的经济性实际上并没有改变。 Global Hashrate 评估每个人在确保网络份额方面的总经济权重,只要每个人的贡献以相同的单位公平衡量,切换到 ProgPow 算法不会给普通矿工带来任何好处。即将发生什么变化。

当然,有些人会争辩说,如果以太坊实施 ProgPow 算法,它可能有助于将矿工集中在拥有高端 GPU 的大型农场中,同时也可以刺激矿工将他们的 GPU 升级到最新型号。但ProgPow算法开发团队IfDefElse需要重申:规模经济永远存在,也是现实世界中无法回避的事实。

问题 4:与 GPU 相比,ASIC 芯片制造商可以使用更小的 GDDR6 内存来获得成本优势。 16 根 GDDR6 4GB 内存条可以在保持内存成本水平的同时实现两倍的带宽优势,对吧?

首先,拥有两倍的带宽优势需要两倍的计算量,这其实是一种线性缩放(linear scaling),不能算是优势。

其次,我们目前还没有准备好为 GDDR6 生产 4GB 内存芯片。全球第三大内存芯片制造商美光仅生产 8GB 芯片,而三星则生产 8GB 和 16GB 芯片。对于内存芯片来说,GDDR6 IO接口面积非常昂贵,而且每一代接口都比内存单元占用更多的实际内存裸片,因为端口物理层(PHY)不能像内存单元一样通过这个过程。意味着缩小。

不可否认,真正驱动内存市场的是一些“长周期买家”,比如游戏机、GPU等,他们也倾向于支持更大容量的内存。事实上,如今的内存供应商已经没有动力量产 4GB 内存,毕竟市场对这种内存容量的需求并不大。

问题5:RTX2090芯片中有很多模块占用了很多芯片die面积,对ProgPow无用,包括PCIE、NVLINK、L2Cache、3072个切片单元、64个ROP、192次测量单元(TMU)等等,你怎么看?

RTX2080 不是很好的参考来讨论这个,Nvidia的RTX系列芯片中的一些模块由于一些新特性而占据了芯片的大部分区域,比如光线追踪核心等。 ProgPow 设计旨在与 Nvidia 和 AMD 生态系统中的库存硅产品一起使用,因此 Nvidia 和 AMD 的新硅产品中的新功能不可用。

asic芯片挖矿

如果您想要更好的类比,也许 AMD RX 5xx 系列或 Nvidia GTX 1xxx 系列是一个很好的参考。正如我们之前提到的,GPU 中也有一些功能没有被 ProgPow 使用,例如:浮点逻辑、L2(L2) 缓存,以及纹理缓存和 ROP 等)。切片单元是执行向量数学的地方。 ,这绝对是 ProgPow 所需要的。用于加密货币挖矿的 ASIC 芯片也想增加可以实现“keccak”功能的区域。作为 ProgPow 算法的开发团队,我们估计 ProgPow ASIC 芯片的裸片面积会比同等 GPU 小 30%——然而,即使在最好的情况下,它的功耗也最多只能降低 20% 相比之下,虽然GPU上的一些逻辑模块没有被充分利用,造成部分芯片裸片面积被浪费,但是功耗却是微乎其微的。

问题 6:小筹码比大筹码更赚钱吗?

怎么说呢,听起来要普及一下芯片制造的知识,或许我们需要写一份《芯片制造101》的培训文档。另外,收益的计算公式可以参考2006年发表的一篇文章《Compare Logic-Array To ASIC-Chip Cost per Good Die》,其中你会发现在芯片良率上已经有了很多创新和流量控制早在 13 年前。

对于具有单一功能单元的芯片,具有较小裸片面积的芯片将比裸片更有利可图。切片较大的芯片更高。但现代 GPU 并非如此。现在的GPU几乎可以任意恢复、组合,小复制单元的缺陷基本可以忽略不计。只要每个可压缩的功能单元足够小,那么GPU芯片的收益几乎可以和功能模块更大的芯片一样高(甚至更高)。

为了更好的解释这个概念,我们可以给出一个简单的脑洞实验:

1、假设你有一个大芯片“Giant ChipA”,它占据了整个晶圆。这个“Giant ChipA”由 100,000 个可拆卸子组件组成,但其中 80% 必须确保无缺陷,以保证“Giant ChipA”能够正常工作,并且在嵌入过程中绕过不良子组件。

2、另外,假设你有一个小芯片“Tiny ChipB”,它只包含一个功能模块(不可嵌入),但这个小芯片足够小,可以在同一个晶圆上容纳 100,000 个子组件。在这种情况下,只要一个子组件出现故障,就意味着整个“Tiny ChipB”芯片坏了。

3、如果有 20,000 个有缺陷的子组件均匀分布在每个晶圆上,那么“Giant ChipB”芯片就是坏的。 A”可以赚取 100%,因为他们可以移除 20% 的有缺陷的子组件,而“Tiny ChipB”只能赚取 80%,因为他们无法移除有缺陷的子组件。

如果你看看 AMD 的 Polaris 20 系列产品和 Nvidia 的 GP 104 产品,在模拟的镜头下,你会看到这些 GPU 是由部署的大量微小的“可移动”子模块组成的。

深挖 ASIC 芯片设计成本,我们问了 ProgPow 核心开发团队九个问题

问题7:ASIC矿机电压可以轻松降到0.4V,只有GPU的一半……所以低电压ASIC设计已经被比特币矿机ASIC矿工采用了,所以现在我们没有理由不相信他们不会将此策略应用于 ProgPow ASIC 矿工,你能谈谈吗?

asic芯片挖矿

只有当芯片仅由计算组成时,低压设计才能工作,例如专门用于 SHA256d 挖掘算法的 ASIC 矿工。集成其他原语,例如 SRAM,这也是 ProgPow 数据缓存所必需的,但在低电压下操作极其困难且不可能。

问题8:同样的节能效果在LPDDR4x DRAM上也能达到,比GDDR6耗电少。我们来谈谈这个问题。

不要只考虑能耗,LPDDR4x的带宽比GDDR6低很多,前者4.2Gb/s per pin,后者16Gb/s。一个 LPDDR4x 计算芯片需要四倍的内存芯片和四倍的内存接口才能达到与 GDDR6 相同的性能,这大大增加了成本。

值得注意的是,高带宽计算芯片的接口通常是有限的,这意味着芯片模块面积必须足够大,几乎不允许任何信号从芯片掉到印刷电路板(PCB)上. ),LPDDR4x设计需要大约四倍的芯片周边焊盘数量才能达到相同的带宽,这意味着成本不仅在内存芯片上,还有计算芯片面积的成本,所以综合计算其实,总成本不低。更糟糕的是,由于任何芯片都是以速度为导向的,所以芯片模块面积越大,就意味着浪费的功率越多。

所以,让我们再想想为什么今天的 GPU 不能再在 LPDDR4x 上运行。首先,LPDDR4x 在带宽成本方面表现不佳,对于给定的带宽量级(芯片数量的四倍),LPDDR4x 的成本要高出四倍以上,进而导致成本大幅增加- 9W 256 GB/s 带宽的 LPDDR4x 功耗约为 150 美元,而 11W 的 GDDR6 不到 40 美元,因此 LPDDR4x 并没有为矿工节省太多(注意我们在这里讨论的是带宽)成本,而不是内存容量成本)。

问题 9:像 Nvidia 这样的 GPU 制造商雇佣了大约 8000 人来开发 GPU,这也是非常复杂的;而像 LinZhi 这样的 ASIC 厂商只有十几个人,只开发 ETHash 挖矿算法的 ASIC 矿机。这些公司的人工成本相差 100 quies,所以可以说 ASIC 芯片在成本和上市时间方面比 GPU 芯片更有优势。

这里的重点是规模经济是一个重要因素。 GPU 行业也在世界各地的各种销售渠道中摊销。目前市场总规模约4200亿美元,其中AMD市值约116亿美元,英伟达约1545亿美元,最大的英特尔约2548亿美元。仅就内存市场而言,物理端口(PHY)和芯片的成本需要在一个价值 5000 亿美元的行业中分摊,其中三星电子拥有 320,671 名员工,市值约为 3259 亿美元,同时也是美国最活跃的专利申请人;其次是拥有34,100名员工的美光科技,市值约601亿美元,是第一家开发20Gbps高速GDDR6内存的芯片制造商;海力士拥有 187 名、903 名员工,市值约 568 亿美元asic芯片挖矿,他们开发了全球首款 1Ynm 16Gb DDR5 DRAM。相比之下,用于加密货币挖矿的ASIC芯片行业总市值仅为1460亿美元,其中730亿属于比特币。

另外,我们还要看看上市时间和技术接受模型(TAM),这里可以作为参考。如果已经全面开发且计算难度不是很高的SHA256d算法计算芯片需要三年时间迭代,那么有什么能保证像GPU这样支持ProgPow算法的ASIC矿机快速投产呢?我们您还可以分析最近用于挖掘以太坊加密货币的 ASIC 矿机。 GDDR6芯片样品试用期已经一年,至今还没有可以广泛使用的新版本产品。

来自 ProgPow 核心开发团队 IfDefElse 的最终想法

ProgPow 实际上是一种以规模经济、高知名度和更大竞争优势为后盾的挖矿硬件。

ProgPow 的核心开发团队 IfDefElse 规模不大,团队成员都有全职工作,所以无法及时回复所有问题和文章,也没有时间研究各种加密货币和区块链在线。在论坛里闲聊。虽然 IfDefElse 对硬件设计和开发非常感兴趣,但他们仍然建议涉足这个领域的人需要谨慎,因为硬件和软件一样,是一个多元化的领域,即使你是一个加密货币挖矿 ASIC 芯片非常熟悉的大名字,但可能不是 GPU-ASIC 领域的专家。