阿里 ECS 是一台机器构成的还是多台机器构成的?
请问是 1 还是 2 ?
如果不是 2 ,那么现在的技术世界里 存不存在 2 这种实现?
     1 
                    
                    ThirdFlame      2021-12-21 15:00:47 +08:00 
                    
                    显然是 1   
                2 的话成本有点高 而且开销有点大  | 
            
     2 
                    
                    julyclyde      2021-12-21 15:02:28 +08:00 
                    
                    古代有个 mosix 可以把多个机器合并为一个 
                不过后来这东西没继续发展了 现在的 ecs 应该都是小于等于一台物理机的  | 
            
     3 
                    
                    wy315700      2021-12-21 15:04:29 +08:00 
                    
                    内存和 CPU 应该是一起的,硬盘分本地硬盘和云硬盘 
                 | 
            
     4 
                    
                    PopRain      2021-12-21 15:10:48 +08:00    你在开玩笑吗?  内存、CPU 不在一台计算机上?  硬盘可能是网络的,但是一般也是在同一个机房,不太可能异地,异地也只是备份而已。 
                 | 
            
     5 
                    
                    andyskaura      2021-12-21 15:17:45 +08:00    太看得起网络带宽了吧 
                 | 
            
     6 
                    
                    seasona      2021-12-21 15:23:20 +08:00 
                    
                    1 ,ecs 其实就是 QEMU/KVM 开出的一台虚拟机,CPU 和内存都是一台本地服务器的,硬盘基本都是网络盘 
                 | 
            
     7 
                    
                    swulling      2021-12-21 15:31:25 +08:00 
                    
                    CPU 和内存是一台宿主机上的,硬盘通常挂载同一个可用区的云盘。 
                这是因为网络带宽和时延,也就刚刚追上硬盘,离内存还远(受到物理规律限制可能永远追不上)  | 
            
     8 
                    
                    stoneabc      2021-12-21 15:35:19 +08:00 
                    
                    @PopRain 不过最新的各种内存、gpu pooling 的研究,过个几年真有可能 cpu 、内存、gpu 等设备都不在一台物理机上了… 
                 | 
            
     9 
                    
                    t6attack      2021-12-21 15:35:26 +08:00 
                    
                    研究过 GPU 编程的朋友,可能会发现一个问题:当运算数据量很小的时候,速度提升并不明显,甚至比 CPU 计算更慢。原因是 GPU 带来的速度提升,被“向 GPU 传递数据所消耗的时间”所抵消。 
                你看,半个主板的距离,速度损耗都让人无法接受。你这直接给拉开两个城市了。  | 
            
     10 
                    
                    Alexonx      2021-12-21 15:37:56 +08:00 via Android    2 的实现的话,目前受限于网络带宽,很少有大规模的应用。OSDI '18 有篇论文挺类似的,这个论文描述的系统架构把硬件分成了处理器、内存和存储三种,中间通过网络进行通信,但是其中操作系统要付出大量的代价来保证一致性和容错。 
                PDF:https://www.usenix.org/system/files/osdi18-shan.pdf  | 
            
     11 
                    
                    2i2Re2PLMaDnghL      2021-12-21 15:59:42 +08:00 
                    
                    @stoneabc 但做法也不太可能是表现为一台机器(一个操作系统),而是表现为一个任务分发器(一个编排系统) 
                 | 
            
     12 
                    
                    justs0o      2021-12-21 16:06:32 +08:00 
                    
                    第二种除非有突破光速的东西出来,否则永远不可能 
                 | 
            
     13 
                    
                    kenshin912      2021-12-21 16:07:43 +08:00 
                    
                    显然是 1  
                内存和 CPU 必然在一台宿主机上 , 不然那延迟...... 硬盘也应该在同一个机房内.  | 
            
     14 
                    
                    lopssh   OP  | 
            
     15 
                    
                    felixcode      2021-12-21 16:20:29 +08:00 
                    
                    带宽可能可以通过技术革新来解决,但延时是受物理规律限制的。 
                CPU 和内存间有几到几十毫秒,再融合也不行,超融合也不行,再多的超字也不行。  | 
            
     16 
                    
                    FantaMole      2021-12-21 16:23:10 +08:00 
                    
                    超融合老是让我出戏到打牌 
                 | 
            
     17 
                    
                    westoy      2021-12-21 16:30:09 +08:00 
                    
                    红帽的超融合是基于软件方案的定义, 又不是你说的那种六神合体...... 
                 | 
            
     18 
                    
                    loading      2021-12-21 16:31:24 +08:00 
                    
                    @lopssh #14 你知道现在的超融合是怎么回事吗?约等于坑人。 
                你说的那种是集群,超过一台计算机能力的才需要把一个实例分布到多台物理机,你说的可能是指超级计算机。你自己查一下,阿里的 ECS 哪一个配置超过现在一台普通的服务器的配置了?  | 
            
     19 
                    
                    echo1937      2021-12-21 16:32:32 +08:00 
                    
                    
                 | 
            
     20 
                    
                    freelancher      2021-12-21 16:33:35 +08:00 
                    
                    @lopssh 无语了都。超融合能突破物理极限吗? 
                超融合的本质是分布式存储 + 虚拟化融合部署,核心是分布式存储。 存储放另一个地区都会造成巨大的网络延迟。 没事就多看看计算机的书!我潜水的都被炸出来了!  | 
            
     21 
                    
                    stoneabc      2021-12-21 16:34:06 +08:00 
                    
                    @felixcode 先不说能不能实现。。现在云厂商普通 vpc 内网的延时也就个位数 ms 。。上 Roce 之类东西的话能到个位数 us 级别 
                 | 
            
     22 
                    
                    mikuazusa      2021-12-21 16:36:54 +08:00 
                    
                    只能是 1 ,2 的情况目前的超融合也达不到。 
                想了解超融合的,看一下什么是超融合一体机就知道了。  | 
            
     23 
                    
                    felixcode      2021-12-21 16:41:22 +08:00 
                    
                    
                 | 
            
     24 
                    
                    freelancher      2021-12-21 16:41:36 +08:00    令人震惊的计算机文盲。不多说了。看完帖子我能气晕。 
                 | 
            
     26 
                    
                    felixcode      2021-12-21 16:51:37 +08:00 
                    
                    
                 | 
            
     27 
                    
                    Chase2E      2021-12-21 16:57:05 +08:00 
                    
                    <=一台物理机器,云计算的本质就是利用冗余资源嘛 
                 | 
            
     28 
                    
                    b1u2g3      2021-12-21 17:05:15 +08:00 
                    
                    无知,半知半解 =》无畏 
                 | 
            
     29 
                    
                    interim      2021-12-21 17:08:19 +08:00    一时无力吐槽,这竟然是个开发问出的问题,建议重修计算机。 
                 | 
            
     30 
                    
                    msg7086      2021-12-21 17:11:59 +08:00 via Android 
                    
                    超融合我记得只有存储是共享的吧,而且也是走 IB 之类互联的。 
                这些技术的难点都在于突破光(电)速。 CPU 和内存之间十几厘米的距离到顶了,拉到隔壁桌子都不行,你还跨省。这么远的距离,4GHz 的 CPU 瞬间被拉成 4KHz 。  | 
            
     31 
                    
                    markgor      2021-12-21 17:13:38 +08:00 
                    
                    所谓的超融合其实就是现在云厂推的无服务器应用...单纯跑一个应用的。 
                只涉及到存储 /计算 /带宽 能力。 和虚拟机完全不是一个级别的。 另外阿里 ecs 也不是一台物理机器; 存储->建立存储池,末端是多台物理机器; CPU/内存->集群中建立的虚拟机; 比方 A 集群中由 3 台物理机组成,虚拟机的配置运行仅仅会在其中一台节点中生效。 当发现这个节点异常时,集群会把配置文件移动到另一个节点中。由于数据的存储是存储池中的,所以这个移动其实仅仅是配置。 如果你有租用超过 3 年的云主机,你细心查看会发现有过自动重启的日志(可能看运气吧,但我其中一台试过),提交工单后答复由于宿主机异常,导致了转移,所以引起云服务器重启.... 内存带宽大概是 4200MT/s ,网络带宽需要达到怎样的条件才能这样异地组机呢,而且还没考虑稳定性... 这有点过渡设计了....  | 
            
     32 
                    
                    eason1874      2021-12-21 17:22:41 +08:00 
                    
                    硬盘可以通过网络连接,大部分场景能满足,需要高 I/O 的除外 
                CPU 和内存通过网络连接不可行,损耗极其大,说可行的要么不懂,要么骗子 这题目让我想起好多人以为超算就是堆 CPU 堆内存。。。  | 
            
     34 
                    
                    ch2      2021-12-21 17:55:05 +08:00 
                    
                    你用过就知道,哪台机器性能指标啥样都得提前文档里写好的,同一个大区不同小区之间高几毫秒延迟都得说的清清楚楚,不在一台机器上的都能猜得到 
                 | 
            
     35 
                    
                    xingHI      2021-12-21 18:15:14 +08:00 
                    
                    香港轻量最低配什么价格 
                 | 
            
     36 
                    
                    PMR      2021-12-21 18:22:45 +08:00 via Android 
                    
                    内存延迟超过 80/90ns 都已经出现计算能力下降的情况 
                内存 cpu 在上广的情况 天翼云在两地网络延迟能摸到 29ms 这延迟带来是非常致命  | 
            
     37 
                    
                    luckyc      2021-12-21 18:44:20 +08:00 
                    
                    内存、CPU 必须在一起, 人家厂商为了最大化的加速, 恨不得把内存集成到 CPU 里面去. 
                 | 
            
     38 
                    
                    vhwwls      2021-12-21 19:04:35 +08:00 
                    
                    底层是高度定制化的 KVM ,CPU 和内存当然只能是同一台机器上的,至于硬盘视情况而定,大部分情况是分布式存储上的。 
                 | 
            
     39 
                    
                    tinybaby365      2021-12-21 19:21:12 +08:00 
                    
                    CPU 和内存来自同一台 host ,( CPU 和内存都归为计算资源),磁盘可以来自该 host ,也可以是外部的云盘。云盘也是不会出 zone 的,不可能跨 region 的,延迟太大了。云盘使用的是 RDMA 类的方案。 
                 | 
            
     40 
                    
                    littlewing      2021-12-21 19:51:25 +08:00 
                    
                    如果你买的是 1024C1024T 的配置的话,有可能是 2 
                 | 
            
     41 
                    
                    lamesbond      2021-12-21 22:31:47 +08:00 
                    
                    应该是 1 ,阿里专有云资源快用完的时候,能开好几台 1 核,2 核的 ecs ,但开不出一台高配的,这些 1 核,2 核的就是每台物理机的“边角料” 
                 | 
            
     42 
                    
                    dianso      2021-12-21 22:34:46 +08:00 
                    
                    内存一般都在香港吧,网线应该在美国和欧洲,硬盘在国内,毕竟数据重要。 
                 | 
            
     43 
                    
                    Buges      2021-12-21 22:37:33 +08:00 via Android 
                    
                    除了硬盘都是 1 。其实 serverless 可以算是一种类似 2 的实现,不过你关心的不再是机器而是应用程序本身。 
                 | 
            
     44 
                    
                    Barnard      2021-12-22 09:11:23 +08:00 
                    
                    不应该,异地的通信已经是大大制约了,即使在同一个主板都要想方设法增加内存和 cpu 之间的总线带宽,更别说异地了,所以现在 SOC 集成 CPU 和内存,性能提升明显。 
                另外这些都应该是很基础的计算机知识,楼主不知道么 ?  | 
            
     45 
                    
                    ganbuliao      2021-12-22 11:29:37 +08:00 
                    
                    就是用了超融合 也得在一个机房里面 网络延迟是个大问题 
                 | 
            
     46 
                    
                    thtznet      2021-12-22 12:00:43 +08:00 
                    
                    1 和 2 事实上是统一的,任何计算机的所有联接目前都是物理联接,网线也是通过物理连上的,所以 1 和 2 的区别只是联接的线是 PCB 上的金线还是光纤+PCB 金线,理论上 PCB 金线的数据传输极限也是光速,光纤的传速极限也是光速,但是基于物理地点的差距,那么即便都在光速的情况下传输信号,那么 [方案 1]  永远都比 [方案 2]  快,那么现实的问题是,如果 [方案 1] 的计算资源不够了怎么办?目前计算机设计的方案就是在物理地点附近堆硬件,将 2 台物理计算机相邻放置,并将 CPU 和内存和硬盘等多个组件全部联起来,用什么连?用 PCB 连,所以它成了多路服务器,规模再大点,还要继续堆硬件,物理地点还要更靠近,一个 PCB 板有制造极限,那么用多个 PCB 联接起来,所以它成了刀片服务器,规模再大点,继续堆。。。所以它成了超算。。。 
                 | 
            
     47 
                    
                    Rorysky      2021-12-22 12:04:55 +08:00 
                    
                    连核与核之间的 cpu cache 同步都嫌代价大,你还搞 异地的? 
                2 不存在  | 
            
     48 
                    
                    6ufq0VLZn0DDkL80      2021-12-22 13:26:34 +08:00 
                    
                    。。。。 
                 | 
            
     49 
                    
                    Felldeadbird      2021-12-22 13:27:51 +08:00 
                    
                    第二个方案需要在 硬件上做设计. 不然怎样调度每个硬件? 抛开网络物理限制,每次请求接收运算就消耗了时间. 如果是一台超售的机房, 容错率怎样解决? 
                 | 
            
     50 
                    
                    hyq      2021-12-22 13:50:14 +08:00 
                    
                    阿里云不太了解,但是从 AWS 来看,最大型号的虚拟机和唯一的物理机 baremetal 是相同配置,是不是可以断定是方案 1 
                 | 
            
     51 
                    
                    libook      2021-12-22 15:22:53 +08:00 
                    
                    我的了解是 CPU 和内存在一个集群里,存储在另一个集群里。 
                所以可以算是大体上是方案 1 ,存储部分像方案 2 分离成独立的集群。 一台虚拟机的 CPU 、内存部分不会跨物理机,因为现在计算机性能太强了,网络是没法满足这么大强度的数据交换的。  |