V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
lopssh
V2EX  ›  云计算

阿里 ECS 是一台物理机器构成的还是多台物理机器构成的?

  •  
  •   lopssh · 2021-12-21 14:58:15 +08:00 · 7362 次点击
    这是一个创建于 847 天前的主题,其中的信息可能已经有所发展或是发生改变。

    阿里 ECS 是一台机器构成的还是多台机器构成的?

    1. 是一台物理机实现(某一台池化机器上的某个虚拟机)
    2. 还是多台物理机构成的网络计算机(即:纯粹基于网络的计算机,比如:内存由北京的一个服务器组成,CPU 由广东和福建的两台服务器共同构成,硬盘是浙江的三台服务器构成的)

    请问是 1 还是 2 ?

    如果不是 2 ,那么现在的技术世界里 存不存在 2 这种实现?

    第 1 条附言  ·  2021-12-21 16:12:17 +08:00
    了解到有一项叫做“超融合”的技术,有点类似于 2 的情况。
    51 条回复    2021-12-22 15:22:53 +08:00
    ThirdFlame
        1
    ThirdFlame  
       2021-12-21 15:00:47 +08:00
    显然是 1
    2 的话成本有点高 而且开销有点大
    julyclyde
        2
    julyclyde  
       2021-12-21 15:02:28 +08:00
    古代有个 mosix 可以把多个机器合并为一个
    不过后来这东西没继续发展了

    现在的 ecs 应该都是小于等于一台物理机的
    wy315700
        3
    wy315700  
       2021-12-21 15:04:29 +08:00
    内存和 CPU 应该是一起的,硬盘分本地硬盘和云硬盘
    PopRain
        4
    PopRain  
       2021-12-21 15:10:48 +08:00   ❤️ 1
    你在开玩笑吗? 内存、CPU 不在一台计算机上? 硬盘可能是网络的,但是一般也是在同一个机房,不太可能异地,异地也只是备份而已。
    andyskaura
        5
    andyskaura  
       2021-12-21 15:17:45 +08:00   ❤️ 1
    太看得起网络带宽了吧
    seasona
        6
    seasona  
       2021-12-21 15:23:20 +08:00
    1 ,ecs 其实就是 QEMU/KVM 开出的一台虚拟机,CPU 和内存都是一台本地服务器的,硬盘基本都是网络盘
    swulling
        7
    swulling  
       2021-12-21 15:31:25 +08:00
    CPU 和内存是一台宿主机上的,硬盘通常挂载同一个可用区的云盘。

    这是因为网络带宽和时延,也就刚刚追上硬盘,离内存还远(受到物理规律限制可能永远追不上)
    stoneabc
        8
    stoneabc  
       2021-12-21 15:35:19 +08:00
    @PopRain 不过最新的各种内存、gpu pooling 的研究,过个几年真有可能 cpu 、内存、gpu 等设备都不在一台物理机上了…
    t6attack
        9
    t6attack  
       2021-12-21 15:35:26 +08:00
    研究过 GPU 编程的朋友,可能会发现一个问题:当运算数据量很小的时候,速度提升并不明显,甚至比 CPU 计算更慢。原因是 GPU 带来的速度提升,被“向 GPU 传递数据所消耗的时间”所抵消。
    你看,半个主板的距离,速度损耗都让人无法接受。你这直接给拉开两个城市了。
    Alexonx
        10
    Alexonx  
       2021-12-21 15:37:56 +08:00 via Android   ❤️ 2
    2 的实现的话,目前受限于网络带宽,很少有大规模的应用。OSDI '18 有篇论文挺类似的,这个论文描述的系统架构把硬件分成了处理器、内存和存储三种,中间通过网络进行通信,但是其中操作系统要付出大量的代价来保证一致性和容错。
    PDF:https://www.usenix.org/system/files/osdi18-shan.pdf
    2i2Re2PLMaDnghL
        11
    2i2Re2PLMaDnghL  
       2021-12-21 15:59:42 +08:00
    @stoneabc 但做法也不太可能是表现为一台机器(一个操作系统),而是表现为一个任务分发器(一个编排系统)
    justs0o
        12
    justs0o  
       2021-12-21 16:06:32 +08:00
    第二种除非有突破光速的东西出来,否则永远不可能
    kenshin912
        13
    kenshin912  
       2021-12-21 16:07:43 +08:00
    显然是 1
    内存和 CPU 必然在一台宿主机上 , 不然那延迟......
    硬盘也应该在同一个机房内.
    lopssh
        14
    lopssh  
    OP
       2021-12-21 16:13:17 +08:00
    @Alexonx

    @julyclyde

    @stoneabc

    有一项叫做“超融合”的技术,不知道是否部分符合了 2 的定义。
    felixcode
        15
    felixcode  
       2021-12-21 16:20:29 +08:00
    带宽可能可以通过技术革新来解决,但延时是受物理规律限制的。

    CPU 和内存间有几到几十毫秒,再融合也不行,超融合也不行,再多的超字也不行。
    FantaMole
        16
    FantaMole  
       2021-12-21 16:23:10 +08:00
    超融合老是让我出戏到打牌
    westoy
        17
    westoy  
       2021-12-21 16:30:09 +08:00
    红帽的超融合是基于软件方案的定义, 又不是你说的那种六神合体......
    loading
        18
    loading  
       2021-12-21 16:31:24 +08:00
    @lopssh #14 你知道现在的超融合是怎么回事吗?约等于坑人。
    你说的那种是集群,超过一台计算机能力的才需要把一个实例分布到多台物理机,你说的可能是指超级计算机。你自己查一下,阿里的 ECS 哪一个配置超过现在一台普通的服务器的配置了?
    echo1937
        19
    echo1937  
       2021-12-21 16:32:32 +08:00
    freelancher
        20
    freelancher  
       2021-12-21 16:33:35 +08:00
    @lopssh 无语了都。超融合能突破物理极限吗?

    超融合的本质是分布式存储 + 虚拟化融合部署,核心是分布式存储。

    存储放另一个地区都会造成巨大的网络延迟。

    没事就多看看计算机的书!我潜水的都被炸出来了!
    stoneabc
        21
    stoneabc  
       2021-12-21 16:34:06 +08:00
    @felixcode 先不说能不能实现。。现在云厂商普通 vpc 内网的延时也就个位数 ms 。。上 Roce 之类东西的话能到个位数 us 级别
    mikuazusa
        22
    mikuazusa  
       2021-12-21 16:36:54 +08:00
    只能是 1 ,2 的情况目前的超融合也达不到。
    想了解超融合的,看一下什么是超融合一体机就知道了。
    felixcode
        23
    felixcode  
       2021-12-21 16:41:22 +08:00
    @stoneabc
    "内存由北京的一个服务器组成,CPU 由广东和福建的两台服务器共同构成"
    这个怎么能达到 us 级别?
    freelancher
        24
    freelancher  
       2021-12-21 16:41:36 +08:00   ❤️ 2
    令人震惊的计算机文盲。不多说了。看完帖子我能气晕。
    stoneabc
        25
    stoneabc  
       2021-12-21 16:43:08 +08:00
    @felixcode 仅指 “多台物理机构成” ,跨地域当然不行
    felixcode
        26
    felixcode  
       2021-12-21 16:51:37 +08:00
    @stoneabc
    roce 的个位数 us 级延时是指适配器延时,没算上传输延时。
    哪怕是个位数 us 级的延时,放到现有的架构上,内存与 cpu 之间的延时也是现有单机的上百倍了。
    Chase2E
        27
    Chase2E  
       2021-12-21 16:57:05 +08:00
    <=一台物理机器,云计算的本质就是利用冗余资源嘛
    b1u2g3
        28
    b1u2g3  
       2021-12-21 17:05:15 +08:00
    无知,半知半解 =》无畏
    interim
        29
    interim  
       2021-12-21 17:08:19 +08:00   ❤️ 1
    一时无力吐槽,这竟然是个开发问出的问题,建议重修计算机。
    msg7086
        30
    msg7086  
       2021-12-21 17:11:59 +08:00 via Android
    超融合我记得只有存储是共享的吧,而且也是走 IB 之类互联的。
    这些技术的难点都在于突破光(电)速。
    CPU 和内存之间十几厘米的距离到顶了,拉到隔壁桌子都不行,你还跨省。这么远的距离,4GHz 的 CPU 瞬间被拉成 4KHz 。
    markgor
        31
    markgor  
       2021-12-21 17:13:38 +08:00
    所谓的超融合其实就是现在云厂推的无服务器应用...单纯跑一个应用的。
    只涉及到存储 /计算 /带宽 能力。
    和虚拟机完全不是一个级别的。
    另外阿里 ecs 也不是一台物理机器;

    存储->建立存储池,末端是多台物理机器;
    CPU/内存->集群中建立的虚拟机;
    比方 A 集群中由 3 台物理机组成,虚拟机的配置运行仅仅会在其中一台节点中生效。
    当发现这个节点异常时,集群会把配置文件移动到另一个节点中。由于数据的存储是存储池中的,所以这个移动其实仅仅是配置。

    如果你有租用超过 3 年的云主机,你细心查看会发现有过自动重启的日志(可能看运气吧,但我其中一台试过),提交工单后答复由于宿主机异常,导致了转移,所以引起云服务器重启....

    内存带宽大概是 4200MT/s ,网络带宽需要达到怎样的条件才能这样异地组机呢,而且还没考虑稳定性...
    这有点过渡设计了....
    eason1874
        32
    eason1874  
       2021-12-21 17:22:41 +08:00
    硬盘可以通过网络连接,大部分场景能满足,需要高 I/O 的除外

    CPU 和内存通过网络连接不可行,损耗极其大,说可行的要么不懂,要么骗子

    这题目让我想起好多人以为超算就是堆 CPU 堆内存。。。
    julyclyde
        33
    julyclyde  
       2021-12-21 17:50:32 +08:00
    @lopssh 那只是个市场用语
    ch2
        34
    ch2  
       2021-12-21 17:55:05 +08:00
    你用过就知道,哪台机器性能指标啥样都得提前文档里写好的,同一个大区不同小区之间高几毫秒延迟都得说的清清楚楚,不在一台机器上的都能猜得到
    xingHI
        35
    xingHI  
       2021-12-21 18:15:14 +08:00
    香港轻量最低配什么价格
    PMR
        36
    PMR  
       2021-12-21 18:22:45 +08:00 via Android
    内存延迟超过 80/90ns 都已经出现计算能力下降的情况



    内存 cpu 在上广的情况
    天翼云在两地网络延迟能摸到 29ms
    这延迟带来是非常致命
    l4ever
        37
    l4ever  
       2021-12-21 18:44:20 +08:00
    内存、CPU 必须在一起, 人家厂商为了最大化的加速, 恨不得把内存集成到 CPU 里面去.
    vhwwls
        38
    vhwwls  
       2021-12-21 19:04:35 +08:00
    底层是高度定制化的 KVM ,CPU 和内存当然只能是同一台机器上的,至于硬盘视情况而定,大部分情况是分布式存储上的。
    tinybaby365
        39
    tinybaby365  
       2021-12-21 19:21:12 +08:00
    CPU 和内存来自同一台 host ,( CPU 和内存都归为计算资源),磁盘可以来自该 host ,也可以是外部的云盘。云盘也是不会出 zone 的,不可能跨 region 的,延迟太大了。云盘使用的是 RDMA 类的方案。
    littlewing
        40
    littlewing  
       2021-12-21 19:51:25 +08:00
    如果你买的是 1024C1024T 的配置的话,有可能是 2
    lamesbond
        41
    lamesbond  
       2021-12-21 22:31:47 +08:00
    应该是 1 ,阿里专有云资源快用完的时候,能开好几台 1 核,2 核的 ecs ,但开不出一台高配的,这些 1 核,2 核的就是每台物理机的“边角料”
    dianso
        42
    dianso  
       2021-12-21 22:34:46 +08:00
    内存一般都在香港吧,网线应该在美国和欧洲,硬盘在国内,毕竟数据重要。
    Buges
        43
    Buges  
       2021-12-21 22:37:33 +08:00 via Android
    除了硬盘都是 1 。其实 serverless 可以算是一种类似 2 的实现,不过你关心的不再是机器而是应用程序本身。
    Barnard
        44
    Barnard  
       2021-12-22 09:11:23 +08:00
    不应该,异地的通信已经是大大制约了,即使在同一个主板都要想方设法增加内存和 cpu 之间的总线带宽,更别说异地了,所以现在 SOC 集成 CPU 和内存,性能提升明显。

    另外这些都应该是很基础的计算机知识,楼主不知道么 ?
    ganbuliao
        45
    ganbuliao  
       2021-12-22 11:29:37 +08:00
    就是用了超融合 也得在一个机房里面 网络延迟是个大问题
    thtznet
        46
    thtznet  
       2021-12-22 12:00:43 +08:00
    1 和 2 事实上是统一的,任何计算机的所有联接目前都是物理联接,网线也是通过物理连上的,所以 1 和 2 的区别只是联接的线是 PCB 上的金线还是光纤+PCB 金线,理论上 PCB 金线的数据传输极限也是光速,光纤的传速极限也是光速,但是基于物理地点的差距,那么即便都在光速的情况下传输信号,那么 [方案 1] 永远都比 [方案 2] 快,那么现实的问题是,如果 [方案 1] 的计算资源不够了怎么办?目前计算机设计的方案就是在物理地点附近堆硬件,将 2 台物理计算机相邻放置,并将 CPU 和内存和硬盘等多个组件全部联起来,用什么连?用 PCB 连,所以它成了多路服务器,规模再大点,还要继续堆硬件,物理地点还要更靠近,一个 PCB 板有制造极限,那么用多个 PCB 联接起来,所以它成了刀片服务器,规模再大点,继续堆。。。所以它成了超算。。。
    Rorysky
        47
    Rorysky  
       2021-12-22 12:04:55 +08:00
    连核与核之间的 cpu cache 同步都嫌代价大,你还搞 异地的?

    2 不存在
    cholerae
        48
    cholerae  
       2021-12-22 13:26:34 +08:00
    。。。。
    Felldeadbird
        49
    Felldeadbird  
       2021-12-22 13:27:51 +08:00
    第二个方案需要在 硬件上做设计. 不然怎样调度每个硬件? 抛开网络物理限制,每次请求接收运算就消耗了时间. 如果是一台超售的机房, 容错率怎样解决?
    hyq
        50
    hyq  
       2021-12-22 13:50:14 +08:00
    阿里云不太了解,但是从 AWS 来看,最大型号的虚拟机和唯一的物理机 baremetal 是相同配置,是不是可以断定是方案 1
    libook
        51
    libook  
       2021-12-22 15:22:53 +08:00
    我的了解是 CPU 和内存在一个集群里,存储在另一个集群里。

    所以可以算是大体上是方案 1 ,存储部分像方案 2 分离成独立的集群。

    一台虚拟机的 CPU 、内存部分不会跨物理机,因为现在计算机性能太强了,网络是没法满足这么大强度的数据交换的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1027 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 20:09 · PVG 04:09 · LAX 13:09 · JFK 16:09
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.