cesign 最近的时间轴更新
cesign

cesign

V2EX 第 607365 号会员,加入于 2022-12-19 21:30:29 +08:00
各位 v 友,求个 star 🙏
  •  1   
    程序员  •  cesign  •  4 天前  •  最后回复来自 AmaQuinton
    8
    给昂贵的云降降本
    程序员  •  cesign  •  201 天前  •  最后回复来自 cesign
    51
    NAS 软件:资源自动发现和下载,支持调用迅雷下载
    NAS  •  cesign  •  241 天前  •  最后回复来自 krystal9527
    18
    docker 版迅雷下载 API,欢迎大家二次开发
    分享创造  •  cesign  •  2023-11-22 23:19:35 PM  •  最后回复来自 xinmans
    4
    新开源项目,各位 v 友来看看
    分享创造  •  cesign  •  264 天前  •  最后回复来自 windcode
    7
    open nas lab:汇聚用户,开发者和厂商,致力打造最好 NAS 软件生态。
    NAS  •  cesign  •  2023-10-08 14:45:23 PM  •  最后回复来自 evell
    3
    手撸了个 AI zsh shell 智能补全,有 V 友需要吗?
    程序员  •  cesign  •  2023-09-07 09:50:40 AM  •  最后回复来自 wulv
    9
    cesign 最近回复了
    4 天前
    回复了 cesign 创建的主题 程序员 各位 v 友,求个 star 🙏
    @paynezhuang 已点
    4 天前
    回复了 cesign 创建的主题 程序员 各位 v 友,求个 star 🙏
    @linuxsuren 已点
    4 天前
    回复了 cesign 创建的主题 程序员 各位 v 友,求个 star 🙏
    @fibroblast 感谢!
    Cool ,不错的工具!
    👍👍👍
    201 天前
    回复了 cesign 创建的主题 程序员 给昂贵的云降降本
    @sampeng

    > 不那么出名的开源项目?

    by the way ,AWS 开源的。
    201 天前
    回复了 cesign 创建的主题 程序员 给昂贵的云降降本
    @sampeng

    > 你犟什么呢?我一直在说 spot 会有稳定性影响。虽然不致命。但要起命来最少我是承担不起这个责任。


    那不能想办法增强吗?懒得思考?
    201 天前
    回复了 cesign 创建的主题 程序员 给昂贵的云降降本
    @sampeng

    > 我一直跟你强调的是运维是综合工作。不是只盯着一个集群。sp 是每小时承诺不假啊,但他覆盖所有的机型和 fagrate 。你猜我是不是业务集群在白天,


    你这场景没问题,那你为啥一定要否定我的解决方案呢?为啥一定要证明你的比我好呢?如果我不跑大数据呢?

    而且大数据都是 job 类,大多数大数据 job 都有断点重续,跑 spot 完全没问题。


    > 其实 k8s 的场景下 asg 已经解决了 spot 的优雅关机问题

    我还是没懂你指 cluster autoscaler 还是 aws 的 autoscaling group 。


    > 伸出来的时候所有 pod 刚启动都是 cpu100 。就一直加到最大值。等完事了发现太多了,又缩回去了。得,不够负载的,又加上起来。所谓集群再次重平衡是机器伸缩出来就涉及到 pod 会调度上来。


    那你有没有想过这种场景不适合用 cpu 作为 HPA 的伸缩指标?这么用,按推理可能会一直扩容。
    201 天前
    回复了 cesign 创建的主题 程序员 给昂贵的云降降本
    > 我就不能买 10u ,然后补个 saves plan 么

    你知道 sp 的计费逻辑吗? sp 是按小时承诺的。1 天 10 小时只有需要 10u ,那你这 sp 覆盖了啥,咋覆盖,只要 1 小时内没用超过 10u ,这个 sp 就是白白浪费的钱。他不是算你每天平均值去覆盖的。

    > 要么就是之前浪费太多了,集群平均利用率水位压根不达标。

    我承认之前浪费非常严重,

    > 工具只是提高管理效率,用一个工具就省钱就是本末倒置了

    首先,我没强推这个工具,友好交流。降本和提升利用率,本质是一个事物的一体两面。提升钱的利用率难道不是提升利用率吗?
    201 天前
    回复了 cesign 创建的主题 程序员 给昂贵的云降降本
    @sampeng

    > spot 最大问题是有可能不通知回收机器,最常见的是 60 秒前才通知

    是你瞎猜的还是什么?
    近期 2 个月,我们这边会记录中断数据,数百个节点,通知都是>=2min, 有的甚至能到 5min(rebalance recommendation)。

    如果一个业务的 grace termination seconds < 1min ,并且没有严苛的 PDB ,完全能优雅关闭。

    而且谁让一个业务只用 spot ,10%部分调度到 od,50%部分调度到 spot 不行吗,就算 spot 中断也有兜底(如客户端重试)。


    > 所以你才说和 ec2 一个体验。第一,ec2 的 as 有延迟,默认时间是 300s 。可以改,但有问题,他缩回去也有延迟,也可以改。我一开始也用过这个方案,但是 k8s 的 as 的逻辑极其诡异,很容易一会弹出 10 个机器,一会全缩完了。

    谁跟你说用 as(如果指 asg)。我通过程序直接调用的 ec2 fleet 接口,,弹性速度是 40s 左右一个节点,如果结合预热(从 shutdown 的机器拉起)可以达到更短,虽然可能没有 fargate 那么快,但是应该非常接近。

    对于 java 应用,弹机器是根据 pod request 弹的,不是 usage ,这点你似乎没明白。所以也就不会有“缩回去的时候又集群平衡,pod 一直处于不稳定状态” ,能不能专业点。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3269 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 12:22 · PVG 20:22 · LAX 04:22 · JFK 07:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.