V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
pacoxu
V2EX  ›  Kubernetes

您正在运行的最大的 Kubernetes 集群是什么?你的痛点是什么?

  •  
  •   pacoxu · 21 小时 7 分钟前 · 647 次点击
    https://www.reddit.com/r/kubernetes/comments/1husfza/whats_the_largest_kubernetes_cluster_youre/

    同样的问题在这再发一遍,之前在 reddit 上还收到了不少反馈

    对国内的情况来说,更想了解下像 deepseek 、其他 AI 训练平台,更倾向于 单个大集群还是多个小集群?

    感觉单个大集群更简单一点,但是可能会触发相关的性能瓶颈,而使用多集群就涉及到跨集群的训练。
    2 条回复    2025-03-03 17:46:31 +08:00
    pacoxu
        1
    pacoxu  
    OP
       21 小时 4 分钟前
    补充下相关信息

    问题:

    - 您部署或管理过的最大 Kubernetes 集群是什么?
    - 您最大的挑战或痛点是什么?(例如,扩展、联网、API 服务器瓶颈等)
    - 有什么技巧或工具可以帮助您克服这些挑战吗?

    关联的一些博客:
    - OpenAI:将 Kubernetes 扩展到 2500 个节点( 2018 年),后来扩展到 7500 个节点( 2021 年)。
    - 蚂蚁集团:管理 10,000+ 个节点( 2019 年)。
    - 字节跳动:使用 KubeBrain 扩展到 20,000 个节点( 2022 年)。
    - Google Kubernetes Engine ( GKE ):扩展到 65000+ 个节点( 2024 年)。

    一些常见问题:
    - API Server 瓶颈
    - etcd 性能问题
    - 网络和存储挑战
    - 大规模节点管理和监控

    如果您有兴趣更深入地了解,以下是一些其他资源:

    - 关于扩展大型集群的 Kubernetes 官方文档。
    - OpenShift 的性能调优指南。
    - 一篇关于微调 Kubernetes 集群 ( google cloud ) 的精彩 Medium 文章。
    - 在 KubeOps 最近关于 v1.32 的博客中,它提到 https://kubeops.net/blog/the-world-of-kubernetes-cluster-topologies-a-guide-to-choosing-the-right-architecture“支持多达 20,000 个节点,使用 TLS 1.3 保护敏感数据,并利用优化的存储和路由功能”。我找不到关于这方面的官方评论。这可能与“WatchList”功能有关?


    链接比较多,可以参考 reddit 帖子
    ljf
        2
    ljf  
       20 小时 59 分钟前
    一些常见问题:
    - API Server 瓶颈:扩容 apiserver ,Node 节点本地 lvs 负载均衡到不同的 apiserver
    - etcd 性能问题:etcd 分库
    - 网络和存储挑战:优化网络控制器,提高 IP 分配性能
    - 大规模节点管理和监控:Prometheus 顶不住,换 metrics server
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5472 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 17ms · UTC 06:45 · PVG 14:45 · LAX 22:45 · JFK 01:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.