您正在运行的最大的 Kubernetes 集群是什么？你的痛点是什么？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 59 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://www.reddit.com/r/kubernetes/comments/1husfza/whats_the_largest_kubernetes_cluster_youre/

同样的问题在这再发一遍，之前在 reddit 上还收到了不少反馈

对国内的情况来说，更想了解下像 deepseek 、其他 AI 训练平台，更倾向于单个大集群还是多个小集群？

感觉单个大集群更简单一点，但是可能会触发相关的性能瓶颈，而使用多集群就涉及到跨集群的训练。

kubernetes

clusters

4 条回复 • 2025-03-24 17:57:14 +08:00

pacoxu

59 天前

补充下相关信息

问题：

- 您部署或管理过的最大 Kubernetes 集群是什么？
- 您最大的挑战或痛点是什么？（例如，扩展、联网、API 服务器瓶颈等）
- 有什么技巧或工具可以帮助您克服这些挑战吗？

关联的一些博客：
- OpenAI：将 Kubernetes 扩展到 2500 个节点（ 2018 年），后来扩展到 7500 个节点（ 2021 年）。
- 蚂蚁集团：管理 10,000+ 个节点（ 2019 年）。
- 字节跳动：使用 KubeBrain 扩展到 20,000 个节点（ 2022 年）。
- Google Kubernetes Engine （ GKE ）：扩展到 65000+ 个节点（ 2024 年）。

一些常见问题：
- API Server 瓶颈
- etcd 性能问题
- 网络和存储挑战
- 大规模节点管理和监控

如果您有兴趣更深入地了解，以下是一些其他资源：

- 关于扩展大型集群的 Kubernetes 官方文档。
- OpenShift 的性能调优指南。
- 一篇关于微调 Kubernetes 集群（ google cloud ）的精彩 Medium 文章。
- 在 KubeOps 最近关于 v1.32 的博客中，它提到 https://kubeops.net/blog/the-world-of-kubernetes-cluster-topologies-a-guide-to-choosing-the-right-architecture“支持多达 20,000 个节点，使用 TLS 1.3 保护敏感数据，并利用优化的存储和路由功能”。我找不到关于这方面的官方评论。这可能与“WatchList”功能有关？

链接比较多，可以参考 reddit 帖子

ljf

59 天前

一些常见问题：
- API Server 瓶颈：扩容 apiserver ，Node 节点本地 lvs 负载均衡到不同的 apiserver
- etcd 性能问题：etcd 分库
- 网络和存储挑战：优化网络控制器，提高 IP 分配性能
- 大规模节点管理和监控：Prometheus 顶不住，换 metrics server

RedisMasterNode

54 天前

@ljf Try VictoriaMetrics

kennylam777

38 天前

其實去到 OpenAI 的規模, 遇到的底層網絡問題更多, 例如

- 多 regions 的 scheduling, 這個在 Managed k8s 只有 GKE 能做, IPAM 及後面的 BGP 開始變得重要, 一般 Managed k8s 做不了
- Single Cluster 上千 nodes 的 etcd 及 API server 都要做負載均衡了
- Pod Security 需要更細化
- 或者要考慮 Multiple cluster 的 Federation, 按業務分割出不同 k8s cluster, 再用內網的 Load balancer 來互通

AI 相關的應該更注重 GPU 資源分配吧, nVidia Kubernetes device plugin 是不夠用的, 必需要有更細致的方案