本文通过OpenAI近期遭遇的重大服务中断事件作为案例,深入分析了Kubernetes (K8s) 架构在大规模集群环境下的稳定性挑战,以及阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性的。 作者: 阿里云容器服务团队:佳旭、行疾 阿里云可观测团队:凌竹、丹 ...
文章探讨了为什么大规模集群中的可观测性服务会产生大量API请求、API服务器为何对DNS解析至关重要以及故障恢复过程为何缓慢的原因。 背景 12月11日,OpenAI 出现了全球范围内的不可用故障,影响了 ChatGPT,API,Sora,Playground 和 Labs 等服务。影响范围从 12 月 11 ...
为什么传统企业要K8s? 一直以来,很多传统企业都采用IasS来降低成本,加速IT基础架构的部署,并提高可用性。而PaaS也备受瞩目,很多人认为使用PaaS,开发人员只需关注上层应用的实现,而不用关心底层的系统和运行环境,并且也不需要考虑运维。 然而传统 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果