OpenAI, Çarşamba günü yaşanan ve şirketin tarihindeki en uzun kesintilerden biri olan büyük aksaklığın, yeni devreye alınan bir telemetri hizmetinden kaynaklandığını açıkladı. Bu kesinti ChatGPT, Sora ve geliştiriciye yönelik API hizmetlerinde büyük aksaklıklara neden oldu.
Şirket yayımladığı son durum raporunda, kesintinin bir güvenlik olayı yahut yeni bir eser lansmanından değil, Çarşamba günü devreye alınan Kubernetes metriklerini toplayan bir telemetri hizmetinden kaynaklandığını belirtti.
OpenAI herkesten özür diledi

Kubernetes, uygulama paketlerini ve ilgili evrakları izole ortamlarda yönetmeye yardımcı olan açık kaynaklı bir programdır. Telemetri hizmeti, istemeden kaynak ağır Kubernetes API süreçlerine neden oldu ve bu da Kubernetes denetim düzlemini devre dışı bıraktı. Yeni telemetri hizmetinin, OpenAI’nin birçok hizmetinin DNS çözümlemesi için güvendiği Kubernetes süreçlerini etkilediği belirtildi.
OpenAI’nin DNS önbelleklemesi, yayılımın tam kapsamının anlaşılmadan evvel devam etmesine neden oldu ve görünürlüğü geciktirdi. OpenAI, sorunu müşteriler etkilenmeden birkaç dakika evvel tespit ettiklerini, lakin çok yüklenmiş Kubernetes sunucuları nedeniyle süratli bir biçimde düzeltme yapamadıklarını açıkladı. Şirket, bu olayın birçok sistem ve sürecin tıpkı anda başarısız olması ve beklenmedik hallerde etkileşimde bulunmasının bir sonucu olduğunu belirtti.
OpenAI, gelecekte benzeri olayların meydana gelmesini önlemek için altyapı değişikliklerinde daha âlâ izleme, kademeli yayılımda iyileştirmeler ve mühendislerinin Kubernetes API sunucularına her şartta erişimini sağlamak için yeni düzenekler dahil olmak üzere çeşitli tedbirler alacağını duyurdu. OpenAI, bu kesinti için ChatGPT kullanıcılarından özür diledi ve beklentilerinin altında kaldıklarını da kabul etti.


