İzleme cihazları, IT altyapılarından çeşitli performans metriklerini toplar. Bu cihazlar, sistemlerin sağlık durumunu takip ederken olası problemleri tespit edebilmek için sürekli olarak veriyi izler. İzlenen başlıca bileşenler şunlardır:
Ağ Cihazları: Router, switch gibi ağ cihazlarının trafiğini, bağlantı sorunlarını, paket kayıplarını ve gecikmeleri izler.
Sunucular: CPU, bellek kullanımı, disk I/O, ağ trafiği gibi temel performans verilerini toplar.
Uygulamalar: Uygulama yanıt süreleri, hata kayıtları, kullanıcı etkileşimleri ve işlem sürelerini takip eder.
Veritabanları: Sorgu süreleri, gecikmeler, işlem sayıları ve hataları gibi performans göstergelerini izler.
Bu izleme süreci genellikle sürekli bir veri toplama döngüsünden oluşur. İzleme çözümleri, belirli zaman aralıklarında (örn. her 5 saniyede bir) çeşitli kaynaklardan verileri toplar ve merkezi bir veritabanına gönderir.
Toplanan bu veriler, genellikle “ham veri” (raw data) olarak adlandırılır. Ham veri, herhangi bir işlem yapılmamış, analiz edilmemiş ve bağlama oturtulmamış saf metriklerdir. Örneğin:
– Sunucunun CPU kullanımının %80 olduğunu bilmek.
– Bir ağ cihazında belirli bir süre zarfında 10 paket kaybı tespit edilmesi.
– Bir uygulamanın yanıt süresinin 500 ms olduğunu görmek.
Bu örnekler, sistemin belirli anlık durumlarını gösterse de, tek başına bir anlam ifade etmeyebilir. Ham veri, olayların sadece bir anlık görüntüsünü sunar ve bu verilerin ne anlama geldiği veya ne yapılması gerektiği belirsiz olabilir.
İzleme cihazlarının topladığı ham veriler, doğru analiz edilmediğinde sorunların tespit edilmesi veya önleyici aksiyonlar alınması için yetersizdir. İşte bu durumun temel nedenleri:
Verilerin hangi koşullar altında toplandığını anlamak, onların ne anlama geldiğini çözmek için kritiktir. Örneğin, bir sunucunun CPU kullanımı %80’e ulaştığında bu durum tek başına bir sorun teşkil etmez. Ancak, CPU kullanımı sürekli yüksekse veya CPU kullanımıyla aynı anda disk I/O değerlerinde de bir artış varsa, bu durum performans sorunlarına işaret edebilir.
– Bağlam olmadan: %80 CPU kullanımı normal bir yük olabilir.
– Bağlam ile: Yüksek CPU kullanımı bir bellek sızıntısına işaret edebilir.
BT sistemlerinden gelen binlerce farklı olay ve metrik verisi arasında, hangi verinin önemli olduğunu ayırt etmek zor olabilir. Veriler analiz edilmediğinde, sadece sayısal göstergeler olarak kalır ve yöneticilere eyleme geçirilebilir bilgi sunmaz.
Farklı sistemlerden gelen verilerin birbiriyle ilişkili olup olmadığını belirlemek, sorunun kaynağını tespit etmek açısından hayati önemdedir. Örneğin, bir uygulamanın yavaşlaması sadece CPU kullanımına bağlı olabilir, ancak sorunun gerçek kaynağı ağ trafiğindeki bir tıkanıklık da olabilir. Eğer bu iki olay arasında korelasyon kurulmazsa, gerçek sorun gözden kaçabilir.
ODYA Automated NOC platformu, izlenen verilerdeki anormallikleri tespit etmek için makine öğrenmesi ve yapay zeka kullanır. Normalde düzenli çalışan bir sunucu veya uygulamada bir sapma olduğunda, bu sapma bir anomali olarak tanımlanır ve sistem alarm üretir. Anomali tespiti, potansiyel sorunları ortaya çıkmadan önce fark etmeye yardımcı olur.
İzleme çözümlerinden toplanan veriler analiz edilerek gelecekteki sorunlar tahmin edilir. Bellek kullanımının sürekli artması, yakın gelecekte bir bellek sızıntısına yol açabileceğine işarettir. ODYA Automated NOC platformu bu tür durumları tahmin ederek BT ekiplerine proaktif önerilerde bulunur. Aynı zamanda talep edilmesi durumunda L1 ve L2 seviyede destek sunarak olay yönetiminde problem yönetimine tüm süreci kendisi yönetir.
Ham veri sadece olayların sayısal göstergesidir. Bilgi ise bu verilerin analiz edilerek bir bağlama oturtulması ve anlamlandırılmasıyla elde edilir. İzleme çözümlerinin ham veriyi toplaması, bir sistemin durumunu anlamak için yeterli değildir. Bilgi, ham verinin işlenmesiyle elde edilir ve ancak o zaman anlamlı içgörüler ve aksiyonlar üretilebilir.
Bir örnek üzerinden inceleyelim
Ham Veri: Bir sunucunun CPU kullanımı %80.
Bilgi: Bu sunucu, bir bellek sızıntısı nedeniyle normalden daha fazla CPU kullanıyor ve bu durum bir performans sorununa yol açabilir.
İzleme çözümleri, BT altyapılarının verimli bir şekilde çalışmasını sağlamak için kritik rol oynar. Ancak, bu cihazlar tarafından toplanan ham veriler, analiz edilmediği sürece bir anlam ifade etmez. Ham veri yalnızca sistemin anlık durumunu gösterir; bağlama oturtulmadığında, sorunları tespit etmek veya çözmek için yeterli değildir.
Bu noktada ODYA Automated NOC devreye girer. Ham veriyi analiz ederek anlamlandırır, korelasyonlar kurar ve BT ekiplerine proaktif çözümler sunar. Böylece sistemler daha verimli bir şekilde yönetilir, sorunlar ortaya çıkmadan önce tespit edilir ve BT operasyonlarının genel verimliliği artar.