NOC Nedir? NOC yani Network Operation Center altyapının hiç uyumayan gözüdür. Peki teknik temelleri, iş sürekliliğindeki kritik rolü ve AI ile Automated NOC'un açtığı yeni çağ nasıl değerlendirilmeli? Detaylar blog yazımızın devamında!
Network Operation Center (NOC) — Türkçesiyle Ağ Operasyon Merkezi — bir organizasyonun tüm IT altyapısını 7/24/365 izleyen, yöneten ve koruma altına alan merkezi operasyon birimidir. Sadece bir "gözetim noktası" değil; proaktif müdahale, olay yönetimi ve eskalasyon zincirinin tamamını bünyesinde barındıran tam kapsamlı bir operasyon katmanıdır. NOC Nedir? sorusuna verilebilecek en net yanıt ise; kurumların IT altyapısını kesintisiz şekilde izleyen, olası sorunlara proaktif müdahale eden ve operasyonel sürekliliği güvence altına alan merkezi bir kontrol ve yönetim mekanizması olduğudur.
Bir NOC'un sorumluluğu, modern IT ortamlarının karmaşıklığını yansıtacak biçimde çok katmanlıdır. Network monitoring'den server health check'lere, firewall log analizi'nden bandwidth utilization takibine kadar her telemetri noktasını tek bir cam panelden yönetir.
Teknik açıdan ele alındığında bir NOC; fault management, performance management, configuration management, security monitoring ve compliance reporting olmak üzere beş ana işlev alanında faaliyet gösterir. Bu beş alan, FCAPS modelinin (Fault, Configuration, Accounting, Performance, Security) IT operasyonlarına yansımasıdır.
Fault Management kapsamında; router / switch down alarmlarından başlayarak BGP session drop, interface flap, CPU/memory threshold breach ve disk I/O saturation gibi olaylar anlık olarak tespit edilir, önceliklendirilir ve müdahale süreci tetiklenir.
NOC Nedir? sorusunun bir diğer cevabı da en net tanımıyla, kurumun dijital altyapısının hiç uyumayan koruyucusu olduğudur.. Ancak bu tanım, NOC'un gerçek işlevini yeterince yansıtmaz. NOC'un işe yararlığını üç temel boyutta ele almak gerekir: önleme, tespit ve müdahale.
Önleme boyutunda NOC; kapasite eşiklerini izleyerek olası darboğazları önceden tespit eder, patch ve konfigürasyon yönetimini yürütür, yedekleme doğrulamalarını takip eder. Tespit boyutunda; ağ, sunucu, uygulama ve güvenlik katmanlarında oluşan anomalileri anlık olarak yakalar — bir link flap'ten bir disk failure'a, bir latency spike'tan bir unauthorized login'e kadar. Müdahale boyutunda ise önceden tanımlanmış runbook'lar çerçevesinde L1 olay çözümünü gerçekleştirir; çözemediği durumları eskalasyon zinciriyle L2/L3'e iletir.
Kritik sistemlerin kesintisiz çalışmasını sağlar. SLA taahhütlerinin karşılanmasında birincil operasyonel mekanizmadır.
Sorunlar kullanıcıyı etkilemeden önce tespit edilir. Threshold-based ve anomaly-based alarm mekanizmaları birlikte çalışır.
Her olay kayıt altına alınır, kategorize edilir ve SLA süreleri içinde çözüme kavuşturulur. Ticket lifecycle yönetimi eksiksiz işler.
Bandwidth utilization, latency, packet loss ve application response time metrikleri sürekli izlenir; raporlanır.
Ağ cihazlarının konfigürasyon değişiklikleri izlenir, yetkisiz değişiklikler alarm üretir. Config backup otomasyonu çalışır.
IT direktörlerine ve üst yönetime gerçek zamanlı dashboard ve periyodik SLA raporları sunar. Karar destek verisi üretir.
Kurumsal açıdan değerlendirildiğinde NOC'un işe yararlığı; gelir kaybını önlemek, SLA cezalarından kaçınmak, operasyonel verimliliği artırmak ve müşteri güvenini korumak olarak özetlenebilir. Bir finansal kurumda saniyeler içinde yaşanan bir transaction gateway kesintisi ile bir e-ticaret platformunda yaşanan checkout arızası — her ikisi de NOC'un proaktif müdahalesiyle önlenebilir veya etkisi minimize edilebilir senaryolardır.
Bir NOC'un işleyişi, altyapıdan gelen ham sinyallerin anlamlı aksiyona dönüştürüldüğü sistematik bir süreçtir. Bu süreç; veri toplama, korelasyon, alarm yönetimi, müdahale ve kapanış olmak üzere beş ardışık fazdan oluşur.
Ağ cihazları, sunucular, uygulamalar ve güvenlik sistemleri; SNMP trap, syslog, NetFlow, WMI, API webhook ve agent-based collector'lar aracılığıyla sürekli veri gönderir. Bu veri akışı saniyede binlerce event içerebilir. NMS (Network Management System) ve SIEM platformları bu veriyi merkezi olarak toplar ve depolar.
Ham eventler doğrudan alama dönüşmez; önce korelasyon motorundan geçer. Birbiriyle ilişkili eventler gruplandırılır, tekrarlayan alarmlar bastırılır (alarm suppression), gerçek bir sorunu işaret eden eventler ise severity (P1–P4) değerlendirmesiyle önceliklendirilir. Bu adım, alert fatigue'i önleyen en kritik mekanizmadır.
Korelasyon motorunu geçen olay, otomatik olarak bir incident ticket'a dönüşür (SPIDYA ITSM, SPIDYA HelpDesk vb.). Ticket; olay tipi, etkilenen sistem, severity, başlangıç zamanı ve atanan L1 operatör bilgisini içerir. Eş zamanlı olarak PagerDuty, OpsGenie veya SMS/e-posta kanalıyla ilgili ekip bilgilendirilir.
L1 operatör, ilgili runbook (SOP)'u açarak tanımlı adımları uygular. Runbook kapsamındaki aksiyonlar; cihaza SSH ile bağlanmak, servisi yeniden başlatmak, konfigürasyon değişikliğini geri almak ya da yedek rotaya geçmek olabilir. SLA süresi içinde çözülemeyen olaylar, daha derin uzmanlık gerektiren L2/L3 mühendislere eskalasyon edilir.
Olay çözüldükten sonra ticket kapatılır; çözüm adımları, süre ve etki alanı belgelenir. Kritik (P1/P2) olaylar için Root Cause Analysis (RCA) raporu hazırlanır. Bu raporlar; tekrarlayan olayları önlemek için problem management sürecine girdi sağlar ve NOC'un kurumsal bilgi tabanını besler.
Bir NOC ekibi tek tip bir yapıda değil; sorumluluk ve uzmanlık seviyesine göre katmanlı bir hiyerarşide çalışır. Her katmanın net bir iş tanımı, yetki sınırı ve eskalasyon kriteri vardır.
7/24 vardiyalı çalışır. Gelen alarmları izler, ticket'ları triyaj eder, runbook'ları uygular. Standart sorunları (servis restart, konfigürasyon doğrulama, bağlantı testi) bağımsız çözer. Çözemediği olayları SLA süresi dolmadan eskalasyon eder.
Araçlar: NMS dashboard, ticketing sistemi, SSH client, temel ağ araçları
OperasyonelL1'den eskalasyon gelen kompleks olayları ele alır. Ağ protokol analizi (BGP, OSPF, MPLS), uygulama katmanı sorun giderme, log korelasyonu ve root cause analizi yapar. Gerektiğinde konfigürasyon değişikliği uygular ya da vendor desteğine başvurur.
Araçlar: Wireshark, packet capture araçları, SIEM query dili, vendor CLI
TeknikMajor incident yönetimini üstlenir. Post-mortem ve RCA raporlarını yazar. Problem management sürecini yönetir, tekrarlayan olaylar için kalıcı çözümler tasarlar. NOC araçlarının konfigürasyonunu, runbook'ların güncellenmesini yönetir.
Araçlar: Tüm platform yönetim arayüzleri, CMDB, change management
StratejikVardiya planlamasını, SLA takibini ve ekip performans yönetimini üstlenir. Major incident'larda stakeholder iletişimini koordine eder. IT direktörü ve üst yönetim için KPI raporları hazırlar. NOC araç stratejisi ve bütçe yönetiminden sorumludur.
Odak: MTTD/MTTR trendleri, SLA compliance, vendor ilişkileri
YönetimNOC'un kesintisiz işleyişi, Follow-the-Sun (FTS) modeli veya coğrafi dağıtık ekiplerle sağlanır. Büyük enterprise NOC'larda sabah, öğleden sonra ve gece olmak üzere üç vardiyada toplam 12-20 L1/L2 mühendis aktif olabilir. Her vardiya devri, kapsamlı bir shift handover süreciyle yönetilir: açık ticket'lar, devam eden olaylar ve bekleyen escalation'lar eksiksiz aktarılır.
NOC mühendislerinin en büyük üretkenlik katili alert fatigue'dir — günde yüzlerce false positive alarm, gerçek kritik olaylara verilen tepki süresini uzatır. Runbook kalitesi ve alarm threshold kalibrasyonu, ekip verimliliğini doğrudan etkiler. L1 FCR (First Call Resolution) oranını artırmak için runbook'ları 6 ayda bir gözden geçirin.
Kurumsal IT organizasyonlarında sıkça karıştırılan iki kavram: NOC (Network Operation Center) ve SOC (Security Operation Center). Her ikisi de 7/24 izleme yapar, her ikisi de alarm yönetimiyle ilgilenir — ancak odak noktaları, araçları ve hedefleri temelden farklıdır.
"NOC altyapının çalışmasını sağlar; SOC altyapının güvende kalmasını."
— NIST Cybersecurity Framework, SP 800-61
CPU, bandwidth, latency, uptime, disk I/OMalware, intrusion, DLP, IAM anomalisiNOC ve SOC ayrı ekipler olsa da birbirine bağımlı süreçleri vardır. Bir DDoS saldırısı hem SOC'un güvenlik radarına hem de NOC'un bant genişliği alarmlarına düşer. Bir ransomware lateral movement'ı önce NOC'ta anormal ağ trafiği olarak görünebilir; SOC analisti bu veriyi derinlemesine inceler. Modern organizasyonlarda bu iki merkezi birleştiren Fusion Center (NOC+SOC) modeli giderek yaygınlaşmaktadır.
SIEM platformlarının (Splunk, IBM QRadar, Microsoft Sentinel) hem operasyonel hem güvenlik loglarını işlemesi, iki ekip arasında ortak bir veri zemini oluşturmaktadır. SOAR (Security Orchestration, Automation and Response) araçları ise SOC'un otomasyon ihtiyaçlarına NOC'un runbook mantığıyla benzer bir yaklaşım getirmektedir.
NOC ve SOC'u ayrı bütçe kalemleri olarak düşünmeyin — her ikisinin de besleneceği ortak bir observability altyapısı kurun. Log toplama, telemetri pipeline'ı ve alarm yönetim platformu paylaşıldığında hem maliyet düşer hem de iki ekip arasındaki koordinasyon hızlanır. Fusion Center modeline geçiş için bu altyapısal zemin önkoşuldur.
Bir NOC'un iş sürekliliğine katkısı yalnızca "sunucuların açık tutulması" değildir. Mean Time To Detect (MTTD) ve Mean Time To Resolve (MTTR) metriklerinin minimize edilmesi, doğrudan gelir kaybı önleme, SLA cezalarından korunma ve marka itibarının korunması anlamına gelir.
Özellikle e-ticaret, fintech, sağlık IT ve telekom gibi sektörlerde altyapı sürekliliği, müşteri deneyiminin omurgasını oluşturur. Bir payment gateway'in 3 dakika erişilemez kalması, binlerce işlem hatasına; bir CDN edge node'un çökmesi ise milyonlarca sayfa yüklemesinin başarısız olmasına neden olabilir.
"Proaktif bir NOC'un değerini ölçmek için sorun çıkardığında değil, sorunun hiç çıkmadığı anlara bakın."
— ITIL v4 Service Management Framework
Mean Time to Detect — Bir anormalliğin oluşmasından tespit edilmesine kadar geçen süre. Hedef: < 5 dakika.
Mean Time to Resolve — Olay tespitinden tam çözüme kadar geçen süre. L1 için hedef: < 15 dakika.
FCR — L1 operatörünün eskalasyon olmaksızın kapattığı ticket yüzdesi. Benchmark: %70+
Toplam alarm sayısı içindeki false positive oranı. %30'un üzeri operatör verimliliğini ciddi ölçüde düşürür.
Taahhüt edilen uptime hedeflerinin karşılanma oranı. Five-nines için yıllık hedef: %99.999
Aynı kök nedenden kaynaklanan tekrarlayan olayların oranı. RCA sürecinin etkinliğini ölçer.
SLA compliance'ı yalnızca uptime üzerinden değil, MTTD, MTTR ve FCR üçlüsü üzerinden yönetin. Bir sistem "ayakta" olsa bile yavaş yanıt veriyorsa SLA ihlali gerçekleşmiş demektir. NOC dashboardlarınızı bu dört metriği eş zamanlı gösterecek biçimde yapılandırın.
Geleneksel NOC'ların en büyük düşmanı alarm gürültüsü ve veri bolluğudur. Modern bir enterprise ağı; saniyede binlerce SNMP trap, syslog eventi ve telemetri verisi üretir. Bu hacimle başa çıkmak için AIOps (Artificial Intelligence for IT Operations) artık bir "nice-to-have" değil, operasyonel zorunluluktur.
ODYA Automated NOCML modelleri (özellikle LSTM ve Isolation Forest algoritmaları), normal davranış baseline'larını öğrenerek gerçek anomalileri false positive'lerden ayırt eder. Bir CPU spike'ı backup penceresi mi yoksa ransomware lateral movement mi? AI bu farkı anlık olarak değerlendirir.
Birbiriyle ilişkili yüzlerce alarm tek bir "root cause" event'e konsolide edilir. Moogsoft, BigPanda, Splunk ITSI gibi araçlar, bir fiziksel bağlantı kesintisinin tetiklediği 500 bağlı alarm yerine tek bir kök neden ticket'ı açar. Alert fatigue dramatik biçimde düşer.
Aktif KullanımAI, olay tipini tanımlayarak ilgili runbook'u otomatik tetikler. Örneğin BGP session down tespitinde sistem, komşu router'ların durumunu kontrol eden, BGP session'ı reset eden ve tüm adımları ticket'a yazan bir süreci insan müdahalesi olmaksızın yürütür.
LLM tabanlı modeller, olay geçmişini ve log analizini otomatik olarak doğal dilde özetler. L1 → L2 eskalasyonlarında context aktarımı hızlanır, post-mortem raporları otomatik taslak oluşturulur. Ortalama handoff süresi %60'a kadar azalabilir.
EmergingPiyasada öne çıkan AIOps platformlarından Moogsoft event correlation ve noise reduction konusunda güçlüdür. Dynatrace Davis AI application-centric monitoring ile root cause analizini otomatize eder. Splunk ITSI ise mevcut Splunk altyapısıyla derin entegrasyon arayan ekipler için uygundur. ServiceNow AIOps ise ITSM ekosistemiyle sıkı entegrasyonu nedeniyle büyük enterprise NOC'larda tercih edilmektedir.
AI modellerini NOC'a entegre etmeden önce minimum 3-6 aylık temiz telemetri verisi toplayın. Yetersiz ya da gürültülü eğitim verisi, false positive oranını artırır ve operatör güvenini zedeler. Model drift'ini önlemek için aylık retraining pipeline'ları tanımlayın.
Automated NOC — ya da "Lights-Out NOC" — kavramı, rutin operasyonel görevlerin büyük çoğunluğunun insan müdahalesi olmaksızın yürütüldüğü, insan NOC mühendislerinin yalnızca kompleks ve yüksek etkili senaryolara odaklandığı bir operasyon modelidir.
Bu model; event-driven automation, self-healing networks, intent-based networking (IBN) ve infrastructure as code (IaC) paradigmalarının birleşimiyle mümkün hale gelmektedir.
AI alarm azaltma ve önceliklendirmede aktif, insan operatörler tüm müdahalelerde görevli. Otomasyon oranı %20-35 bandında.
L1 olayların %60-70'i otomatik remediation ile kapatılıyor. İnsan müdahalesi L2/L3 kompleks olaylarla sınırlanıyor. Closed-loop automation yaygınlaşıyor.
LLM destekli AI agent'lar, olay analizi, runbook seçimi ve müdahale kararlarını bağımsız olarak verebiliyor. NOC mühendisleri koordinatör ve strateji rolüne geçiyor.
Intent-based networking ile altyapı iş hedeflerine göre kendini yapılandırıyor. NOC, insan gözetiminde çalışan tam otonom bir operasyon sistemine dönüşüyor.
Self-healing mekanizması üç temel döngüden oluşur: Detect → Diagnose → Remediate. Telemetri verisi sürekli izlenir, anomali tespitinde AI motor root cause'u belirler ve önceden tanımlı (ya da AI tarafından üretilen) bir remediation aksiyonu otomatik olarak uygulanır.
Kafka ya da RabbitMQ üzerinden akan telemetri eventleri, kurallar motoru (Drools, RETE algoritması) veya ML classifier tarafından değerlendirilerek ilgili otomasyonu tetikler. Ortalama tepki süresi < 30 saniye.
Network konfigürasyon değişiklikleri Git üzerinden yönetilir. Herhangi bir drift veya yetkisiz değişiklik tespit edildiğinde sistem, onaylı konfigürasyona otomatik olarak döner (auto-remediation / rollback).
ML modelleri, geçmiş trafik paternleri ve iş takvimi verilerini birleştirerek kaynak tükenmesini 48-72 saat öncesinden tahmin eder. Kapasite artırımı proaktif olarak gerçekleştirilir; kriz yönetimi yerini planlı yönetime bırakır.
LLM tabanlı sistemler, olay geçmişi, log verileri, değişiklik kayıtları ve bağımlılık haritalarını analiz ederek post-mortem raporları otomatik üretir. RCA süresi saatlerden dakikalara düşer.
Automated NOC'a geçiş sıçrama değil, evrimsel bir süreçtir. İlk adım: telemetri kalitesini artırın (unified observability). İkinci adım: runbook'larınızı dijitalize edin. Üçüncü adım: AIOps pilot projesi başlatın — bir segment, bir kullanım senaryosu. Ölçtükten sonra ölçeklendirin.
“NOC nedir?” sorusunun yanı sıra, “NOC ne değildir?” sorusunun da doğru bir çerçeve çizmek adına değerlendirilmesi kritik önem taşır. NOC, artık yalnızca bir "izleme merkezi" değil; organizasyonun dijital direncinin kalbidir. IT altyapısının artan karmaşıklığı, hybrid cloud'un yaygınlaşması ve siber tehditlerin sofistike hale gelmesi, NOC'u daha kritik — ve aynı zamanda daha akıllı olmak zorunda kılan — bir konuma taşımaktadır.
AIOps ve otomasyon, NOC mühendislerini rutin alarm yönetiminden kurtararak stratejik değer üretimine yönlendiriyor. Self-healing ve closed-loop automation ise sistemlerin kendilerini iyileştirdiği bir geleceği mümkün kılıyor.
IT direktörleri açısından mesaj nettir: NOC yatırımlarını salt bir operasyon maliyeti değil, iş sürekliliği sigortası ve rekabet avantajı olarak konumlandırın. Ve bu yatırımları AI, otomasyon ve observability temelleri üzerine inşa etmeye başlayın — çünkü bu dönüşüm kaçınılmazdır; soru sadece "ne zaman" ile ilgilidir.