AI Altyapısı: GPU, TPU ve Cloud Seçim Rehberi

📑 İçindekiler

1. Giriş: Neden AI Altyapısı Önemli?
2. GPU Temelleri ve Çalışma Mantığı
3. NVIDIA GPU Serisi Karşılaştırması
4. AMD ve Intel Alternatifleri
5. Google TPU: Özel Tasarım AI Çipleri
6. AWS AI Hizmetleri ve Altyapısı
7. Microsoft Azure AI Altyapısı
8. Google Cloud Platform AI Hizmetleri
9. On-Premise vs Cloud: Hangisi Doğru?
10. Maliyet Optimizasyonu Stratejileri
11. Spot Instance ve Preemptible VM Kullanımı
12. Ölçeklendirme Stratejileri
13. Sıkça Sorulan Sorular (SSS)

1. Giriş: Neden AI Altyapısı Önemli?

Yapay zeka projelerinin başarısı, yalnızca algoritma kalitesiyle değil, aynı zamanda altta yatan donanım ve bulut altyapısının doğru seçilmesiyle doğrudan ilişkilidir. Bir derin öğrenme modelinin eğitimi saatlerden günlere kadar sürebilir ve bu süreyi belirleyen en kritik faktör, kullanılan hesaplama kaynaklarıdır.

2026 yılı itibarıyla AI altyapı pazarı, yıllık 200 milyar doları aşan bir büyüklüğe ulaşmıştır. NVIDIA'nın veri merkezi geliri tek başına 100 milyar doları geçmiş, Google ve Microsoft bulut AI hizmetlerine milyarlarca dolar yatırım yapmıştır. Bu devasa ekosistemde doğru seçimi yapmak, hem teknik performans hem de mali sürdürülebilirlik açısından hayati önem taşır.

💡 Bilgi

Yanlış altyapı seçimi, AI projesi maliyetlerini %300-500 oranında artırabilir. Bu rehber, bütçenize ve ihtiyaçlarınıza en uygun çözümü bulmanıza yardımcı olacaktır.

Bu kapsamlı rehberde GPU ve TPU gibi donanım seçeneklerinden, AWS, Azure ve GCP gibi büyük bulut sağlayıcılarına kadar tüm AI altyapı bileşenlerini derinlemesine inceleyeceğiz. On-premise ile cloud arasındaki farkları analiz edecek, maliyet optimizasyonu tekniklerini paylaşacak ve ölçeklendirme stratejilerini ele alacağız.

2. GPU Temelleri ve Çalışma Mantığı

GPU (Graphics Processing Unit), başlangıçta grafik işleme için tasarlanmış olsa da, paralel hesaplama yeteneği sayesinde yapay zeka ve derin öğrenme iş yüklerinin vazgeçilmez bileşeni haline gelmiştir. Bir CPU birkaç güçlü çekirdeğe sahipken, modern bir GPU binlerce küçük çekirdeğe sahiptir ve bu çekirdekler eş zamanlı olarak çalışabilir.

GPU'nun AI İçin Neden Vazgeçilmez Olduğu

Derin öğrenme modelleri, temelde büyük matris çarpma işlemlerinden oluşur. Bu işlemler, doğası gereği paralelleştirilebilir niteliktedir. Bir CPU'nun 8-16 çekirdeği bu işlemleri sırayla yaparken, bir GPU'nun 10.000'den fazla CUDA çekirdeği aynı işlemi eş zamanlı olarak gerçekleştirebilir. Bu da eğitim sürelerini 10 kata varan oranlarda kısaltır.

GPU'ların AI performansını belirleyen temel faktörler şunlardır:

VRAM Kapasitesi: Model büyüklüğünü doğrudan sınırlayan bellek miktarı
Tensor Core Sayısı: Matris işlemlerini hızlandıran özel birimler
Bellek Bant Genişliği: Veri aktarım hızını belirleyen kritik parametre
NVLink/PCIe Bağlantısı: Çoklu GPU sistemlerinde veri iletişimi
TDP (Thermal Design Power): Güç tüketimi ve soğutma gereksinimleri

3. NVIDIA GPU Serisi Karşılaştırması

NVIDIA, AI donanım pazarında açık ara lider konumundadır. CUDA ekosistemi, cuDNN kütüphanesi ve TensorRT optimizasyon aracı ile tam bir AI yazılım yığını sunar. Her kullanım senaryosu için farklı GPU serileri mevcuttur.

Veri Merkezi GPU'ları Karşılaştırma Tablosu

GPU Modeli	VRAM	FP16 TFLOPS	Bant Genişliği	Fiyat (Tahmini)
A100 (80GB)	80 GB HBM2e	312	2 TB/s	~$15,000
H100 SXM	80 GB HBM3	990	3.35 TB/s	~$30,000
H200	141 GB HBM3e	990	4.8 TB/s	~$35,000
B100	192 GB HBM3e	1,800	8 TB/s	~$40,000
B200	192 GB HBM3e	2,250	8 TB/s	~$45,000

Workstation ve Tüketici GPU'ları

Küçük ve orta ölçekli projeler için NVIDIA'nın tüketici ve workstation serileri de güçlü alternatifler sunar:

RTX 4090 (24 GB VRAM): Tüketici segmentinin en güçlü kartı. Küçük ve orta ölçekli model eğitimi ile inferans için mükemmel. Fiyat-performans oranı yüksektir.
RTX 5090 (32 GB VRAM): Blackwell mimarisi ile gelen en yeni tüketici kartı. Artırılmış VRAM ve tensor core performansı.
RTX A6000 (48 GB VRAM): Profesyonel workstation kartı. ECC bellek desteği ve geniş VRAM ile orta ölçekli eğitim görevleri için idealdir.
L40S (48 GB VRAM): Veri merkezi workstation GPU'su. İnferans ve fine-tuning için optimize edilmiştir.

⚠️ Uyarı

NVIDIA'nın tüketici GPU'ları (GeForce serisi) lisans anlaşması gereği veri merkezi kullanımı için uygun değildir. Ticari ölçekli dağıtımlar için profesyonel veya veri merkezi serisi GPU'ları tercih etmelisiniz.

4. AMD ve Intel Alternatifleri

NVIDIA pazarın hakimi olsa da, AMD ve Intel'in rekabetçi ürünleri giderek güçlenmektedir. Özellikle ROCm ekosisteminin olgunlaşması ve Intel'in Gaudi serisi ile alternatif seçenekler artmaktadır.

AMD Instinct Serisi

AMD Instinct MI300X, 192 GB HBM3 belleğiyle dikkat çeker ve büyük dil modelleri için yeterli bellek kapasitesi sunar. ROCm yazılım yığını, PyTorch ve TensorFlow ile uyumlu çalışır. NVIDIA'ya kıyasla %20-30 daha uygun fiyatlı olabilir, ancak yazılım ekosistemi henüz aynı olgunlukta değildir.

Intel Gaudi Serisi

Intel Gaudi 3, özellikle inferans iş yükleri için tasarlanmıştır. Maliyet-performans oranı açısından NVIDIA H100 ile rekabet etmektedir. AWS üzerinde EC2 DL1 instance'ları ile erişilebilir olması büyük avantajdır.

5. Google TPU: Özel Tasarım AI Çipleri

Google'ın Tensor Processing Unit (TPU), yapay zeka iş yükleri için sıfırdan tasarlanmış özel bir ASIC çipidir. GPU'ların genel amaçlı mimarisinden farklı olarak, TPU'lar tamamen matris hesaplamaları için optimize edilmiştir.

TPU Nesilleri ve Özellikleri

TPU Nesli	HBM Bellek	BF16 TFLOPS	Kullanım Alanı
TPU v4	32 GB HBM2e	275	Eğitim + İnferans
TPU v5e	16 GB HBM2e	197	İnferans Odaklı
TPU v5p	95 GB HBM2e	459	Büyük Model Eğitimi
TPU v6e (Trillium)	32 GB HBM	920	Genel Amaçlı AI

TPU'nun Avantajları ve Dezavantajları

Avantajlar: TPU Pod yapıları sayesinde binlerce çipi tek bir süper bilgisayar gibi çalıştırabilirsiniz. Google'ın kendi altyapısıyla entegre olduğu için veri aktarım gecikmeleri minimumdur. JAX ve TensorFlow ile mükemmel uyumluluk sağlar. Watt başına performans oranı GPU'lara göre genellikle daha yüksektir.

Dezavantajlar: Yalnızca Google Cloud üzerinde kullanılabilir, vendor lock-in riski taşır. PyTorch desteği gelişmiş olsa da CUDA ekosistemi kadar geniş değildir. Özel donanım tasarımları ve bazı operasyonlar GPU'larda daha iyi desteklenebilir.

6. AWS AI Hizmetleri ve Altyapısı

Amazon Web Services, AI altyapısı konusunda en geniş hizmet portföyüne sahip bulut sağlayıcısıdır. GPU tabanlı EC2 instance'larından özel AI çiplerine, yönetilen ML platformlarından API tabanlı AI servislerine kadar kapsamlı bir ekosistem sunar.

GPU Instance Tipleri

P5 Instance (H100): En güçlü eğitim instance'ı. 8x H100 GPU ile 640 GB toplam GPU belleği. Büyük dil modellerinin eğitimi için idealdir.
P4d Instance (A100): Maliyet-performans dengesi iyi olan eğitim instance'ı. 8x A100 GPU ile 320-640 GB GPU belleği.
G5 Instance (A10G): İnferans ve küçük ölçekli eğitim için uygun. Makul fiyatlandırma.
Inf2 Instance (Inferentia2): Amazon'un özel inferans çipi. Düşük maliyetli, yüksek verimli inferans.
Trn1 Instance (Trainium): Amazon'un özel eğitim çipi. H100'e yakın performans, daha düşük maliyet.

AWS SageMaker Ekosistemi

Amazon SageMaker, uçtan uca ML yaşam döngüsünü yönetmek için kapsamlı bir platform sunar. SageMaker Studio ile notebook ortamı, SageMaker Training ile dağıtık eğitim, SageMaker Endpoints ile model dağıtımı ve SageMaker Pipelines ile MLOps otomasyonu sağlanır. Özellikle SageMaker'ın otomatik model parallelism ve data parallelism desteği, büyük modellerin eğitimini önemli ölçüde kolaylaştırır.

7. Microsoft Azure AI Altyapısı

Microsoft Azure, OpenAI ile stratejik ortaklığı sayesinde AI altyapısında benzersiz bir konuma sahiptir. Azure OpenAI Service, Azure Machine Learning ve ND serisi VM'ler ile güçlü bir AI altyapı sunmaktadır.

Azure GPU VM Serileri

Azure'un ND-serisi sanal makineleri, AI eğitimi için özel olarak tasarlanmıştır. ND H100 v5 serisi, InfiniBand bağlantısı ile düşük gecikmeli çoklu GPU iletişimi sağlar. NC serisi ise daha genel amaçlı GPU hesaplama ihtiyaçları için uygundur.

Azure'un en büyük avantajlarından biri, Azure OpenAI Service aracılığıyla GPT-4, DALL-E ve Whisper gibi modellere kurumsal düzeyde erişim sunmasıdır. Bu, kendi modelinizi eğitmek yerine mevcut güçlü modelleri kullanmak isteyen organizasyonlar için idealdir. Ayrıca Azure Machine Learning platformu, AutoML, Designer ve MLOps araçlarıyla model geliştirme sürecini hızlandırır.

8. Google Cloud Platform AI Hizmetleri

Google Cloud, hem TPU'lar hem de GPU tabanlı sanal makineler ile kapsamlı bir AI altyapısı sunar. Vertex AI platformu, TensorFlow'un yaratıcısı olarak Google'ın derin ML bilgisini yansıtır.

GCP'nin Öne Çıkan AI Özellikleri

Vertex AI: Uçtan uca ML platformu. AutoML, özel model eğitimi, model registry ve endpoint yönetimi tek çatı altında.
TPU Pod'ları: Binlerce TPU çipini birleştirerek süper bilgisayar oluşturma imkanı.
A3 GPU VM (H100): NVIDIA H100 tabanlı yüksek performanslı GPU VM'leri.
BigQuery ML: SQL sorguları ile doğrudan makine öğrenmesi modelleri oluşturma.
Google Kubernetes Engine (GKE): GPU ve TPU iş yüklerini Kubernetes üzerinde orkestrasyon.

GCP'nin benzersiz avantajı, TPU altyapısı ile GPU altyapısını aynı platformda sunmasıdır. Bu sayede proje ihtiyaçlarına göre en uygun donanımı seçebilir veya hibrit bir yaklaşım benimseyebilirsiniz. Vertex AI Pipelines ile MLOps süreçlerini otomatikleştirebilir, Model Garden ile hazır modelleri hızla dağıtabilirsiniz.

9. On-Premise vs Cloud: Hangisi Doğru?

AI altyapısı seçimindeki en temel kararlardan biri, kendi donanımınızı mı yoksa bulut kaynaklarını mı kullanacağınızdır. Her iki yaklaşımın da belirgin avantajları ve dezavantajları vardır.

Kriter	On-Premise	Cloud
Başlangıç Maliyeti	Çok Yüksek	Düşük (OPEX)
Uzun Vadeli Maliyet	Daha Düşük	Birikimli Artış
Ölçeklenebilirlik	Sınırlı	Neredeyse Sınırsız
Veri Güvenliği	Tam Kontrol	Paylaşımlı Sorumluluk
Bakım ve Yönetim	Dahili Ekip Gerekir	Sağlayıcı Yönetir
Esneklik	Düşük	Çok Yüksek

On-Premise Ne Zaman Tercih Edilmeli?

On-premise altyapı şu durumlarda avantajlıdır: GPU kullanımınız sürekli ve yüksek oranda ise (7/24 çalışan modeller), veri güvenliği düzenlemeleri nedeniyle verilerinizin fiziksel konumunu kontrol etmeniz gerekiyorsa, uzun vadede (3+ yıl) maliyet optimizasyonu istiyorsanız ve özel donanım konfigürasyonlarına ihtiyaç duyuyorsanız. Örneğin, sürekli çalışan bir LLM inferans servisi için on-premise 8x H100 sunucu, 2 yıl içinde cloud maliyetini amorti edebilir.

Cloud Ne Zaman Tercih Edilmeli?

Bulut altyapısı şu senaryolarda idealdir: Değişken iş yükleri ve dönemsel eğitim süreçleri, hızlı prototipleme ve deneysel projeler, farklı donanım konfigürasyonlarını test etme ihtiyacı, büyük veri setleriyle çalışma gerekliliği ve yönetilen ML platformlarının kolaylığından yararlanma isteği. Startup'lar ve araştırma grupları genellikle bulut yaklaşımından daha fazla fayda görür.

10. Maliyet Optimizasyonu Stratejileri

AI altyapı maliyetlerini kontrol altında tutmak, projelerin sürdürülebilirliği için kritiktir. İşte kanıtlanmış maliyet optimizasyonu stratejileri:

Donanım Düzeyinde Optimizasyon

Mixed Precision Training: FP32 yerine FP16/BF16 kullanarak 2x hızlanma ve bellek tasarrufu sağlayın. Model kalitesinde kayıp minimumdur.
Gradient Checkpointing: Bellek kullanımını %60-70 azaltarak daha küçük GPU'larda daha büyük modelleri eğitin.
Model Quantization: İnferans sırasında INT8 veya INT4 hassasiyet kullanarak 4x'e kadar hız artışı ve maliyet düşüşü.
Model Pruning: Gereksiz ağırlıkları kaldırarak model boyutunu %50-90 azaltma.

Bulut Maliyet Optimizasyonu

# Maliyet optimizasyonu kontrol listesi
✓ Reserved Instance / Committed Use: %40-60 tasarruf
✓ Spot/Preemptible Instance: %60-90 tasarruf
✓ Auto-scaling politikaları: Kullanılmayan kaynakları durdur
✓ Doğru instance boyutlandırma: Over-provisioning'den kaçın
✓ Multi-cloud strateji: En uygun fiyatı karşılaştır
✓ Veri transfer maliyetlerini minimize et

11. Spot Instance ve Preemptible VM Kullanımı

Spot Instance'lar (AWS), Preemptible VM'ler (GCP) ve Spot VM'ler (Azure), bulut sağlayıcılarının kullanılmayan kapasitelerini indirimli fiyatlarla sunmasıdır. Bu yaklaşım, AI eğitim maliyetlerini dramatik şekilde azaltabilir.

Spot Instance Kullanım Stratejileri

Spot instance'lar herhangi bir zamanda geri alınabilir, bu yüzden doğru stratejiler uygulamak kritiktir:

Checkpoint Mekanizması: Eğitim sürecini düzenli aralıklarla kaydedin. Her 15-30 dakikada bir checkpoint alarak, instance kesildiğinde kaldığınız yerden devam edebilirsiniz.
Spot Fleet Kullanımı: Tek bir instance tipine bağlı kalmak yerine, birden fazla instance tipini ve availability zone'u kapsayan bir fleet oluşturun. Bu, kesinti riskini azaltır.
Fallback Stratejisi: Spot instance bulunamadığında otomatik olarak on-demand instance'a geçiş yapan bir mekanizma kurun.
Hibrit Yaklaşım: Kritik iş yüklerini reserved instance'larda, deneysel eğitimleri spot instance'larda çalıştırın.

💡 Pratik İpucu

AWS'de p3 ve p4 spot instance'ları genellikle gece saatlerinde ve hafta sonlarında daha uygun fiyatla ve daha az kesintiyle kullanılabilir. Eğitim zamanlamalarınızı buna göre ayarlayarak ek tasarruf sağlayabilirsiniz.

12. Ölçeklendirme Stratejileri

AI iş yüklerinin ölçeklendirilmesi, hem eğitim hem de inferans aşamalarında farklı stratejiler gerektirir. Doğru ölçeklendirme yaklaşımı, performansı artırırken maliyetleri kontrol altında tutar.

Eğitim Ölçeklendirmesi

Data Parallelism: Aynı modeli birden fazla GPU'ya kopyalayıp, her GPU'ya farklı veri parçaları göndererek eğitim hızını artırır. PyTorch DistributedDataParallel (DDP) veya Horovod ile kolayca uygulanabilir. GPU sayısını 2x artırmak, eğitim süresini yaklaşık %45-50 azaltır.

Model Parallelism: Büyük modeller tek bir GPU'nun belleğine sığmadığında, model katmanlarını farklı GPU'lara dağıtır. Pipeline parallelism ve tensor parallelism gibi tekniklerle uygulanır. DeepSpeed ve Megatron-LM bu konuda en gelişmiş araçlardır.

ZeRO Optimizasyonu: Microsoft'un DeepSpeed kütüphanesindeki ZeRO (Zero Redundancy Optimizer) teknolojisi, optimizer state, gradient ve parametre belleklerini GPU'lar arasında dağıtarak bellek kullanımını dramatik şekilde azaltır. ZeRO Stage 3 ile tek bir GPU'da normalde 8 GPU gerektiren modelleri eğitebilirsiniz.

İnferans Ölçeklendirmesi

İnferans iş yüklerinin ölçeklendirilmesinde kullanılabilecek yaklaşımlar:

Horizontal Scaling: Kubernetes üzerinde replika sayısını artırarak yük dağılımı sağlayın. HPA (Horizontal Pod Autoscaler) ile GPU kullanım oranına göre otomatik ölçeklendirme yapın.
Batching: Gelen istekleri gruplandırarak GPU kullanımını optimize edin. Dynamic batching ile gecikme ve verimlilik arasında denge kurun.
Model Serving Frameworks: NVIDIA Triton Inference Server, vLLM veya TensorRT-LLM ile inferans performansını 3-5x artırabilirsiniz.
Edge Deployment: Bazı inferans iş yüklerini NVIDIA Jetson veya Intel Neural Compute Stick gibi edge cihazlara taşıyarak merkezi sunucu yükünü azaltın.

⚠️ Önemli Not

Ölçeklendirme stratejinizi belirlerken, sadece hesaplama kaynaklarını değil, veri depolama, ağ bant genişliği ve veri transfer maliyetlerini de hesaba katın. Büyük veri setlerini bulut bölgeleri arasında taşımak önemli ek maliyetlere yol açabilir.

Karar Matrisi: Doğru Altyapıyı Seçin

Senaryo	Önerilen Altyapı	Tahmini Aylık Maliyet
Startup / Prototip	Cloud Spot Instance + SageMaker	$500 - $2,000
Orta Ölçekli Eğitim	Cloud Reserved 4x A100	$8,000 - $15,000
Büyük LLM Eğitimi	On-premise 8x H100 + Cloud burst	$30,000 - $80,000
Yüksek Hacimli İnferans	On-premise L40S + Triton Server	$5,000 - $12,000
Araştırma / Akademik	GCP TPU + Colab Pro	$1,000 - $5,000

13. Sıkça Sorulan Sorular (SSS)

AI için minimum ne kadar VRAM gerekir?

Kullanım senaryosuna bağlıdır. Küçük modellerin fine-tuning'i için 8-12 GB yeterli olabilir. Orta ölçekli eğitim için 24-48 GB, büyük dil modelleri (7B+ parametre) için 80 GB ve üzeri VRAM gerekir. Quantization teknikleri ile gereksinimi 4x'e kadar azaltabilirsiniz.

GPU mu TPU mu tercih etmeliyim?

TensorFlow veya JAX kullanıyorsanız ve Google Cloud ekosistemine bağımlılık sorunu yoksa TPU maliyet-performans açısından avantajlı olabilir. PyTorch kullanıyorsanız, CUDA ekosisteminin olgunluğu nedeniyle GPU genellikle daha iyi bir seçimdir. Büyük ölçekli eğitimler için TPU Pod'ları benzersiz avantajlar sunar.

Spot instance kullanırken eğitim verilerimi kaybeder miyim?

Düzenli checkpoint mekanizması kurarsanız hayır. Her 15-30 dakikada bir model ağırlıklarını ve optimizer durumunu kalıcı depolama alanına (S3, GCS, Azure Blob) kaydedin. Instance kesildiğinde yeni bir instance başlatarak son checkpoint'tan devam edebilirsiniz. PyTorch Lightning ve DeepSpeed bu süreci otomatikleştirir.

AWS, Azure ve GCP arasında AI için hangisi en uygun?

Her birinin güçlü yönleri farklıdır. AWS en geniş instance seçenekleri ve Trainium/Inferentia ile özel çip avantajı sunar. Azure, OpenAI entegrasyonu ve kurumsal müşteriler için idealdir. GCP, TPU erişimi ve Vertex AI platformu ile araştırma odaklı projeler için öne çıkar. Çoğu durumda multi-cloud stratejisi en esnekliği sağlar.

On-premise GPU sunucu kurulumu ne kadar sürer?

Donanım tedariki (özellikle H100 gibi yüksek talep gören GPU'lar) 2-6 ay sürebilir. Fiziksel kurulum, soğutma sistemi, ağ altyapısı ve yazılım konfigürasyonu ek 2-4 hafta gerektirir. Toplam süre 3-7 ay arasında değişir. Cloud altyapısı ise dakikalar içinde hazır olabilir, bu yüzden hibrit yaklaşım sıklıkla tercih edilir.

AI altyapısı için bütçe nasıl planlanmalıdır?

Toplam bütçenin %60-70'ini hesaplama kaynaklarına (GPU/TPU), %15-20'sini depolama ve ağ maliyetlerine, %10-15'ini yazılım lisansları ve araçlara ayırmanız önerilir. İlk 3 ay için POC bütçesini ayrı tutun ve sonuçlara göre ölçeklendirme kararı verin. Reserved instance ve spot instance kombinasyonu ile toplam maliyeti %40-50 azaltabilirsiniz.