📑 İçindekiler
- 1. Giriş: Computer Vision 2026'da Nerede?
- 2. YOLO Evrimi: v9'dan v10'a
- 3. SAM 2: Segment Anything Model'in Yeni Nesli
- 4. Vision Transformers ve Yeni Mimariler
- 5. Zero-Shot ve Open-Vocabulary Detection
- 6. Video Understanding ve Temporal Analiz
- 7. 3D Vision ve NeRF Teknolojileri
- 8. Endüstriyel Kullanım Alanları
- 9. Performans Karşılaştırma Tabloları
- 10. Kod Örnekleri ve Uygulamalar
- 11. Geleceğe Bakış
- 12. Sıkça Sorulan Sorular
1. Giriş: Computer Vision 2026'da Nerede?
Computer vision (bilgisayarlı görü), yapay zekanın en hızlı gelişen alt dallarından biri olarak 2026 yılında çığır açan yeniliklere sahne olmaya devam ediyor. Makinelerin görsel dünyayı anlama, yorumlama ve etkileşime geçme kapasitesi her geçen gün artıyor. Otonom araçlardan tıbbi görüntülemeye, endüstriyel kalite kontrolünden artırılmış gerçekliğe kadar birçok alanda computer vision teknolojileri hayatımızın ayrılmaz bir parçası haline geldi.
2026 yılı itibarıyla computer vision pazarının küresel değeri 30 milyar doları aşmış durumda. Bu büyümenin arkasında YOLO ailesi, SAM (Segment Anything Model), vision transformers ve multimodal modeller gibi devrimsel teknolojiler yatıyor. Bu yazıda, 2026'nın en önemli computer vision trendlerini, model mimarilerini ve pratik uygulama örneklerini derinlemesine inceleyeceğiz.
💡 Bilgi
Computer vision, 2020'lerden bu yana yıllık ortalama %20'nin üzerinde büyüme oranı ile yapay zekanın en dinamik alt alanlarından biri olmaya devam ediyor.
2. YOLO Evrimi: v9'dan v10'a
YOLO (You Only Look Once), gerçek zamanlı nesne tespitinin en popüler model ailesi olarak 2026'da da liderliğini sürdürüyor. Her yeni versiyon, hem doğruluk hem de hız açısından önemli iyileştirmeler getiriyor.
YOLOv9: Programmable Gradient Information (PGI)
YOLOv9, "Programmable Gradient Information" (PGI) konseptini tanıtarak derin ağlardaki bilgi kaybı sorununu ele aldı. Geleneksel derin öğrenme modellerinde, katmanlar arasında gradyan bilgisi kayboluyor ve bu durum modelin öğrenme kapasitesini sınırlıyordu. YOLOv9, GELAN (Generalized Efficient Layer Aggregation Network) mimarisi ile bu sorunu çözdü.
YOLOv9'un temel yenilikleri şunlardır:
- PGI (Programmable Gradient Information): Ağ derinliği arttıkça kaybolan gradyan bilgisini korumak için tasarlanmış yenilikçi bir mekanizma
- GELAN Mimarisi: Hafif ve verimli katman toplama ağı yapısı ile daha az parametre ile daha yüksek doğruluk
- Reversible Functions: Bilgi kaybını önlemek için tersine çevrilebilir fonksiyonların kullanımı
- COCO AP %55.6: MS COCO veri setinde yeni rekor doğruluk oranı
YOLOv10: NMS-Free ve End-to-End Tespit
YOLOv10, YOLO ailesinde bir devrim niteliğinde olup NMS (Non-Maximum Suppression) adımını tamamen ortadan kaldırarak gerçek anlamda end-to-end nesne tespiti sağlıyor. Tsinghua Üniversitesi tarafından geliştirilen bu model, hem eğitim hem de çıkarım (inference) süreçlerinde önemli performans iyileştirmeleri sunuyor.
YOLOv10'un en dikkat çekici özellikleri:
- Consistent Dual Assignments: Eğitimde one-to-many ve one-to-one eşleştirme stratejilerinin birlikte kullanımı
- NMS-Free Mimari: Post-processing adımı olmadan doğrudan sonuç üretimi, latency'de %30 azalma
- Spatial-Channel Decoupled Downsampling: Bilgi kaybını minimize eden downsampling yaklaşımı
- Large-Kernel Convolutions: Büyük çekirdek boyutları ile daha geniş receptive field
3. SAM 2: Segment Anything Model'in Yeni Nesli
Meta AI tarafından geliştirilen SAM 2 (Segment Anything Model 2), orijinal SAM'in başarısını hem görüntü hem de video segmentasyonuna taşıyan devrimsel bir model. 2024'te tanıtılan ve 2026'da olgunlaşan bu model, promptable visual segmentation paradigmasını yeni bir seviyeye çıkarıyor.
SAM 2'nin Mimarisi
SAM 2, streaming mimari yaklaşımı ile video karelerini sıralı olarak işleyerek, her karede kullanıcı etkileşimi olmadan segmentasyon yapabiliyor. Modelin temel bileşenleri şunlardır:
- Image Encoder (Hiera): Hiyerarşik vision transformer tabanlı görüntü kodlayıcı
- Memory Attention: Geçmiş karelerden bilgi taşıyan bellek mekanizması
- Memory Encoder/Bank: Önceki tahminleri ve kullanıcı girdilerini saklayan bellek yapısı
- Prompt Encoder: Nokta, kutu, maske gibi farklı prompt türlerini destekleyen kodlayıcı
- Mask Decoder: Yüksek kaliteli segmentasyon maskeleri üreten çözücü
SA-V Dataset
SAM 2, SA-V (Segment Anything Video) veri seti ile eğitilmiştir. Bu veri seti, 50.900'den fazla video ve 642.600 masktracklet içermekte olup, mevcut video segmentasyon veri setlerinden 53 kat daha büyüktür. Bu devasa veri seti sayesinde SAM 2, çeşitli ortam ve nesne türlerinde son derece güvenilir segmentasyon yapabilmektedir.
⚠️ Dikkat
SAM 2, video segmentasyonunda orijinal SAM'e kıyasla 6 kat daha hızlı çalışmakta ve 3 kat daha az etkileşim gerektirmektedir. Ancak gerçek zamanlı uygulamalar için hala GPU gereksinimi yüksektir.
4. Vision Transformers ve Yeni Mimariler
Vision Transformers (ViT), 2020'de tanıtıldığından bu yana computer vision'ın temel yapı taşlarından biri haline geldi. 2026'da ViT mimarisi çeşitli açılardan evrim geçirmiş durumda.
DINOv2 ve Self-Supervised Learning
Meta AI'nin DINOv2 modeli, etiketli veri olmadan (self-supervised) eğitilen en güçlü görsel özellik çıkarıcılardan biri olarak öne çıkıyor. 142 milyon görüntü ile eğitilen DINOv2, derinlik tahmini, semantik segmentasyon ve görüntü sınıflandırma gibi birçok görevde fine-tuning olmadan bile etkileyici sonuçlar veriyor.
Efficient Attention Mekanizmaları
2026'da FlashAttention-3 ve benzeri verimli attention mekanizmaları, vision transformer'ların pratik kullanımını büyük ölçüde kolaylaştırdı. Bu mekanizmalar sayesinde yüksek çözünürlüklü görüntüler üzerinde bile transformerlar verimli şekilde çalışabiliyor. Window attention, dilated attention ve linear attention gibi alternatif yaklaşımlar da yaygınlaştı.
Mamba ve State Space Modelleri
Transformer alternatifi olarak ortaya çıkan Mamba ve diğer state space modelleri (SSM), 2026'da vision alanında da kendini kanıtladı. Vision Mamba (ViM) ve VMamba gibi modeller, özellikle uzun dizili görsel veriler ve yüksek çözünürlüklü görüntüler için transformer'lara kıyasla lineer karmaşıklık avantajı sunuyor.
5. Zero-Shot ve Open-Vocabulary Detection
Zero-shot ve open-vocabulary nesne tespiti, 2026'nın en heyecan verici computer vision trendlerinden biri. Bu yaklaşımlar, modellerin daha önce hiç görmediği nesne kategorilerini tespit etmesine olanak tanıyor.
Grounding DINO ve Grounding DINO 1.5
Grounding DINO, metin tabanlı promptlarla nesne tespiti yapabilen güçlü bir open-set detection modelidir. Kullanıcı herhangi bir metin açıklaması vererek, modelin bu açıklamaya uygun nesneleri görüntüde bulmasını sağlayabilir. 2026 versiyonu olan Grounding DINO 1.5, hem edge detection hem de fine-grained recognition konularında önemli iyileştirmeler sunuyor.
OWLv2 ve GLIP
Google'ın OWLv2 (Open-World Localization) modeli ve Microsoft'un GLIP (Grounded Language-Image Pre-training) modeli, vision-language entegrasyonunu kullanarak sınırsız nesne kategorisi tespiti yapabilmektedir. Bu modeller, özellikle yeni kategorilerin sürekli eklendiği dinamik ortamlarda büyük avantaj sağlıyor.
6. Video Understanding ve Temporal Analiz
Video anlama, statik görüntü analizinin ötesine geçerek zamansal boyutu da kapsayan karmaşık bir alan. 2026'da bu alandaki gelişmeler, gerçek zamanlı video analizi ve aksiyon tanıma konularında çığır açıyor.
Video-LLM Modelleri
GPT-4o, Gemini ve Claude gibi multimodal büyük dil modelleri, video içeriğini anlama ve yorumlama konusunda 2026'da etkileyici seviyelere ulaştı. Bu modeller, video içeriğini izleyerek sorulara yanıt verebiliyor, olayları özetleyebiliyor ve zamansal ilişkileri analiz edebiliyor. Video-LLM entegrasyonu, güvenlik kameralarından spor analitiğine kadar geniş bir uygulama yelpazesi açıyor.
Temporal Action Detection
ActionFormer ve TriDet gibi modeller, uzun videoların içinde belirli aksiyonların başladığı ve bittiği zamanı yüksek doğrulukla tespit edebiliyor. Bu teknoloji, spor analizi, gözetim sistemleri ve video düzenleme araçlarında yaygın olarak kullanılıyor.
7. 3D Vision ve NeRF Teknolojileri
3D görüntü anlama ve yeniden yapılandırma, 2026'da en çok yatırım yapılan computer vision alanlarından biri. NeRF (Neural Radiance Fields) ve 3D Gaussian Splatting teknolojileri, 3D sahnelerin temsili ve render edilmesinde yeni standartlar belirledi.
3D Gaussian Splatting
3D Gaussian Splatting, NeRF'e alternatif olarak ortaya çıkan ve gerçek zamanlı 3D render yapabilen bir teknoloji. Her 3D noktayı bir Gaussian dağılımı olarak temsil ederek, geleneksel NeRF'e kıyasla 100 kat daha hızlı render süresi sunuyor. Bu teknoloji, sanal tur oluşturma, oyun geliştirme ve dijital ikiz uygulamalarında devrim yaratıyor.
Monoküler Derinlik Tahmini
Depth Anything v2 ve Marigold gibi modeller, tek bir 2D görüntüden yüksek kaliteli derinlik haritaları üretebiliyor. Bu teknoloji, LiDAR gibi pahalı sensörlere gerek kalmadan 3D anlama sağlıyor ve otonom sürüş, robotik ve AR uygulamalarında maliyetleri önemli ölçüde düşürüyor.
8. Endüstriyel Kullanım Alanları
Computer vision teknolojileri, 2026'da neredeyse her endüstride kritik uygulamalara sahip. İşte en önemli kullanım alanları:
Otonom Araçlar ve Robotik
Tesla FSD, Waymo ve Cruise gibi otonom sürüş platformları, computer vision'ı temel algılama katmanı olarak kullanıyor. BEV (Bird's Eye View) perception, multi-camera fusion ve occupancy network gibi yaklaşımlar, araçların çevresini 360 derece anlayabilmesini sağlıyor. Robotik alanda ise foundation modeller (RT-2, Octo) sayesinde robotlar, daha önce hiç görmedikleri nesnelerle etkileşime geçebiliyor.
Tıbbi Görüntüleme
Radyoloji, patoloji ve oftalmoloji alanlarında AI destekli görüntü analizi, 2026'da klinik pratiğin standart bir parçası haline geldi. SAM-Med gibi tıbbi segmentasyon modelleri, tümör tespiti ve organ segmentasyonunda uzman düzeyinde performans gösteriyor. FDA onaylı AI tıbbi görüntüleme araçlarının sayısı 800'ü aştı.
Endüstriyel Kalite Kontrol
Üretim hatlarında anomali tespiti, yüzey kusuru analizi ve boyutsal ölçüm gibi görevler artık tamamen computer vision tabanlı sistemler tarafından yürütülüyor. AnomalyGPT ve benzeri modeller, az sayıda örnekle (few-shot) yeni kusur türlerini tanıyabiliyor.
Tarım ve Çevre
Drone tabanlı bitki sağlığı izleme, hastalık tespiti, ürün sayımı ve sulama optimizasyonu gibi uygulamalar, hassas tarımın temelini oluşturuyor. Uydu görüntülerinden arazi kullanımı analizi ve orman yangını tespiti gibi çevresel uygulamalar da yaygınlaşıyor.
9. Performans Karşılaştırma Tabloları
Nesne Tespiti Modelleri (COCO val2017)
| Model | AP (%) | Parametre (M) | FPS (T4) | NMS |
|---|---|---|---|---|
| YOLOv9-E | 55.6 | 57.3 | 42 | Evet |
| YOLOv10-X | 54.4 | 29.5 | 55 | Hayır |
| RT-DETRv2-X | 54.3 | 76.0 | 38 | Hayır |
| DINO-Swin-L | 56.8 | 218.0 | 8 | Evet |
| Co-DETR | 58.4 | 240.0 | 5 | Hayır |
Segmentasyon Modelleri Karşılaştırması
| Model | Görev | mIoU / J&F | Zero-Shot |
|---|---|---|---|
| SAM 2 (Hiera-L) | Video Seg. | 82.6 | Evet |
| SAM (ViT-H) | Image Seg. | 79.1 | Evet |
| Mask2Former | Panoptic Seg. | 57.8 | Hayır |
| OneFormer | Universal Seg. | 58.0 | Hayır |
10. Kod Örnekleri ve Uygulamalar
YOLOv10 ile Nesne Tespiti
from ultralytics import YOLO
# YOLOv10 modelini yükle
model = YOLO("yolov10x.pt")
# Görüntü üzerinde çıkarım yap
results = model("image.jpg")
# Sonuçları göster
for result in results:
boxes = result.boxes
for box in boxes:
cls = int(box.cls[0])
conf = float(box.conf[0])
label = model.names[cls]
print(f"Nesne: {label}, Güven: {conf:.2f}")
# NMS olmadan end-to-end tespit
results = model.predict("image.jpg", agnostic_nms=False)
results[0].save("output.jpg")
SAM 2 ile Video Segmentasyonu
import torch
from sam2.build_sam import build_sam2_video_predictor
# SAM 2 video predictor'ı başlat
predictor = build_sam2_video_predictor(
"sam2_hiera_large.yaml",
"sam2_hiera_large.pt"
)
# Video karelerini yükle
with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
state = predictor.init_state(video_path="video_frames/")
# İlk karede prompt ver (nokta ile)
_, _, masks = predictor.add_new_points_or_box(
inference_state=state,
frame_idx=0,
obj_id=1,
points=[[400, 300]],
labels=[1]
)
# Tüm video boyunca segmentasyonu yay
for frame_idx, obj_ids, masks in predictor.propagate_in_video(state):
print(f"Kare {frame_idx}: {len(obj_ids)} nesne segmente edildi")
# Maskeleri kaydet veya işle
Grounding DINO ile Open-Vocabulary Detection
from groundingdino.util.inference import load_model, predict
from PIL import Image
import torchvision.transforms as T
# Modeli yükle
model = load_model(
"groundingdino/config/GroundingDINO_SwinT.py",
"weights/groundingdino_swint.pth"
)
# Görüntüyü yükle ve dönüştür
image = Image.open("fabrika_hatti.jpg")
transform = T.Compose([T.Resize(800), T.ToTensor(), T.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])
image_tensor = transform(image)
# Metin promptu ile tespit yap
TEXT_PROMPT = "kusurlu parça . çatlak . kırık . deformasyon"
boxes, logits, phrases = predict(
model=model,
image=image_tensor,
caption=TEXT_PROMPT,
box_threshold=0.3,
text_threshold=0.25
)
for box, logit, phrase in zip(boxes, logits, phrases):
print(f"Tespit: {phrase} (güven: {logit:.2f})")
Depth Anything v2 ile Derinlik Tahmini
from transformers import pipeline
from PIL import Image
import numpy as np
# Depth Anything v2 pipeline
depth_estimator = pipeline(
"depth-estimation",
model="depth-anything/Depth-Anything-V2-Large-hf"
)
# Derinlik tahmini yap
image = Image.open("sokak_goruntusu.jpg")
result = depth_estimator(image)
# Derinlik haritasını kaydet
depth_map = np.array(result["depth"])
depth_colored = (depth_map / depth_map.max() * 255).astype(np.uint8)
Image.fromarray(depth_colored).save("derinlik_haritasi.png")
print(f"Derinlik aralığı: {depth_map.min():.2f} - {depth_map.max():.2f}")
11. Geleceğe Bakış
2026 ve sonrasında computer vision alanında beklenen gelişmeler şöyle özetlenebilir:
- World Models: Video üretim modelleri (Sora, Runway Gen-3) ve simülasyon tabanlı yaklaşımlar, makinelerin fiziksel dünyayı anlama kapasitesini artıracak
- Embodied AI: Vision ve robotik sistemlerin daha derin entegrasyonu ile robotların gerçek dünyada daha yetenekli hale gelmesi
- Edge AI: Mobil cihazlarda ve IoT sensörlerinde çalışabilen küçük ama güçlü vision modelleri, yerel işlem gücüyle gerçek zamanlı analiz
- Multimodal Fusion: Görüntü, metin, ses ve diğer modalitelerin daha derin entegrasyonu ile daha bütünsel anlama
- Generative Vision: Diffusion modeller ile kontrol edilebilir görüntü/video üretimi, veri artırma ve sentetik veri oluşturma
- Privacy-Preserving CV: Federated learning ve on-device processing ile gizlilik koruyan computer vision uygulamaları
💡 Sonuç
Computer vision, 2026'da YOLO, SAM, vision transformers ve multimodal modeller sayesinde insanüstü doğruluk seviyelerine ulaştı. Gerçek zamanlı nesne tespitinden 3D sahne anlama'ya, video analizinden tıbbi görüntülemeye kadar her alanda paradigma değişiklikleri yaşanıyor. Gelecekte edge AI, world models ve embodied AI entegrasyonları bu alandaki dönüşümü daha da hızlandıracak.
12. Sıkça Sorulan Sorular
YOLO v9 ile v10 arasındaki en önemli fark nedir?
En önemli fark, YOLOv10'un NMS (Non-Maximum Suppression) adımını tamamen ortadan kaldırmasıdır. YOLOv9 hala NMS gerektirirken, YOLOv10 consistent dual assignments yaklaşımı ile gerçek end-to-end tespit yapar. Bu, inference süresinde %30'a kadar azalma sağlar. Ayrıca YOLOv10, daha az parametre ile benzer doğruluk elde eder.
SAM 2 hangi kullanım senaryolarında en çok fayda sağlar?
SAM 2, özellikle video düzenleme, nesne takibi, tıbbi görüntü segmentasyonu ve otonom sürüş gibi alanlarda büyük fayda sağlar. Tek bir prompt ile tüm video boyunca nesne segmentasyonu yapabilmesi, video prodüksiyon ve VFX iş akışlarını büyük ölçüde hızlandırır. Ayrıca interaktif kullanım modeli sayesinde kullanıcılar segmentasyonu gerçek zamanlı olarak düzeltebilir.
Zero-shot detection nedir ve neden önemlidir?
Zero-shot detection, modelin daha önce hiç eğitilmediği nesne kategorilerini tespit edebilme yeteneğidir. Grounding DINO gibi modeller, metin tabanlı prompt kullanarak herhangi bir nesneyi tanıyabilir. Bu, sürekli yeni nesne kategorilerinin eklendiği endüstriyel uygulamalarda, pahalı ve zaman alıcı veri toplama ve model eğitimi süreçlerini ortadan kaldırır.
Vision Transformer mı yoksa CNN mi tercih edilmeli?
Bu, kullanım senaryosuna bağlıdır. Vision Transformer'lar büyük veri setlerinde ve global bağlam gerektiren görevlerde üstün performans gösterirken, CNN'ler küçük veri setleri ve edge cihazlarda hala rekabetçidir. 2026'da hibrit modeller (ConvNeXt, EfficientViT) her iki yaklaşımın güçlü yanlarını birleştirerek en iyi sonuçları vermektedir. Mamba gibi SSM tabanlı modeller ise yüksek çözünürlüklü görüntülerde lineer karmaşıklık avantajı sunar.
3D Gaussian Splatting, NeRF'in yerini alacak mı?
3D Gaussian Splatting, gerçek zamanlı render hızı açısından NeRF'e büyük avantaj sağlamaktadır ve birçok uygulama için tercih edilmeye başlanmıştır. Ancak NeRF hala daha iyi geometrik detay ve düzgün yüzey temsili sunmaktadır. 2026'da her iki teknoloji de birbirini tamamlayıcı şekilde gelişmeye devam etmekte olup, hibrit yaklaşımlar (GaussianShader, SuGaR) giderek yaygınlaşmaktadır.
Computer vision projelerinde hangi donanım gereksinimi vardır?
Donanım gereksinimi, kullanım senaryosuna göre değişir. YOLOv10 gibi hafif modeller NVIDIA T4 gibi giriş seviyesi GPU'larda bile gerçek zamanlı çalışabilirken, SAM 2 ve büyük vision transformer modelleri A100 veya H100 gibi güçlü GPU'lar gerektirir. Edge uygulamalar için NVIDIA Jetson, Google Coral veya Apple Neural Engine gibi platformlar TinyML ve model quantization teknikleri ile kullanılabilir.