Skip to main content
Yapay Zeka

Bilgisayarla Görü: Yapay Zeka ile Görüntü İşleme Rehberi

Mart 14, 2026 8 dk okuma 11 views Raw
Yapay zeka ve bilgisayarla görü teknolojisi görseli
İçindekiler

Bilgisayarla Görü Nedir?

Bilgisayarla görü (Computer Vision), bilgisayarların dijital görüntülerden ve videolardan anlamlı bilgi çıkarmasını, yorumlamasını ve bu bilgiye dayanarak kararlar almasını sağlayan yapay zeka alanıdır. İnsan görsel algısını taklit etmeyi hedefleyen bu alan, fotoğraflardan nesneleri tanımaktan otonom araçların yol navigasyonuna kadar geniş bir uygulama yelpazesi sunar.

İnsan beyni, görsel bilgiyi işlemek için nöronların karmaşık ağlarını kullanır. Bilgisayarla görü, bu biyolojik süreçten ilham alarak yapay sinir ağları ve matematiksel algoritmalar aracılığıyla benzer yetenekleri dijital sistemlere kazandırır. Son yıllarda derin öğrenme ve özellikle evrişimsel sinir ağları (CNN) sayesinde bilgisayarla görü, birçok görevde insan düzeyine yaklaşmış ve hatta bazı spesifik alanlarda insan performansını aşmıştır.

Bilgisayarla Görünün Tarihsel Gelişimi

Bilgisayarla görü alanının temelleri 1960'lı yıllarda atılmıştır. MIT'de Lawrence Roberts'ın üç boyutlu nesnelerin iki boyutlu görüntülerden tanınması üzerine çalışmaları, alanın öncü araştırmaları arasında yer alır.

Önemli kilometre taşları:

  • 1960'lar: Kenar tespiti ve temel şekil tanıma algoritmaları
  • 1970'ler: David Marr'ın görsel işleme teorisi ve hesaplamalı görü çerçevesi
  • 1980'ler: Özellik çıkarma (feature extraction) yöntemlerinin geliştirilmesi
  • 1990'lar: Viola-Jones yüz tespiti algoritması ve SIFT özellik tanımlayıcısı
  • 2012: AlexNet'in ImageNet yarışmasını kazanarak derin öğrenme çağını başlatması
  • 2015-Günümüz: ResNet, YOLO, Vision Transformers ve diffusion modelleri

Görüntü İşlemenin Temel Kavramları

Dijital Görüntü Yapısı

Dijital bir görüntü, piksellerden oluşan iki boyutlu bir matristir. Her piksel, görüntünün en küçük birimi olup bir veya birden fazla sayısal değer içerir. Gri tonlamalı görüntülerde tek bir değer (0-255), renkli görüntülerde ise genellikle üç kanal (Kırmızı, Yeşil, Mavi - RGB) bulunur.

Temel Görüntü İşleme Operasyonları

  • Konvolüsyon (Convolution): Bir çekirdek (kernel) matrisinin görüntü üzerinde kaydırılarak uygulanmasıdır. Bulanıklaştırma, keskinleştirme ve kenar tespiti gibi işlemlerin temelini oluşturur
  • Eşikleme (Thresholding): Piksel değerlerini belirli bir eşik değerine göre ikili (siyah-beyaz) veya çok seviyeli olarak sınıflandırır
  • Morfolojik işlemler: Erozyon, genişleme, açma ve kapama gibi yapısal dönüşümler
  • Histogram eşitleme: Görüntünün kontrastını iyileştirmek için piksel dağılımını normalize eder
  • Kenar tespiti: Sobel, Canny ve Laplacian gibi filtrelerle nesne sınırlarını belirler

Evrişimsel Sinir Ağları (CNN)

Evrişimsel Sinir Ağları, bilgisayarla görünün temel yapı taşıdır. CNN'ler, görüntüdeki uzamsal kalıpları hiyerarşik olarak öğrenen özel bir derin öğrenme mimarisidir.

CNN'in Temel Katmanları

  1. Konvolüsyon Katmanı: Öğrenilebilir filtreler (kerneller) kullanarak görüntüden özellik haritaları (feature maps) çıkarır. İlk katmanlar kenar ve doku gibi düşük seviyeli özellikleri, derin katmanlar ise nesne parçaları ve semantik kavramlar gibi yüksek seviyeli özellikleri öğrenir
  2. Havuzlama Katmanı (Pooling): Özellik haritalarının uzamsal boyutlarını azaltarak hesaplama maliyetini düşürür ve çevrisel değişmezlik sağlar. Max pooling ve average pooling en yaygın yöntemlerdir
  3. Aktivasyon Fonksiyonu: ReLU (Rectified Linear Unit) en yaygın kullanılan aktivasyon fonksiyonudur. Doğrusal olmayan dönüşümler uygulayarak modelin karmaşık kalıpları öğrenmesini sağlar
  4. Tam Bağlantılı Katman (Fully Connected): Son katmanlarda yer alarak öğrenilen özellikleri sınıflandırma kararlarına dönüştürür

Önemli CNN Mimarileri

Mimari Yıl Katman Sayısı Temel Katkı
LeNet-5 1998 7 İlk başarılı CNN (el yazısı tanıma)
AlexNet 2012 8 Derin öğrenme devrimini başlattı
VGGNet 2014 16-19 Küçük filtrelerle derin ağlar
GoogLeNet/Inception 2014 22 Inception modülleri ile verimli mimari
ResNet 2015 50-152 Residual bağlantılar ile çok derin ağlar
EfficientNet 2019 Değişken Ölçekleme stratejisi ile verimlilik

ResNet ve Artık Bağlantılar

ResNet (Residual Network), 2015 yılında Microsoft Research tarafından geliştirilen ve derin ağların eğitimindeki kaybolan gradyan problemini çözen çığır açıcı bir mimaridir. Artık bağlantılar (skip connections) sayesinde gradyanlar, ağın derinliklerine doğrudan akabilir ve yüzlerce katmanlı ağların eğitilmesini mümkün kılar.

Nesne Tespiti (Object Detection)

Nesne tespiti, bir görüntüdeki nesneleri hem sınıflandıran hem de konumlarını belirleyen (sınırlayıcı kutu - bounding box) görevdir. Bu görev, sınıflandırmadan daha karmaşıktır çünkü tek bir görüntüde birden fazla nesne olabilir ve her birinin konumu belirlenmelidir.

YOLO (You Only Look Once)

YOLO, 2016 yılında tanıtılan ve gerçek zamanlı nesne tespitinde devrim yaratan bir algoritmadır. Temel yaklaşımı, nesne tespitini tek bir sinir ağı geçişiyle yapmasıdır.

YOLO'nun çalışma prensibi:

  1. Görüntü S×S boyutunda bir ızgaraya bölünür
  2. Her ızgara hücresi, B adet sınırlayıcı kutu ve güven skoru tahmin eder
  3. Aynı anda sınıf olasılıkları hesaplanır
  4. Non-Maximum Suppression (NMS) ile yinelenen tespitler elenir

YOLO versiyonları hızla gelişmiştir. YOLOv8 ve ötesi, hem doğruluk hem de hız açısından etkileyici performans sunmaktadır.

SSD (Single Shot MultiBox Detector)

SSD, farklı ölçeklerdeki özellik haritalarından nesne tespiti yapan bir algoritmadır. Çok ölçekli özellik haritaları kullanarak farklı boyutlardaki nesneleri etkili bir şekilde tespit edebilir.

Faster R-CNN

İki aşamalı bir nesne tespit yöntemi olan Faster R-CNN, Region Proposal Network (RPN) ile aday bölgeleri oluşturur ve ardından bu bölgeleri sınıflandırır. Gerçek zamanlı uygulamalar için YOLO ve SSD'ye kıyasla daha yavaş olmasına rağmen, yüksek doğruluk gerektiren uygulamalarda tercih edilir.

Görüntü Segmentasyonu

Görüntü segmentasyonu, bir görüntüdeki her pikseli bir sınıfa atama görevidir. Nesne tespitinden farklı olarak, nesnelerin kesin sınırlarını piksel düzeyinde belirler.

Semantik Segmentasyon

Görüntüdeki her pikseli bir sınıfa atar ancak aynı sınıftaki farklı örnekleri ayırt etmez. Örneğin, bir sokak sahnesindeki tüm arabalar aynı renkte boyanır. U-Net ve FCN (Fully Convolutional Network) bu alandaki öncü mimarilerdir.

Örnek Segmentasyonu (Instance Segmentation)

Aynı sınıftaki farklı örnekleri de ayırt eder. Mask R-CNN, bu görev için en yaygın kullanılan modeldir ve her nesne için hem sınırlayıcı kutu hem de piksel maskesi üretir.

Panoptik Segmentasyon

Semantik ve örnek segmentasyonunu birleştiren en kapsamlı segmentasyon yaklaşımıdır. Hem sayılabilir nesneleri (araba, insan) örnekler bazında hem de sayılamayan alanları (gökyüzü, yol) semantik olarak segmente eder.

Yüz Tanıma (Face Recognition)

Yüz tanıma, bilgisayarla görünün en yaygın kullanılan uygulamalarından biridir. Bu teknoloji iki temel görevi kapsar:

  • Yüz tespiti (Face Detection): Görüntüdeki yüzlerin konumlarını belirleme
  • Yüz tanıma (Face Recognition): Tespit edilen yüzleri tanımlama veya doğrulama

Modern Yüz Tanıma Yaklaşımları

Modern yüz tanıma sistemleri, derin öğrenme tabanlı yüz temsilleri (face embeddings) kullanır. FaceNet, ArcFace ve DeepFace gibi modeller, yüzleri yüksek boyutlu vektör uzayında temsil eder. Bu uzayda benzer yüzler birbirine yakın, farklı yüzler birbirinden uzak konumlanır.

Yüz tanıma sürecinin adımları:

  1. Yüz tespiti (MTCNN, RetinaFace)
  2. Yüz hizalama (alignment)
  3. Özellik çıkarma (embedding extraction)
  4. Karşılaştırma ve eşleştirme

Optik Karakter Tanıma (OCR)

OCR, basılı veya el yazısı metinlerin dijital görüntülerden otomatik olarak okunmasını sağlayan teknolojidir. Belge dijitalleştirme, fatura işleme, plaka tanıma ve tarihsel arşivlerin dijitalleştirilmesi gibi alanlarda yaygın olarak kullanılır.

Modern OCR sistemlerinin bileşenleri:

  • Metin tespiti: Görüntüdeki metin bölgelerinin konumlarını belirleme
  • Metin tanıma: Tespit edilen bölgelerdeki karakterleri okuma
  • Son işleme: Dil modelleri ve sözlük kontrolü ile doğruluk artırma

Tesseract, EasyOCR ve PaddleOCR gibi açık kaynaklı araçlar ile Google Vision API ve Azure Computer Vision gibi bulut tabanlı hizmetler, OCR uygulamaları için popüler seçeneklerdir.

Endüstriyel ve Sektörel Uygulamalar

Tıbbi Görüntüleme

Bilgisayarla görü, sağlık alanında devrim yaratmaktadır. Röntgen, MR, BT ve patoloji görüntülerinin analizi için kullanılan AI modelleri, hastalıkların erken teşhisinde doktorlara değerli destek sağlar.

  • Akciğer nodülü tespiti ve sınıflandırması
  • Retina görüntülerinden diyabetik retinopati tespiti
  • Patoloji slaytlarından kanser hücre tanımlama
  • Kemik kırıklarının otomatik tespiti

Otonom Araçlar

Otonom sürüş, bilgisayarla görünün en karmaşık ve zorlu uygulamalarından biridir. Bir otonom araç, çevresini algılamak için kameralar, lidar ve radar sensörlerinden gelen verileri gerçek zamanlı olarak işler.

  • Yaya, araç ve bisikletli tespiti
  • Şerit takibi ve trafik işareti tanıma
  • Derinlik tahmini ve 3D sahne anlama
  • Hareket planlama ve çarpışma önleme

Endüstriyel Kalite Kontrol

Üretim hatlarında ürün kalitesinin otomatik denetimi, bilgisayarla görünün en yaygın endüstriyel uygulamalarından biridir. Yüzey kusurları, boyut sapmaları, montaj hataları ve ambalaj sorunları gibi kalite problemleri gerçek zamanlı olarak tespit edilebilir.

Tarım ve Hassas Tarım

Drone ve uydu görüntülerinin analizi ile bitki sağlığı izleme, zararlı tespiti, ürün tahmini ve otomatik hasat gibi uygulamalar tarım sektöründe verimliliği artırmaktadır.

Vision Transformers (ViT) ve Güncel Trendler

2020'de tanıtılan Vision Transformer (ViT), NLP alanında büyük başarı kazanan transformer mimarisini görüntü işlemeye uyarlayan çığır açıcı bir çalışmadır. ViT, görüntüyü yamalara (patches) bölerek her yamayı bir token olarak işler ve self-attention mekanizmasını kullanır.

Diffusion Modelleri

Stable Diffusion, DALL-E ve Midjourney gibi metin-görüntü üretim modelleri, bilgisayarla görü alanının en heyecan verici güncel gelişmeleri arasındadır. Bu modeller, metinsel açıklamalardan yüksek kaliteli görüntüler üreterek yaratıcı endüstrileri dönüştürmektedir.

Multimodal Modeller

CLIP, GPT-4V ve Gemini gibi çok modlu modeller, metin ve görüntüyü birlikte anlayarak daha zengin ve bağlamsal bir görsel zeka sunmaktadır. Bu modeller, görsel soru yanıtlama, görüntü açıklama ve görsel muhakeme gibi görevlerde üstün performans gösterir.

Bilgisayarla Görü Araçları ve Kütüphaneleri

  • OpenCV: En yaygın kullanılan açık kaynak görüntü işleme kütüphanesi
  • PyTorch ve TorchVision: Derin öğrenme modelleri için araçlar ve ön eğitimli modeller
  • TensorFlow ve Keras: Google'ın derin öğrenme çerçevesi
  • Detectron2: Meta'nın nesne tespiti ve segmentasyon kütüphanesi
  • Ultralytics: YOLO modelleri için kapsamlı araç seti
  • Albumentations: Görüntü augmentasyonu kütüphanesi

Sonuç

Bilgisayarla görü, yapay zekanın en dinamik ve pratik uygulama alanlarından biridir. CNN mimarilerinden YOLO gibi nesne tespit algoritmalarına, yüz tanımadan OCR'ye, tıbbi görüntülemeden otonom araçlara kadar geniş bir uygulama yelpazesine sahiptir. Vision Transformers ve diffusion modelleri gibi güncel gelişmeler, alanın sınırlarını sürekli genişletmektedir.

Bilgisayarla görü projelerine başlamak isteyenler için OpenCV ile temel görüntü işleme kavramlarını öğrenmek, ardından PyTorch veya TensorFlow ile CNN mimarilerini uygulamak ve son olarak nesne tespiti veya segmentasyon gibi spesifik görevlerde uzmanlaşmak etkili bir yol haritası olacaktır. Bu alandaki hızlı gelişmeler, sürekli öğrenmeyi ve güncel araştırmaları takip etmeyi zorunlu kılmaktadır.

Bu yazıyı paylaş