Bilgisayarlı Görü Nedir?
Bilgisayarlı görü (Computer Vision), bilgisayarların dijital görüntülerden ve videolardan anlamlı bilgi çıkarmasını sağlayan yapay zeka dalıdır. İnsan görme sistemini taklit ederek makinelerin görsel dünyayı anlamasına, yorumlamasına ve buna göre karar vermesine olanak tanır. Son on yılda derin öğrenme sayesinde bilgisayarlı görü dramatik ilerlemeler kaydetti ve birçok alanda insan düzeyinde veya üzerinde performans göstermeye başladı.
Küresel bilgisayarlı görü pazarı 2026 yılına kadar 25 milyar doları aşması beklenmektedir. Sağlıktan otomotive, perakendeden güvenliğe kadar hemen her sektörde dönüştürücü uygulamalar ortaya çıkmaktadır.
Görüntü Sınıflandırma
Görüntü sınıflandırma, bir görüntünün hangi kategoriye ait olduğunu belirleme görevidir. Bu, bilgisayarlı görünün en temel ve en yaygın kullanılan uygulamasıdır.
CNN Mimarileri
Evrişimli Sinir Ağları (CNN), görüntü sınıflandırmanın temelini oluşturur. Görüntüdeki yerel desenleri ve hiyerarşik özellikleri öğrenme yeteneği sayesinde son derece başarılı sonuçlar üretir. Öne çıkan mimariler şunlardır:
- ResNet: Artık bağlantılar (skip connections) ile çok derin ağların eğitilmesini mümkün kılan devrimci mimari
- EfficientNet: Derinlik, genişlik ve çözünürlüğü dengeli şekilde ölçeklendiren verimli mimari
- Vision Transformer (ViT): NLP'den ilham alan, görüntüleri parçalara bölerek dikkat mekanizması uygulayan modern yaklaşım
- ConvNeXt: Modern eğitim teknikleriyle yeniden tasarlanan CNN mimarisi
Transfer Öğrenme
Transfer öğrenme, ImageNet gibi büyük veri kümeleri üzerinde önceden eğitilmiş modelleri alarak kendi spesifik görevinize uyarlamanızı sağlar. Bu yaklaşım, az veriyle bile yüksek doğruluk oranları elde etmenizi mümkün kılar ve eğitim süresini dramatik şekilde kısaltır.
Nesne Tespiti
Nesne tespiti (Object Detection), bir görüntüdeki nesneleri hem sınıflandırıp hem de konumlarını belirleyen görevdir. Sınıflandırmanın ötesinde, her nesne için sınırlayıcı kutu (bounding box) koordinatları da tahmin edilir.
YOLO Ailesi
You Only Look Once (YOLO), gerçek zamanlı nesne tespiti için en popüler algoritmadır. Görüntüyü tek bir geçişte işleyerek hem hız hem de doğruluk sağlar. YOLOv8 ve YOLO11, en güncel ve performanslı sürümlerdir.
Diğer Yaklaşımlar
| Algoritma | Hız | Doğruluk | Kullanım Alanı |
|---|---|---|---|
| YOLO | Çok hızlı | Yüksek | Gerçek zamanlı uygulamalar |
| SSD | Hızlı | Orta-Yüksek | Mobil cihazlar |
| Faster R-CNN | Orta | Çok yüksek | Hassas tespit gerektiren alanlar |
| DETR | Orta | Çok yüksek | Araştırma, karmaşık sahneler |
Nesne Tespiti Uygulama Alanları
- Otonom araçlarda yaya, araç ve trafik işareti tespiti
- Perakende mağazalarda raf analizi ve stok takibi
- Güvenlik kameralarında şüpheli davranış algılama
- Endüstriyel kalite kontrolde hatalı ürün tespiti
- Tarımda mahsul hastalığı ve zararlı böcek tespiti
Optik Karakter Tanıma (OCR)
OCR, basılı veya el yazısı metinleri dijital metne dönüştüren teknolojidir. Modern OCR sistemleri derin öğrenme ile desteklenerek karmaşık düzenleri, farklı yazı tiplerini ve çok dilli belgeleri işleyebilir.
Modern OCR Mimarisi
Günümüz OCR sistemleri genellikle üç aşamalı bir süreç izler: metin bölgesi tespiti, metin tanıma ve son işleme. CRNN (Convolutional Recurrent Neural Network) ve Transformer tabanlı modeller en yaygın kullanılan yaklaşımlardır.
OCR Kullanım Senaryoları
- Fatura ve makbuzların otomatik işlenmesi
- Kimlik belgelerinin doğrulanması (KYC süreçleri)
- Tıbbi reçetelerin dijitalleştirilmesi
- Tarihi belgelerin arşivlenmesi
- Plaka tanıma ve otopark yönetimi
Yüz Tanıma
Yüz tanıma, bir görüntü veya videodaki yüzleri tespit ederek kimlik doğrulaması yapan teknolojidir. Güvenlik, kimlik doğrulama ve kişiselleştirme alanlarında yaygın olarak kullanılmaktadır.
Yüz Tanıma Süreci
- Yüz Tespiti: Görüntüdeki yüzlerin konumlarını belirleme
- Yüz Hizalama: Tespit edilen yüzü standart bir pozisyona dönüştürme
- Özellik Çıkarma: Yüzün benzersiz özelliklerini vektörel bir temsile dönüştürme
- Eşleştirme: Çıkarılan özellik vektörünü veri tabanındakilerle karşılaştırma
Etik ve Gizlilik Kaygıları
Yüz tanıma teknolojisi önemli etik ve gizlilik sorunları taşır. Önyargı, mahremiyet ihlali ve kitlesel gözetim riskleri nedeniyle birçok ülke ve kuruluş bu teknolojinin kullanımına sınırlamalar getirmektedir. GDPR ve benzeri düzenlemeler biyometrik verilerin işlenmesi için açık rıza şartı koymaktadır.
Yüz tanıma teknolojisi güçlü bir araçtır, ancak etik sınırlar çerçevesinde ve bireylerin gizlilik haklarına saygı göstererek kullanılmalıdır.
Otonom Araçlar
Bilgisayarlı görü, otonom araçların en kritik bileşenlerinden biridir. Kameralar, LiDAR ve radar sensörleriyle çevreden veri toplayan otonom araçlar, bilgisayarlı görü algoritmaları ile bu verileri gerçek zamanlı olarak işler.
Otonom Sürüş Seviyekleri
SAE International tarafından tanımlanan otonom sürüş seviyeleri (0-5), araçların ne ölçüde insan müdahalesi gerektirdiğini belirtir. Seviye 2 (kısmi otomasyon) geniş çapta kullanılırken, seviye 4 ve 5 (tam otomasyon) henüz sınırlı senaryolarda test aşamasındadır.
Teknik Zorluklar
- Farklı hava koşullarında güvenilir algılama (yağmur, kar, sis)
- Gece görüşü ve düşük ışık koşullarında performans
- Nadir senaryolara (köşe durumları) karşı dayanıklılık
- Sensör füzyonu: kamera, LiDAR ve radar verilerinin birleştirilmesi
- Gerçek zamanlı karar verme ve gecikme yönetimi
Tıbbi Görüntüleme
Bilgisayarlı görü, tıbbi görüntüleme alanında devrim yaratmaktadır. Röntgen, MR, BT ve patoloji görüntülerinin analizi için geliştirilen AI modelleri, hastalıkların erken teşhisinde doktorlara yardımcı olmaktadır.
Uygulama Alanları
- Radyoloji: Akciğer nodülü tespiti, kemik kırığı sınıflandırması
- Patoloji: Kanser hücresi tespiti ve derecelendirmesi
- Oftalmoloji: Diyabetik retinopati ve glokom taraması
- Dermatoloji: Cilt lezyonlarının sınıflandırması ve melanom tespiti
- Kardiyoloji: Ekokardiyografi analizi ve kalp anomalilerinin tespiti
Dikkat Edilmesi Gerekenler
Tıbbi AI sistemleri, düzenleyici onay (FDA, CE) gerektirir. Model açıklanabilirliği, klinik doğrulama ve hasta verilerinin gizliliği kritik konulardır. AI, doktorların yerini almaz; onların karar verme süreçlerini destekleyen bir araç olarak konumlandırılmalıdır.
Sonuç
Bilgisayarlı görü, yapay zekanın en hızlı gelişen ve en geniş uygulama alanına sahip dallarından biridir. Görüntü sınıflandırmadan nesne tespitine, OCR'dan yüz tanımaya, otonom araçlardan tıbbi görüntülemeye kadar hayatımızın her alanında etkisini hissettirmektedir. Derin öğrenme ve Transformer mimarileri sayesinde bilgisayarlı görü yetenekleri her geçen gün gelişmeye devam etmektedir. Bu teknolojileri anlamak ve uygulamak, gelecekteki iş fırsatlarına hazırlıklı olmanın anahtarıdır.