📑 İçindekiler
- 1. Multimodal AI Nedir?
- 2. Metin İşleme (NLP) Temelleri
- 3. Görüntü İşleme ve Bilgisayarlı Görü
- 4. Ses İşleme ve Konuşma Tanıma
- 5. GPT-4V ve Gemini Pro Vision
- 6. Multimodal Embedding ve Vektör Temsilleri
- 7. Uygulama Senaryoları
- 8. Mimari Tasarım ve Sistem Yapısı
- 9. Pratik Proje Rehberi
- 10. Performans ve Optimizasyon
- 11. Sıkça Sorulan Sorular (SSS)
Yapay zeka dünyası artık yalnızca tek bir veri türüyle sınırlı değil. Multimodal AI, metin, görüntü, ses ve video gibi farklı veri modalitelerini aynı anda işleyebilen, anlayabilen ve birbirleriyle ilişkilendirebilen yeni nesil yapay zeka sistemlerini ifade eder. Bu kapsamlı rehberde, multimodal AI uygulamalarının temellerinden ileri düzey mimari tasarıma kadar her şeyi ele alacağız.
💡 Bilgi
2025 yılı itibarıyla multimodal AI pazarı 45 milyar doları aşmış durumda ve bu rakamın 2028'e kadar 120 milyar dolara ulaşması bekleniyor. Bu alan, yazılım geliştiriciler için en büyük kariyer fırsatlarından birini sunuyor.
1. Multimodal AI Nedir?
Multimodal AI, birden fazla veri türünü (modalite) eş zamanlı olarak işleyebilen yapay zeka sistemleridir. Geleneksel AI modelleri yalnızca tek bir modaliteye odaklanırken — örneğin yalnızca metin veya yalnızca görüntü — multimodal sistemler insan algısına çok daha yakın bir yaklaşım sunar.
İnsanlar doğal olarak multimodal varlıklardır: Bir sahneyi anlamak için hem gördüklerimizi, hem duyduklarımızı, hem de okuduklarımızı birleştiririz. Multimodal AI, bu doğal yeteneği dijital sistemlere taşıma amacını güder.
Temel Modaliteler
Multimodal AI'ın en büyük avantajı, farklı veri kaynaklarından gelen bilgiyi cross-modal reasoning (çapraz-modal akıl yürütme) ile birleştirerek daha doğru ve kapsamlı sonuçlar üretebilmesidir. Örneğin, bir tıbbi görüntüyü analiz ederken hastanın yazılı semptomlarını da dikkate alabilen bir sistem, tek modaliteli sistemlere göre çok daha isabetli teşhisler koyabilir.
2. Metin İşleme (NLP) Temelleri
Doğal Dil İşleme (NLP), multimodal AI'ın temel yapı taşlarından biridir. Modern NLP sistemleri transformer mimarisine dayanır ve metin verilerini anlamlandırmak için derin öğrenme tekniklerini kullanır.
Transformer Mimarisi ve Attention Mekanizması
Transformer mimarisi, 2017'de Google tarafından tanıtılan "Attention is All You Need" makalesiyle devrim yaratmıştır. Self-attention mekanizması, bir cümledeki her kelimenin diğer tüm kelimelerle ilişkisini hesaplayarak bağlamsal anlam çıkarır.
# Multimodal metin işleme örneği
from transformers import AutoTokenizer, AutoModel
import torch
class TextEncoder:
def __init__(self, model_name="bert-base-multilingual-cased"):
self.tokenizer = AutoTokenizer.from_pretrained(model_name)
self.model = AutoModel.from_pretrained(model_name)
def encode(self, text: str) -> torch.Tensor:
inputs = self.tokenizer(text, return_tensors="pt",
padding=True, truncation=True)
with torch.no_grad():
outputs = self.model(**inputs)
# CLS token embedding'ini döndür
return outputs.last_hidden_state[:, 0, :]
# Kullanım
encoder = TextEncoder()
embedding = encoder.encode("Multimodal AI ile görüntü analizi")
print(f"Embedding boyutu: {embedding.shape}") # [1, 768]
NLP alanında multimodal uygulamalar için en kritik adım, metin verilerini diğer modalitelerle uyumlu bir vektör uzayına dönüştürmektir. Bu süreçte BERT, RoBERTa ve GPT gibi büyük dil modelleri temel bileşen olarak kullanılır.
Metin Ön İşleme Pipeline'ı
Multimodal sistemlerde metin ön işleme aşaması, tokenizasyon, normalizasyon, stop word temizleme ve embedding oluşturma adımlarından oluşur. Her adım, nihai multimodal fusion (birleştirme) kalitesini doğrudan etkiler.
3. Görüntü İşleme ve Bilgisayarlı Görü
Bilgisayarlı görü (Computer Vision), multimodal AI'ın en görsel ve etkileyici bileşenidir. CNN (Convolutional Neural Network) mimarisinden Vision Transformer'a (ViT) kadar uzanan bu alan, görüntülerdeki nesne, sahne ve ilişkileri anlamlandırmayı hedefler.
Vision Transformer (ViT) Yaklaşımı
Vision Transformer, NLP alanında büyük başarı gösteren transformer mimarisini görüntü işlemeye uyarlar. Görüntüyü sabit boyutlu yamalara (patch) bölerek her yamayı bir token olarak işler. Bu yaklaşım, multimodal sistemlerde metin ve görüntü modalitelerinin aynı mimari çerçevede işlenmesine olanak tanır.
# Vision Transformer ile görüntü encoding
from transformers import ViTModel, ViTFeatureExtractor
from PIL import Image
class ImageEncoder:
def __init__(self, model_name="google/vit-base-patch16-224"):
self.extractor = ViTFeatureExtractor.from_pretrained(model_name)
self.model = ViTModel.from_pretrained(model_name)
def encode(self, image_path: str) -> torch.Tensor:
image = Image.open(image_path).convert("RGB")
inputs = self.extractor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = self.model(**inputs)
return outputs.last_hidden_state[:, 0, :]
# Kullanım
img_encoder = ImageEncoder()
img_embedding = img_encoder.encode("sample_image.jpg")
print(f"Görüntü embedding boyutu: {img_embedding.shape}")
CLIP Modeli: Metin-Görüntü Eşleştirme
OpenAI'ın CLIP (Contrastive Language-Image Pretraining) modeli, metin ve görüntü arasında semantik bağlantı kuran öncü bir multimodal modeldir. 400 milyon metin-görüntü çiftiyle eğitilen CLIP, herhangi bir görüntüyü doğal dil açıklamalarıyla eşleştirebilir. Zero-shot sınıflandırma yeteneği sayesinde, daha önce hiç görmediği kategorileri bile tanıyabilir.
✅ İpucu
CLIP modelini multimodal arama motoru oluşturmak için kullanabilirsiniz. Kullanıcı metin yazarak görsel arayabilir veya bir görsel yükleyerek benzer içerikleri bulabilir.
4. Ses İşleme ve Konuşma Tanıma
Ses işleme, multimodal AI'ın üçüncü temel ayağıdır. Modern ses işleme sistemleri, konuşma tanıma (ASR), konuşma sentezi (TTS), ses duygu analizi ve müzik anlama gibi görevleri yüksek doğrulukla gerçekleştirebilir.
Whisper: Evrensel Konuşma Tanıma
OpenAI'ın Whisper modeli, 680.000 saat çok dilli ve çok görevli denetimli veriyle eğitilmiş güçlü bir konuşma tanıma sistemidir. Türkçe dahil 99 dilde transkripsiyon yapabilir ve otomatik dil algılama özelliğine sahiptir.
# Whisper ile ses transkripsiyon
import whisper
class AudioProcessor:
def __init__(self, model_size="medium"):
self.model = whisper.load_model(model_size)
def transcribe(self, audio_path: str) -> dict:
result = self.model.transcribe(audio_path, language="tr")
return {
"text": result["text"],
"segments": result["segments"],
"language": result["language"]
}
def extract_features(self, audio_path: str) -> torch.Tensor:
audio = whisper.load_audio(audio_path)
mel = whisper.log_mel_spectrogram(audio).to(self.model.device)
with torch.no_grad():
features = self.model.encoder(mel.unsqueeze(0))
return features
processor = AudioProcessor()
result = processor.transcribe("meeting_recording.wav")
print(f"Transkript: {result['text'][:200]}...")
Ses verileri, mel-spektrogram formatına dönüştürülerek görüntü benzeri temsillerle işlenir. Bu yaklaşım, CNN ve transformer tabanlı modellerin ses verilerine uygulanmasını kolaylaştırır ve multimodal birleştirme için ortak bir temsil uzayı oluşturur.
5. GPT-4V ve Gemini Pro Vision
2024-2025 yılları, büyük multimodal modellerin (LMM) altın çağı oldu. GPT-4V (Vision) ve Gemini Pro Vision, multimodal AI'ı geliştiricilerin erişimine açan iki öncü platformdur.
GPT-4V (Vision) Özellikleri
GPT-4V, OpenAI'ın multimodal büyük dil modelidir. Metin ve görüntü girdilerini birlikte işleyerek doğal dilde yanıt üretebilir. Teknik diyagramları yorumlama, tıbbi görüntü analizi, kod ekran görüntülerini anlama ve grafik/tablo verilerini çıkarma gibi karmaşık görevlerde başarılıdır.
# GPT-4V ile multimodal analiz
from openai import OpenAI
import base64
client = OpenAI()
def analyze_image_with_context(image_path: str, question: str) -> str:
with open(image_path, "rb") as f:
image_data = base64.b64encode(f.read()).decode("utf-8")
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": question},
{"type": "image_url", "image_url": {
"url": f"data:image/jpeg;base64,{image_data}",
"detail": "high"
}}
]
}],
max_tokens=1000
)
return response.choices[0].message.content
# Kullanım
result = analyze_image_with_context(
"architecture_diagram.png",
"Bu mimari diyagramdaki bileşenleri analiz et ve iyileştirme önerileri sun."
)
print(result)
Gemini Pro Vision Karşılaştırması
Google'ın Gemini Pro Vision modeli, natively multimodal olarak tasarlanmıştır. GPT-4V'nin aksine, Gemini baştan itibaren metin, görüntü, ses ve video modalitelerini birlikte işlemek üzere eğitilmiştir.
6. Multimodal Embedding ve Vektör Temsilleri
Multimodal embedding, farklı modalitelerdeki verileri ortak bir vektör uzayında temsil etme sanatıdır. Bu yaklaşım sayesinde bir metin, bir görüntü ve bir ses kaydı aynı matematiksel uzayda karşılaştırılabilir hale gelir.
Contrastive Learning Yaklaşımı
Contrastive learning, multimodal embedding'lerin eğitilmesinde en yaygın kullanılan yöntemdir. Eşleşen metin-görüntü çiftlerinin vektörlerini yakınlaştırırken, eşleşmeyen çiftleri uzaklaştırır. CLIP, ImageBind ve BLIP-2 gibi modeller bu prensibi kullanır.
# Multimodal embedding birleştirme
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
class MultimodalFusion:
def __init__(self, text_encoder, image_encoder, audio_encoder):
self.text_enc = text_encoder
self.image_enc = image_encoder
self.audio_enc = audio_encoder
self.projection_dim = 512
def early_fusion(self, text_emb, image_emb, audio_emb):
"""Erken birleştirme: Embedding'leri birleştir"""
combined = np.concatenate([text_emb, image_emb, audio_emb], axis=-1)
# Projeksiyon katmanı ile boyut azaltma
return self._project(combined, self.projection_dim)
def late_fusion(self, text_emb, image_emb, audio_emb, weights=None):
"""Geç birleştirme: Ağırlıklı ortalama"""
if weights is None:
weights = [0.4, 0.35, 0.25] # metin, görüntü, ses
fused = (weights[0] * text_emb +
weights[1] * image_emb +
weights[2] * audio_emb)
return fused / np.linalg.norm(fused)
def cross_attention_fusion(self, text_emb, image_emb):
"""Cross-attention ile birleştirme"""
attention_scores = cosine_similarity(text_emb, image_emb)
attended = np.matmul(attention_scores, image_emb)
return np.concatenate([text_emb, attended], axis=-1)
ImageBind: Altı Modalite Tek Uzay
Meta'nın ImageBind modeli, altı farklı modaliteyi (görüntü, metin, ses, derinlik, termal ve IMU verileri) tek bir ortak embedding uzayında birleştirir. Bu sayede, bir ses kaydından ilgili görüntüleri bulabilir veya bir termal görüntüden metin açıklaması oluşturabilirsiniz.
7. Uygulama Senaryoları
Multimodal AI, pek çok sektörde devrim niteliğinde uygulamalara kapı açmaktadır. İşte en öne çıkan senaryolar:
Sağlık Sektörü
Tıbbi görüntüleri (röntgen, MR, BT) hasta raporları ve laboratuvar sonuçlarıyla birleştirerek hastalık teşhisinde doğruluğu artırmak mümkündür. Multimodal AI, radyolojistlere ikinci bir görüş sunarak erken teşhis oranlarını %30'a kadar artırabilir.
E-Ticaret ve Perakende
Görsel arama motorları, kullanıcıların fotoğraf çekerek benzer ürünleri bulmasını sağlar. Ürün açıklamaları, müşteri yorumları ve ürün görselleri birlikte analiz edilerek kişiselleştirilmiş öneriler sunulabilir.
Eğitim ve Öğrenme
Multimodal AI tutorlar, öğrencinin yazılı yanıtlarını, çizimlerini ve sesli açıklamalarını analiz ederek kişiye özel öğrenme deneyimi sunar. Matematik problemlerinin fotoğrafını çekerek adım adım çözüm almak, bu uygulamanın en somut örneğidir.
Güvenlik ve Gözetim
Video akışları, ses verileri ve sensör bilgileri birleştirilerek anormal durumlar tespit edilebilir. Bir güvenlik kamerasının görüntüsü ile ortam sesi birlikte analiz edilerek tehdit algılama doğruluğu artırılır.
İçerik Üretimi
Metin açıklamalarından görüntü oluşturma (DALL-E, Midjourney), görüntülerden metin üretme, ses ve videodan otomatik içerik oluşturma gibi yaratıcı uygulamalar multimodal AI'ın en popüler kullanım alanlarından biridir.
8. Mimari Tasarım ve Sistem Yapısı
Multimodal AI uygulaması geliştirirken mimari tasarım, sistemin başarısını belirleyen en kritik faktördür. Doğru mimari seçimi, performans, ölçeklenebilirlik ve bakım kolaylığını doğrudan etkiler.
Katmanlı Mimari Yaklaşımı
┌─────────────────────────────────────────────┐
│ API Gateway / Load Balancer │
├─────────────────────────────────────────────┤
│ Orchestration Layer │
│ (İstek yönlendirme, pipeline yönetimi) │
├──────────┬──────────┬───────────────────────┤
│ Metin │ Görüntü │ Ses İşleme │
│ İşleme │ İşleme │ Servisi │
│ Servisi │ Servisi │ │
├──────────┴──────────┴───────────────────────┤
│ Multimodal Fusion Engine │
│ (Embedding birleştirme, cross-attention) │
├─────────────────────────────────────────────┤
│ Vektör Veritabanı (Pinecone/Milvus) │
├─────────────────────────────────────────────┤
│ Cache Layer (Redis) │
├─────────────────────────────────────────────┤
│ Model Registry & Version Control │
└─────────────────────────────────────────────┘
Mikroservis Tabanlı Yapı
Her modalite için bağımsız servisler oluşturmak, ölçeklenebilirlik ve bakım açısından en iyi yaklaşımdır. Metin işleme servisi yoğun istek alırken görüntü servisi daha az talep görüyorsa, her birini bağımsız olarak ölçeklendirebilirsiniz.
⚠️ Uyarı
Multimodal sistemlerde her modalite için ayrı GPU kaynağı gerekebilir. Maliyet planlaması yaparken görüntü ve ses işleme servislerinin GPU maliyetlerini mutlaka hesaba katın. Tek bir A100 GPU üzerinde tüm modalleri çalıştırmak, üretim ortamında darboğaz yaratabilir.
Veri Pipeline Tasarımı
Multimodal veri pipeline'ı, farklı kaynaklardan gelen verilerin toplanması, ön işlenmesi, embedding oluşturulması ve depolanması süreçlerini kapsar. Apache Kafka veya RabbitMQ gibi mesaj kuyruğu sistemleri, asenkron veri işleme için idealdir.
9. Pratik Proje Rehberi: Multimodal Arama Motoru
Bu bölümde, metin ve görüntü ile arama yapabilen bir multimodal arama motoru inşa edeceğiz. Kullanıcılar doğal dil sorgusu yazabilir veya bir görsel yükleyerek benzer içerikleri bulabilir.
Adım 1: Proje Yapısı
multimodal-search/
├── api/
│ ├── main.py # FastAPI uygulaması
│ ├── routes/
│ │ ├── search.py # Arama endpoint'leri
│ │ └── index.py # İndeksleme endpoint'leri
│ └── middleware/
│ └── auth.py # Kimlik doğrulama
├── core/
│ ├── encoders/
│ │ ├── text_encoder.py # Metin encoding
│ │ ├── image_encoder.py # Görüntü encoding
│ │ └── audio_encoder.py # Ses encoding
│ ├── fusion/
│ │ └── multimodal_fusion.py # Birleştirme
│ └── search/
│ └── vector_search.py # Vektör arama
├── config/
│ └── settings.py # Yapılandırma
├── docker-compose.yml
└── requirements.txt
Adım 2: FastAPI ile API Oluşturma
# api/main.py
from fastapi import FastAPI, UploadFile, File
from pydantic import BaseModel
from core.encoders import TextEncoder, ImageEncoder
from core.search import VectorSearch
app = FastAPI(title="Multimodal Search API")
text_encoder = TextEncoder()
image_encoder = ImageEncoder()
vector_db = VectorSearch(collection="multimodal_index")
class SearchRequest(BaseModel):
query: str
top_k: int = 10
modality: str = "text"
@app.post("/search/text")
async def search_by_text(request: SearchRequest):
embedding = text_encoder.encode(request.query)
results = vector_db.search(embedding, top_k=request.top_k)
return {"results": results, "query": request.query}
@app.post("/search/image")
async def search_by_image(file: UploadFile = File(...)):
image_bytes = await file.read()
embedding = image_encoder.encode_bytes(image_bytes)
results = vector_db.search(embedding, top_k=10)
return {"results": results}
@app.post("/index")
async def index_document(
text: str = None,
file: UploadFile = File(None)
):
embeddings = []
if text:
embeddings.append(text_encoder.encode(text))
if file:
image_bytes = await file.read()
embeddings.append(image_encoder.encode_bytes(image_bytes))
fused = MultimodalFusion.late_fusion(*embeddings)
doc_id = vector_db.insert(fused, metadata={"text": text})
return {"doc_id": doc_id, "status": "indexed"}
Adım 3: Vektör Veritabanı Entegrasyonu
Vektör veritabanı olarak Pinecone, Milvus veya Qdrant kullanabilirsiniz. Bu veritabanları, yüksek boyutlu vektörlerde hızlı benzerlik araması yapmak için optimize edilmiştir. Milyonlarca kayıt arasında milisaniyeler içinde en benzer sonuçları bulabilirler.
Adım 4: Docker ile Deployment
# docker-compose.yml
version: '3.8'
services:
api:
build: .
ports:
- "8000:8000"
environment:
- MODEL_CACHE_DIR=/models
- VECTOR_DB_URL=http://qdrant:6333
volumes:
- model_cache:/models
deploy:
resources:
reservations:
devices:
- capabilities: [gpu]
qdrant:
image: qdrant/qdrant:latest
ports:
- "6333:6333"
volumes:
- qdrant_data:/qdrant/storage
volumes:
model_cache:
qdrant_data:
10. Performans ve Optimizasyon
Multimodal AI uygulamalarında performans optimizasyonu, kullanıcı deneyimi ve maliyet kontrolü açısından kritik öneme sahiptir.
Model Quantization
Model quantization, ağırlıkları daha düşük bit hassasiyetine (FP32'den INT8 veya INT4'e) dönüştürerek bellek kullanımını ve çıkarım süresini azaltır. ONNX Runtime ve TensorRT gibi araçlar, %50-75 oranında hız artışı sağlayabilir.
Caching Stratejileri
Sık kullanılan embedding'leri Redis veya Memcached'de önbelleğe almak, tekrarlanan sorguların yanıt süresini dramatik şekilde azaltır. Embedding cache'i, LRU (Least Recently Used) politikasıyla yönetilmelidir.
Batch Processing
Çok sayıda veriyi işlerken toplu (batch) işleme kullanmak, GPU kaynaklarının verimli kullanılmasını sağlar. Dinamik batching ile farklı boyutlardaki istekleri otomatik olarak gruplandırabilirsiniz.
11. Sıkça Sorulan Sorular (SSS)
Multimodal AI ile unimodal AI arasındaki temel fark nedir?
Unimodal AI yalnızca tek bir veri türüyle (metin, görüntü veya ses) çalışırken, multimodal AI birden fazla veri türünü eş zamanlı olarak işleyebilir ve aralarındaki ilişkileri anlayabilir. Bu, daha zengin ve doğru çıkarımlar yapılmasını sağlar. Örneğin, bir multimodal sistem hem bir fotoğrafı analiz edip hem de onunla ilgili metni anlayarak bütünleşik bir yanıt üretebilir.
Multimodal AI uygulaması geliştirmek için hangi donanım gerekli?
Geliştirme aşamasında en az 16 GB RAM ve 8 GB VRAM'li bir GPU (NVIDIA RTX 3070 veya üstü) yeterlidir. Üretim ortamında ise A100 veya H100 gibi kurumsal GPU'lar önerilir. Bulut tabanlı çözümler (AWS SageMaker, Google Vertex AI) de donanım yatırımı yapmadan başlamak için iyi bir alternatiftir.
Early fusion ve late fusion arasında hangisini seçmeliyim?
Early fusion, modaliteler arası ilişkilerin güçlü olduğu durumlarda (örneğin video anlama) daha iyi sonuç verir. Late fusion ise her modalitenin bağımsız olarak güçlü olduğu senaryolarda (örneğin multimodal arama) tercih edilir. Genellikle, proje gereksinimlerinize göre her iki yaklaşımı da deneyip karşılaştırmanız önerilir.
Multimodal AI projelerinde en yaygın hatalar nelerdir?
En yaygın hatalar şunlardır: (1) Veri modaliteleri arasında dengesiz kalite — bir modalitedeki düşük kaliteli veri tüm sistemi olumsuz etkiler. (2) Yetersiz veri ön işleme — her modalite farklı normalizasyon gerektirir. (3) Aşırı karmaşık mimari — basit birleştirme stratejileriyle başlayıp gerektiğinde karmaşıklaştırmak daha etkilidir. (4) GPU bellek yönetimini ihmal etme — birden fazla modeli aynı anda yüklemek bellek taşmasına yol açabilir.
Multimodal AI'ın geleceği nasıl şekillenecek?
Multimodal AI'ın geleceği, daha fazla modaliteyi (dokunma, koku, hareket) entegre eden sistemlere doğru ilerliyor. Ayrıca daha küçük ve verimli modeller (edge computing), gerçek zamanlı multimodal anlama ve otonom ajanlar konularında büyük gelişmeler bekleniyor. World model kavramı — yapay zekanın dünyayı çok boyutlu olarak modelleyebilmesi — bu alanın nihai hedefi olarak öne çıkıyor.
Türkçe multimodal AI projeleri için hangi veri kaynakları kullanılabilir?
Türkçe multimodal projeler için şu kaynaklar değerlendirilebilir: TRVid ve sosyal medya platformlarından toplanan Türkçe açıklamalı video veri setleri, TÜDYEB ve akademik kurumların Türkçe konuşma veri setleri, Common Voice Türkçe bölümü, Türkçe Wikipedia ve haber sitelerinden metin verileri, ve Flickr/COCO veri setlerinin Türkçe çevirileri. Kendi veri setinizi oluştururken KVKK uyumluluğuna dikkat etmeniz önemlidir.
Sonuç
Multimodal AI, yapay zekanın evriminde devrim niteliğinde bir adımdır. Metin, görüntü ve ses verilerini birleştirerek insan algısına yakın sistemler oluşturmak artık mümkündür. GPT-4V, Gemini Pro Vision ve CLIP gibi güçlü modeller sayesinde, geliştiriciler multimodal uygulamaları hızla prototipleyebilir ve üretime alabilir. Bu rehberde öğrendiğiniz temeller, mimariler ve pratik yaklaşımlar, kendi multimodal AI projenizi başlatmanız için sağlam bir zemin oluşturmaktadır. Unutmayın: en iyi öğrenme yolu, küçük bir proje ile başlayıp adım adım büyütmektir.