Yerel AI Modelleri: Ollama Kurulum ve Kullanım Rehberi

📑 İçindekiler

1. Yerel AI Modelleri Neden Önemli?
2. Ollama Nedir ve Nasıl Çalışır?
3. Ollama Kurulum ve Kullanım Rehberi
4. LM Studio: Görsel Arayüzlü Alternatif
5. GPT4All: Herkes İçin Yerel AI
6. Diğer Önemli Alternatifler
7. Donanım Gereksinimleri
8. Model Seçimi Rehberi
9. Performans Optimizasyonu
10. Gizlilik ve Güvenlik Avantajları
11. API Kullanımı ve Entegrasyon
12. Araçlar Arası Karşılaştırma
13. Sıkça Sorulan Sorular

Yapay zeka modelleri artık sadece büyük teknoloji şirketlerinin sunucularında çalışmak zorunda değil. Yerel AI modelleri, kendi bilgisayarınızda tamamen çevrimdışı çalışabilen, verilerinizi dışarıya göndermeden kullanabileceğiniz güçlü dil modelleridir. 2026 yılı itibarıyla bu alan muazzam bir hızla gelişiyor ve artık orta seviye bir bilgisayar bile ciddi yapay zeka modelleri çalıştırabiliyor.

Bu rehberde, yerel AI modellerini çalıştırmanın en popüler yollarını, başta Ollama olmak üzere tüm alternatifleri detaylıca inceleyeceğiz. Donanım gereksinimlerinden performans optimizasyonuna, model seçiminden API entegrasyonuna kadar bilmeniz gereken her şeyi bulacaksınız.

1. Yerel AI Modelleri Neden Önemli?

Bulut tabanlı AI servisleri güçlü ve kullanışlı olsa da birçok senaryoda yerel çalıştırma büyük avantajlar sunar. İşte yerel AI modellerinin öne çıkmasının temel nedenleri:

Veri Gizliliği ve Güvenlik

Verileriniz bilgisayarınızdan asla çıkmaz. Hassas kurumsal veriler, kişisel bilgiler veya gizli projeler üzerinde çalışırken bu kritik önem taşır. KVKK ve GDPR gibi düzenlemelere uyum sağlamak da yerel modeller sayesinde çok daha kolaydır.

Maliyet Kontrolü

Bulut API'leri token başına ücretlendirilir ve yoğun kullanımda maliyetler hızla artar. Yerel modeller ise bir kez donanım yatırımı yaptıktan sonra sınırsız kullanım imkanı sunar. Özellikle geliştirme ve test süreçlerinde bu fark ciddi tasarruf sağlar.

Çevrimdışı Erişim

İnternet bağlantısı olmadan bile AI modellerinizi kullanabilirsiniz. Seyahatte, güvenlik kısıtlamalı ağlarda veya internet altyapısının zayıf olduğu bölgelerde bu özellik hayat kurtarır.

Tam Kontrol ve Özelleştirme

Model parametrelerini, prompt şablonlarını ve çıktı formatlarını tamamen kendiniz belirlersiniz. Fine-tuning yapabilir, modelleri kendi veri setlerinizle eğitebilir ve ihtiyaçlarınıza özel çözümler oluşturabilirsiniz.

💡 Bilgi

2026 yılında açık kaynak LLM'ler, birçok görevde ticari modellere yakın performans göstermektedir. Llama 3, Mistral ve Qwen gibi modeller yerel çalıştırma için optimize edilmiştir.

2. Ollama Nedir ve Nasıl Çalışır?

Ollama, büyük dil modellerini (LLM) yerel bilgisayarınızda kolayca çalıştırmanızı sağlayan açık kaynaklı bir araçtır. Docker'ın konteyner yönetimi mantığına benzer şekilde, AI modellerini indirme, yönetme ve çalıştırma süreçlerini basitleştirir.

Ollama'nın temel çalışma prensibi şu şekildedir:

Model Kataloğu: Yüzlerce önceden yapılandırılmış model sunar
Otomatik Quantization: Modelleri donanımınıza uygun formata dönüştürür
REST API: Standart HTTP API üzerinden erişim sağlar
GPU Hızlandırma: NVIDIA, AMD ve Apple Silicon GPU desteği sunar
Modelfile: Dockerfile benzeri yapılandırma dosyaları ile özel modeller oluşturabilirsiniz

Ollama, arka planda llama.cpp kütüphanesini kullanır. Bu, C++ ile yazılmış ve GGUF formatındaki modelleri son derece verimli şekilde çalıştıran bir çıkarım motorudur. Ollama, bu karmaşık altyapıyı basit komut satırı arayüzüyle sarar.

3. Ollama Kurulum ve Kullanım Rehberi

Kurulum

Ollama'yı işletim sisteminize göre aşağıdaki yöntemlerle kurabilirsiniz:

macOS ve Windows:

# Resmi web sitesinden indirin
# https://ollama.com/download

# macOS için Homebrew ile de kurulabilir
brew install ollama

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Docker:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# GPU desteği ile (NVIDIA)
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Temel Komutlar

# Model indirme ve çalıştırma
ollama run llama3.2

# Sadece model indirme
ollama pull mistral

# Mevcut modelleri listeleme
ollama list

# Model bilgilerini görüntüleme
ollama show llama3.2

# Çalışan modelleri görme
ollama ps

# Model silme
ollama rm mistral

# Belirli bir model boyutu ile çalıştırma
ollama run llama3.2:7b
ollama run llama3.2:13b

Özel Model Oluşturma (Modelfile)

Ollama'nın en güçlü özelliklerinden biri Modelfile ile özel modeller oluşturabilmenizdir:

# Modelfile örneği
FROM llama3.2

# Sistem promptu ayarlama
SYSTEM """
Sen Türkçe konuşan bir yazılım asistanısın.
Her zaman açık ve anlaşılır yanıtlar ver.
Kod örnekleri verirken yorumları Türkçe yaz.
"""

# Parametre ayarları
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
PARAMETER stop "<|end|>"

# Özel modeli oluşturma ve çalıştırma
ollama create turkce-asistan -f Modelfile
ollama run turkce-asistan

4. LM Studio: Görsel Arayüzlü Alternatif

LM Studio, komut satırı kullanmak istemeyenler için mükemmel bir alternatiftir. Şık bir masaüstü uygulaması üzerinden modelleri keşfedebilir, indirebilir ve sohbet edebilirsiniz.

LM Studio'nun Öne Çıkan Özellikleri

Görsel Model Keşfi: Hugging Face entegrasyonu ile binlerce modeli arayüzden arayabilirsiniz
Sohbet Arayüzü: ChatGPT benzeri kullanıcı dostu arayüz
Çoklu Model Desteği: GGUF, GGML ve diğer formatları destekler
Yerel Sunucu: OpenAI uyumlu API sunucusu başlatabilirsiniz
Parametre Kontrolü: Temperature, top_p, max tokens gibi parametreleri görsel olarak ayarlayabilirsiniz
Çapraz Platform: Windows, macOS ve Linux desteği

LM Studio'yu lmstudio.ai adresinden ücretsiz olarak indirebilirsiniz. Kurulum süreci oldukça basittir - indirin, kurun ve kullanmaya başlayın.

✅ İpucu

LM Studio, özellikle AI dünyasına yeni giren kullanıcılar için idealdir. Komut satırı bilgisi gerektirmeden güçlü modelleri deneyimlemenizi sağlar.

5. GPT4All: Herkes İçin Yerel AI

GPT4All, Nomic AI tarafından geliştirilen ve herkesin kullanabileceği şekilde tasarlanmış bir yerel AI platformudur. Adından da anlaşılacağı gibi, "herkes için GPT" vizyonuyla yola çıkmıştır.

GPT4All'ın Temel Özellikleri

LocalDocs: Kendi belgelerinizi yükleyip onlar hakkında soru sorabilirsiniz (RAG desteği)
Hafif Modeller: 4-8 GB RAM ile çalışabilen optimize modeller sunar
Python SDK: Programatik erişim için kapsamlı Python kütüphanesi
Gizlilik Odaklı: Hiçbir veri dışarıya gönderilmez
Kurumsal Kullanım: Ticari lisans seçenekleri mevcuttur

# GPT4All Python SDK kullanımı
from gpt4all import GPT4All

model = GPT4All("Meta-Llama-3-8B-Instruct.Q4_0.gguf")

with model.chat_session():
    response = model.generate(
        "Python ile basit bir web scraper yaz",
        max_tokens=1024,
        temp=0.7
    )
    print(response)

6. Diğer Önemli Alternatifler

llama.cpp

Ollama'nın da altyapısında kullandığı llama.cpp, C/C++ ile yazılmış yüksek performanslı bir çıkarım motorudur. Doğrudan kullanmak daha fazla teknik bilgi gerektirir ancak maksimum kontrol ve performans sağlar. CUDA, Metal, Vulkan ve OpenCL GPU hızlandırma desteği sunar.

Jan

Jan, açık kaynaklı ve gizlilik odaklı bir ChatGPT alternatifidir. Tamamen çevrimdışı çalışır, güzel bir masaüstü arayüzüne sahiptir ve eklenti sistemiyle genişletilebilir. OpenAI uyumlu API sunucusu da sunar.

Koboldcpp

Özellikle yaratıcı yazarlık ve rol yapma senaryoları için optimize edilmiş bir araçtır. llama.cpp tabanlıdır ve web tarayıcı arayüzü ile gelir. Uzun bağlam penceresi desteği ve karakter kartları gibi özellikleri ile yaratıcı kullanım senaryolarında öne çıkar.

vLLM

Yüksek performanslı model sunumu için tasarlanmış vLLM, özellikle üretim ortamları için idealdir. PagedAttention algoritması ile bellek verimliliği sağlar ve eşzamanlı birden fazla isteği hızla işleyebilir.

7. Donanım Gereksinimleri

Yerel AI modelleri çalıştırmak için gereken donanım, kullanmak istediğiniz modelin boyutuna bağlıdır. İşte genel yönergeler:

Model Boyutu	Min. RAM	Önerilen GPU VRAM	Kullanım Alanı
1-3B (Q4)	4 GB	2 GB	Basit görevler, chatbot
7-8B (Q4)	8 GB	6 GB	Genel amaçlı, kod yazma
13B (Q4)	16 GB	10 GB	Gelişmiş analiz, çeviri
30-34B (Q4)	32 GB	24 GB	Profesyonel kullanım
70B+ (Q4)	64 GB	48 GB+	Kurumsal, araştırma

GPU Seçimi

GPU, yerel AI performansını en çok etkileyen bileşendir. İşte platform bazında öneriler:

NVIDIA: RTX 3060 (12GB) giriş seviyesi için ideal. RTX 4090 (24GB) profesyonel kullanım için en iyi seçenek. CUDA desteği en olgun ekosisteme sahiptir.
AMD: RX 7900 XTX (24GB) ROCm desteği ile güçlü performans sunar. Linux'ta daha iyi desteklenir.
Apple Silicon: M2 Pro/Max ve M3 serisi, unified memory mimarisi sayesinde büyük modelleri verimli çalıştırır. Metal API desteği mükemmeldir.

⚠️ Uyarı

GPU olmadan da model çalıştırabilirsiniz (CPU-only), ancak hız önemli ölçüde düşer. 7B modeller CPU'da saniyede 2-5 token üretirken, GPU'da 30-80+ token üretebilir.

8. Model Seçimi Rehberi

Doğru modeli seçmek, yerel AI deneyiminizin kalitesini doğrudan belirler. İşte kullanım senaryolarına göre öneriler:

Kullanım Senaryosu	Önerilen Model	Boyut
Genel sohbet	Llama 3.2	8B
Kod yazma	DeepSeek Coder V2, Codestral	7-33B
Türkçe metin	Qwen 2.5, Gemma 2	7-27B
Matematik ve mantık	Qwen 2.5 Math, Mistral	7-72B
Yaratıcı yazarlık	Mistral, Llama 3.2	8-70B
Görüntü anlama	LLaVA, Llama 3.2 Vision	7-13B

Quantization Seviyeleri

Modeller farklı quantization seviyelerinde sunulur. Bu, modelin boyutunu ve kalitesini etkiler:

Q2_K: En küçük, en düşük kalite - sadece test amaçlı
Q4_K_M: En popüler denge noktası - çoğu kullanım için önerilir
Q5_K_M: Daha yüksek kalite, biraz daha fazla bellek
Q6_K: Neredeyse tam kalite
Q8_0: Pratik olarak kayıpsız, en büyük boyut

9. Performans Optimizasyonu

Yerel AI modellerinden maksimum performans almak için aşağıdaki optimizasyon stratejilerini uygulayabilirsiniz:

GPU Katman Ayarları

Modelin kaç katmanının GPU'da çalışacağını ayarlayarak performansı optimize edebilirsiniz. Tüm katmanlar GPU'ya sığmıyorsa, bir kısmını CPU'da çalıştırabilirsiniz.

# Ollama'da GPU katman sayısını ayarlama
OLLAMA_NUM_GPU=35 ollama run llama3.2

# Tüm katmanları GPU'da çalıştırma
OLLAMA_NUM_GPU=999 ollama run llama3.2

# Sadece CPU kullanma
OLLAMA_NUM_GPU=0 ollama run llama3.2

Bağlam Penceresi Optimizasyonu

Bağlam penceresi boyutu (context window) bellek kullanımını doğrudan etkiler. İhtiyacınızdan fazla bağlam penceresi ayarlamak gereksiz bellek tüketimine neden olur.

# Ollama'da bağlam penceresi ayarı
ollama run llama3.2 --num-ctx 2048  # Kısa konuşmalar için
ollama run llama3.2 --num-ctx 8192  # Uzun belgeler için

Bellek Yönetimi İpuçları

Kullanmadığınız uygulamaları kapatarak RAM boşaltın
Swap/page file boyutunu artırın (SSD üzerinde en az 16 GB önerilir)
Aynı anda birden fazla model yüklemeyin
Flash Attention özelliğini destekleyen modelleri tercih edin
Batch processing yapıyorsanız istekleri gruplandırın

10. Gizlilik ve Güvenlik Avantajları

Yerel AI modellerinin en önemli avantajlarından biri gizlilik ve güvenlik konusundaki üstünlükleridir:

Veri Egemenliği

Tüm veriler kendi altyapınızda kalır. Bu, özellikle aşağıdaki durumlar için kritiktir:

Sağlık sektörü: Hasta verileri asla dışarıya gönderilemez
Hukuk: Müvekkil bilgileri gizli kalmalıdır
Finans: Finansal veriler ve ticari sırlar korunmalıdır
Savunma: Gizli belgeler yerel olarak işlenmelidir
Eğitim: Öğrenci verileri KVKK kapsamında korunmalıdır

Düzenleyici Uyum

KVKK, GDPR, HIPAA gibi veri koruma düzenlemelerine uyum sağlamak, yerel modeller kullanıldığında çok daha kolaydır. Veri işleme süreçleri tamamen sizin kontrolünüzdedir ve denetim izleri kolayca oluşturulabilir.

Ağ Güvenliği

Yerel modeller internet bağlantısı gerektirmediğinden, air-gapped (internet bağlantısı olmayan) ağlarda bile çalışabilir. Bu, yüksek güvenlik gereksinimleri olan ortamlar için büyük avantajdır.

11. API Kullanımı ve Entegrasyon

Ollama ve diğer yerel AI araçları, uygulamalarınıza entegre edebileceğiniz API'ler sunar. Ollama'nın REST API'si OpenAI formatıyla uyumludur, bu da mevcut OpenAI tabanlı uygulamaları kolayca yerelleştirmenizi sağlar.

Ollama REST API

# Temel metin üretme
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Türkiye'nin başkenti neresidir?",
  "stream": false
}'

# Sohbet formatında kullanım
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "system", "content": "Sen yardımcı bir asistansın."},
    {"role": "user", "content": "Python nedir?"}
  ],
  "stream": false
}'

# OpenAI uyumlu endpoint
curl http://localhost:11434/v1/chat/completions -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "Merhaba!"}
  ]
}'

Python ile Entegrasyon

# ollama Python kütüphanesi
import ollama

# Basit sohbet
response = ollama.chat(
    model='llama3.2',
    messages=[
        {'role': 'user', 'content': 'Merhaba, nasılsın?'}
    ]
)
print(response['message']['content'])

# Streaming ile yanıt alma
for chunk in ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': 'Bir hikaye anlat'}],
    stream=True
):
    print(chunk['message']['content'], end='', flush=True)

# OpenAI SDK ile kullanım (drop-in replacement)
from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # herhangi bir değer olabilir
)

response = client.chat.completions.create(
    model='llama3.2',
    messages=[{'role': 'user', 'content': 'Merhaba!'}]
)
print(response.choices[0].message.content)

LangChain Entegrasyonu

from langchain_community.llms import Ollama
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory

llm = Ollama(model="llama3.2", temperature=0.7)
memory = ConversationBufferMemory()
chain = ConversationChain(llm=llm, memory=memory)

response = chain.predict(input="Python ile web geliştirme hakkında bilgi ver")
print(response)

12. Araçlar Arası Karşılaştırma

Özellik	Ollama	LM Studio	GPT4All	Jan
Arayüz	CLI	GUI	GUI	GUI
API Desteği	✓	✓	✓	✓
Açık Kaynak	✓	Kısmen	✓	✓
RAG Desteği	Harici	Harici	Yerleşik	Eklenti
Docker Desteği	✓	✗	✗	✗
Modelfile	✓	✗	✗	✗
Kullanım Kolaylığı	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

13. Sıkça Sorulan Sorular

Yerel AI modeli çalıştırmak için minimum ne kadar RAM gerekir?

En küçük modeller (1-3B parametre) 4 GB RAM ile çalışabilir. Ancak genel amaçlı ve kaliteli bir deneyim için en az 8 GB RAM ve 7-8B parametre bir model önerilir. 16 GB RAM, çoğu kullanıcı için rahat bir deneyim sunar.

Ollama ile hangi modelleri çalıştırabilirim?

Ollama, Llama 3, Mistral, Qwen, Gemma, Phi, CodeLlama, DeepSeek Coder, LLaVA ve daha yüzlerce modeli destekler. GGUF formatındaki herhangi bir modeli Modelfile ile içe aktarabilirsiniz. Tam liste için ollama.com/library adresini ziyaret edebilirsiniz.

Yerel modeller ChatGPT kadar iyi mi?

En büyük yerel modeller (70B+) birçok görevde GPT-3.5'e yakın veya eşit performans gösterir. GPT-4 seviyesine tam olarak ulaşmak zor olsa da, 7-8B modeller bile basit görevlerde tatmin edici sonuçlar verir. Özelleştirilmiş görevlerde fine-tuning ile çok başarılı sonuçlar elde edilebilir.

GPU olmadan yerel AI modeli çalıştırabilir miyim?

Evet, tüm araçlar CPU-only modda çalışabilir. Ancak GPU kullanmak, token üretim hızını 5-20 kat artırır. CPU'da 7B model saniyede 2-5 token üretirken, orta seviye bir GPU ile 30-80+ token üretebilirsiniz. Apple Silicon Mac'ler unified memory sayesinde CPU modda bile iyi performans gösterir.

Ollama ile LM Studio arasındaki fark nedir?

Ollama komut satırı tabanlıdır ve geliştiriciler için idealdir. Docker benzeri model yönetimi, Modelfile desteği ve güçlü API sunar. LM Studio ise görsel arayüze sahiptir, model keşfi kolaydır ve teknik bilgi gerektirmez. Geliştirme ve otomasyon için Ollama, bireysel kullanım için LM Studio tercih edilebilir.

Yerel modelleri ticari projelerimde kullanabilir miyim?

Çoğu açık kaynak model ticari kullanıma izin verir, ancak lisans koşullarını kontrol etmeniz önemlidir. Llama 3 (Meta Community License), Mistral (Apache 2.0), Qwen (Apache 2.0/özel) ve Gemma (Google'ın lisansı) farklı koşullar sunar. Her modelin lisans sayfasını incelemenizi öneririz.

Birden fazla modeli aynı anda çalıştırabilir miyim?

Evet, yeterli RAM ve GPU belleğiniz varsa birden fazla model yükleyebilirsiniz. Ollama, talep üzerine modelleri yükler ve belirli bir süre kullanılmazsa bellekten kaldırır. Ancak her model için ayrı bellek ayrılacağını unutmayın. 7B model yaklaşık 4-6 GB bellek kullanır.

Sonuç

Yerel AI modelleri, yapay zeka teknolojisinin demokratikleşmesinde kritik bir rol oynuyor. Ollama, LM Studio, GPT4All ve diğer araçlar sayesinde güçlü dil modellerini kendi bilgisayarınızda çalıştırmak artık herkesin erişebileceği bir imkan haline geldi.

Gizlilik, maliyet kontrolü, çevrimdışı erişim ve tam özelleştirme imkanı sunan yerel modeller, hem bireysel geliştiriciler hem de kurumsal kullanıcılar için vazgeçilmez araçlardır. Doğru donanım ve model seçimi ile yerel AI deneyiminizi optimize edebilir, verilerinizi güvende tutarak yapay zekanın gücünden tam olarak yararlanabilirsiniz.