📑 İçindekiler
- 1. Yerel AI Modelleri Neden Önemli?
- 2. Ollama Nedir ve Nasıl Çalışır?
- 3. Ollama Kurulum ve Kullanım Rehberi
- 4. LM Studio: Görsel Arayüzlü Alternatif
- 5. GPT4All: Herkes İçin Yerel AI
- 6. Diğer Önemli Alternatifler
- 7. Donanım Gereksinimleri
- 8. Model Seçimi Rehberi
- 9. Performans Optimizasyonu
- 10. Gizlilik ve Güvenlik Avantajları
- 11. API Kullanımı ve Entegrasyon
- 12. Araçlar Arası Karşılaştırma
- 13. Sıkça Sorulan Sorular
Yapay zeka modelleri artık sadece büyük teknoloji şirketlerinin sunucularında çalışmak zorunda değil. Yerel AI modelleri, kendi bilgisayarınızda tamamen çevrimdışı çalışabilen, verilerinizi dışarıya göndermeden kullanabileceğiniz güçlü dil modelleridir. 2026 yılı itibarıyla bu alan muazzam bir hızla gelişiyor ve artık orta seviye bir bilgisayar bile ciddi yapay zeka modelleri çalıştırabiliyor.
Bu rehberde, yerel AI modellerini çalıştırmanın en popüler yollarını, başta Ollama olmak üzere tüm alternatifleri detaylıca inceleyeceğiz. Donanım gereksinimlerinden performans optimizasyonuna, model seçiminden API entegrasyonuna kadar bilmeniz gereken her şeyi bulacaksınız.
1. Yerel AI Modelleri Neden Önemli?
Bulut tabanlı AI servisleri güçlü ve kullanışlı olsa da birçok senaryoda yerel çalıştırma büyük avantajlar sunar. İşte yerel AI modellerinin öne çıkmasının temel nedenleri:
Veri Gizliliği ve Güvenlik
Verileriniz bilgisayarınızdan asla çıkmaz. Hassas kurumsal veriler, kişisel bilgiler veya gizli projeler üzerinde çalışırken bu kritik önem taşır. KVKK ve GDPR gibi düzenlemelere uyum sağlamak da yerel modeller sayesinde çok daha kolaydır.
Maliyet Kontrolü
Bulut API'leri token başına ücretlendirilir ve yoğun kullanımda maliyetler hızla artar. Yerel modeller ise bir kez donanım yatırımı yaptıktan sonra sınırsız kullanım imkanı sunar. Özellikle geliştirme ve test süreçlerinde bu fark ciddi tasarruf sağlar.
Çevrimdışı Erişim
İnternet bağlantısı olmadan bile AI modellerinizi kullanabilirsiniz. Seyahatte, güvenlik kısıtlamalı ağlarda veya internet altyapısının zayıf olduğu bölgelerde bu özellik hayat kurtarır.
Tam Kontrol ve Özelleştirme
Model parametrelerini, prompt şablonlarını ve çıktı formatlarını tamamen kendiniz belirlersiniz. Fine-tuning yapabilir, modelleri kendi veri setlerinizle eğitebilir ve ihtiyaçlarınıza özel çözümler oluşturabilirsiniz.
💡 Bilgi
2026 yılında açık kaynak LLM'ler, birçok görevde ticari modellere yakın performans göstermektedir. Llama 3, Mistral ve Qwen gibi modeller yerel çalıştırma için optimize edilmiştir.
2. Ollama Nedir ve Nasıl Çalışır?
Ollama, büyük dil modellerini (LLM) yerel bilgisayarınızda kolayca çalıştırmanızı sağlayan açık kaynaklı bir araçtır. Docker'ın konteyner yönetimi mantığına benzer şekilde, AI modellerini indirme, yönetme ve çalıştırma süreçlerini basitleştirir.
Ollama'nın temel çalışma prensibi şu şekildedir:
- Model Kataloğu: Yüzlerce önceden yapılandırılmış model sunar
- Otomatik Quantization: Modelleri donanımınıza uygun formata dönüştürür
- REST API: Standart HTTP API üzerinden erişim sağlar
- GPU Hızlandırma: NVIDIA, AMD ve Apple Silicon GPU desteği sunar
- Modelfile: Dockerfile benzeri yapılandırma dosyaları ile özel modeller oluşturabilirsiniz
Ollama, arka planda llama.cpp kütüphanesini kullanır. Bu, C++ ile yazılmış ve GGUF formatındaki modelleri son derece verimli şekilde çalıştıran bir çıkarım motorudur. Ollama, bu karmaşık altyapıyı basit komut satırı arayüzüyle sarar.
3. Ollama Kurulum ve Kullanım Rehberi
Kurulum
Ollama'yı işletim sisteminize göre aşağıdaki yöntemlerle kurabilirsiniz:
macOS ve Windows:
# Resmi web sitesinden indirin
# https://ollama.com/download
# macOS için Homebrew ile de kurulabilir
brew install ollama
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Docker:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
# GPU desteği ile (NVIDIA)
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Temel Komutlar
# Model indirme ve çalıştırma
ollama run llama3.2
# Sadece model indirme
ollama pull mistral
# Mevcut modelleri listeleme
ollama list
# Model bilgilerini görüntüleme
ollama show llama3.2
# Çalışan modelleri görme
ollama ps
# Model silme
ollama rm mistral
# Belirli bir model boyutu ile çalıştırma
ollama run llama3.2:7b
ollama run llama3.2:13b
Özel Model Oluşturma (Modelfile)
Ollama'nın en güçlü özelliklerinden biri Modelfile ile özel modeller oluşturabilmenizdir:
# Modelfile örneği
FROM llama3.2
# Sistem promptu ayarlama
SYSTEM """
Sen Türkçe konuşan bir yazılım asistanısın.
Her zaman açık ve anlaşılır yanıtlar ver.
Kod örnekleri verirken yorumları Türkçe yaz.
"""
# Parametre ayarları
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
PARAMETER stop "<|end|>"
# Özel modeli oluşturma ve çalıştırma
ollama create turkce-asistan -f Modelfile
ollama run turkce-asistan
4. LM Studio: Görsel Arayüzlü Alternatif
LM Studio, komut satırı kullanmak istemeyenler için mükemmel bir alternatiftir. Şık bir masaüstü uygulaması üzerinden modelleri keşfedebilir, indirebilir ve sohbet edebilirsiniz.
LM Studio'nun Öne Çıkan Özellikleri
- Görsel Model Keşfi: Hugging Face entegrasyonu ile binlerce modeli arayüzden arayabilirsiniz
- Sohbet Arayüzü: ChatGPT benzeri kullanıcı dostu arayüz
- Çoklu Model Desteği: GGUF, GGML ve diğer formatları destekler
- Yerel Sunucu: OpenAI uyumlu API sunucusu başlatabilirsiniz
- Parametre Kontrolü: Temperature, top_p, max tokens gibi parametreleri görsel olarak ayarlayabilirsiniz
- Çapraz Platform: Windows, macOS ve Linux desteği
LM Studio'yu lmstudio.ai adresinden ücretsiz olarak indirebilirsiniz. Kurulum süreci oldukça basittir - indirin, kurun ve kullanmaya başlayın.
✅ İpucu
LM Studio, özellikle AI dünyasına yeni giren kullanıcılar için idealdir. Komut satırı bilgisi gerektirmeden güçlü modelleri deneyimlemenizi sağlar.
5. GPT4All: Herkes İçin Yerel AI
GPT4All, Nomic AI tarafından geliştirilen ve herkesin kullanabileceği şekilde tasarlanmış bir yerel AI platformudur. Adından da anlaşılacağı gibi, "herkes için GPT" vizyonuyla yola çıkmıştır.
GPT4All'ın Temel Özellikleri
- LocalDocs: Kendi belgelerinizi yükleyip onlar hakkında soru sorabilirsiniz (RAG desteği)
- Hafif Modeller: 4-8 GB RAM ile çalışabilen optimize modeller sunar
- Python SDK: Programatik erişim için kapsamlı Python kütüphanesi
- Gizlilik Odaklı: Hiçbir veri dışarıya gönderilmez
- Kurumsal Kullanım: Ticari lisans seçenekleri mevcuttur
# GPT4All Python SDK kullanımı
from gpt4all import GPT4All
model = GPT4All("Meta-Llama-3-8B-Instruct.Q4_0.gguf")
with model.chat_session():
response = model.generate(
"Python ile basit bir web scraper yaz",
max_tokens=1024,
temp=0.7
)
print(response)
6. Diğer Önemli Alternatifler
llama.cpp
Ollama'nın da altyapısında kullandığı llama.cpp, C/C++ ile yazılmış yüksek performanslı bir çıkarım motorudur. Doğrudan kullanmak daha fazla teknik bilgi gerektirir ancak maksimum kontrol ve performans sağlar. CUDA, Metal, Vulkan ve OpenCL GPU hızlandırma desteği sunar.
Jan
Jan, açık kaynaklı ve gizlilik odaklı bir ChatGPT alternatifidir. Tamamen çevrimdışı çalışır, güzel bir masaüstü arayüzüne sahiptir ve eklenti sistemiyle genişletilebilir. OpenAI uyumlu API sunucusu da sunar.
Koboldcpp
Özellikle yaratıcı yazarlık ve rol yapma senaryoları için optimize edilmiş bir araçtır. llama.cpp tabanlıdır ve web tarayıcı arayüzü ile gelir. Uzun bağlam penceresi desteği ve karakter kartları gibi özellikleri ile yaratıcı kullanım senaryolarında öne çıkar.
vLLM
Yüksek performanslı model sunumu için tasarlanmış vLLM, özellikle üretim ortamları için idealdir. PagedAttention algoritması ile bellek verimliliği sağlar ve eşzamanlı birden fazla isteği hızla işleyebilir.
7. Donanım Gereksinimleri
Yerel AI modelleri çalıştırmak için gereken donanım, kullanmak istediğiniz modelin boyutuna bağlıdır. İşte genel yönergeler:
GPU Seçimi
GPU, yerel AI performansını en çok etkileyen bileşendir. İşte platform bazında öneriler:
- NVIDIA: RTX 3060 (12GB) giriş seviyesi için ideal. RTX 4090 (24GB) profesyonel kullanım için en iyi seçenek. CUDA desteği en olgun ekosisteme sahiptir.
- AMD: RX 7900 XTX (24GB) ROCm desteği ile güçlü performans sunar. Linux'ta daha iyi desteklenir.
- Apple Silicon: M2 Pro/Max ve M3 serisi, unified memory mimarisi sayesinde büyük modelleri verimli çalıştırır. Metal API desteği mükemmeldir.
⚠️ Uyarı
GPU olmadan da model çalıştırabilirsiniz (CPU-only), ancak hız önemli ölçüde düşer. 7B modeller CPU'da saniyede 2-5 token üretirken, GPU'da 30-80+ token üretebilir.
8. Model Seçimi Rehberi
Doğru modeli seçmek, yerel AI deneyiminizin kalitesini doğrudan belirler. İşte kullanım senaryolarına göre öneriler:
Quantization Seviyeleri
Modeller farklı quantization seviyelerinde sunulur. Bu, modelin boyutunu ve kalitesini etkiler:
- Q2_K: En küçük, en düşük kalite - sadece test amaçlı
- Q4_K_M: En popüler denge noktası - çoğu kullanım için önerilir
- Q5_K_M: Daha yüksek kalite, biraz daha fazla bellek
- Q6_K: Neredeyse tam kalite
- Q8_0: Pratik olarak kayıpsız, en büyük boyut
9. Performans Optimizasyonu
Yerel AI modellerinden maksimum performans almak için aşağıdaki optimizasyon stratejilerini uygulayabilirsiniz:
GPU Katman Ayarları
Modelin kaç katmanının GPU'da çalışacağını ayarlayarak performansı optimize edebilirsiniz. Tüm katmanlar GPU'ya sığmıyorsa, bir kısmını CPU'da çalıştırabilirsiniz.
# Ollama'da GPU katman sayısını ayarlama
OLLAMA_NUM_GPU=35 ollama run llama3.2
# Tüm katmanları GPU'da çalıştırma
OLLAMA_NUM_GPU=999 ollama run llama3.2
# Sadece CPU kullanma
OLLAMA_NUM_GPU=0 ollama run llama3.2
Bağlam Penceresi Optimizasyonu
Bağlam penceresi boyutu (context window) bellek kullanımını doğrudan etkiler. İhtiyacınızdan fazla bağlam penceresi ayarlamak gereksiz bellek tüketimine neden olur.
# Ollama'da bağlam penceresi ayarı
ollama run llama3.2 --num-ctx 2048 # Kısa konuşmalar için
ollama run llama3.2 --num-ctx 8192 # Uzun belgeler için
Bellek Yönetimi İpuçları
- Kullanmadığınız uygulamaları kapatarak RAM boşaltın
- Swap/page file boyutunu artırın (SSD üzerinde en az 16 GB önerilir)
- Aynı anda birden fazla model yüklemeyin
- Flash Attention özelliğini destekleyen modelleri tercih edin
- Batch processing yapıyorsanız istekleri gruplandırın
10. Gizlilik ve Güvenlik Avantajları
Yerel AI modellerinin en önemli avantajlarından biri gizlilik ve güvenlik konusundaki üstünlükleridir:
Veri Egemenliği
Tüm veriler kendi altyapınızda kalır. Bu, özellikle aşağıdaki durumlar için kritiktir:
- Sağlık sektörü: Hasta verileri asla dışarıya gönderilemez
- Hukuk: Müvekkil bilgileri gizli kalmalıdır
- Finans: Finansal veriler ve ticari sırlar korunmalıdır
- Savunma: Gizli belgeler yerel olarak işlenmelidir
- Eğitim: Öğrenci verileri KVKK kapsamında korunmalıdır
Düzenleyici Uyum
KVKK, GDPR, HIPAA gibi veri koruma düzenlemelerine uyum sağlamak, yerel modeller kullanıldığında çok daha kolaydır. Veri işleme süreçleri tamamen sizin kontrolünüzdedir ve denetim izleri kolayca oluşturulabilir.
Ağ Güvenliği
Yerel modeller internet bağlantısı gerektirmediğinden, air-gapped (internet bağlantısı olmayan) ağlarda bile çalışabilir. Bu, yüksek güvenlik gereksinimleri olan ortamlar için büyük avantajdır.
11. API Kullanımı ve Entegrasyon
Ollama ve diğer yerel AI araçları, uygulamalarınıza entegre edebileceğiniz API'ler sunar. Ollama'nın REST API'si OpenAI formatıyla uyumludur, bu da mevcut OpenAI tabanlı uygulamaları kolayca yerelleştirmenizi sağlar.
Ollama REST API
# Temel metin üretme
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Türkiye'nin başkenti neresidir?",
"stream": false
}'
# Sohbet formatında kullanım
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{"role": "system", "content": "Sen yardımcı bir asistansın."},
{"role": "user", "content": "Python nedir?"}
],
"stream": false
}'
# OpenAI uyumlu endpoint
curl http://localhost:11434/v1/chat/completions -d '{
"model": "llama3.2",
"messages": [
{"role": "user", "content": "Merhaba!"}
]
}'
Python ile Entegrasyon
# ollama Python kütüphanesi
import ollama
# Basit sohbet
response = ollama.chat(
model='llama3.2',
messages=[
{'role': 'user', 'content': 'Merhaba, nasılsın?'}
]
)
print(response['message']['content'])
# Streaming ile yanıt alma
for chunk in ollama.chat(
model='llama3.2',
messages=[{'role': 'user', 'content': 'Bir hikaye anlat'}],
stream=True
):
print(chunk['message']['content'], end='', flush=True)
# OpenAI SDK ile kullanım (drop-in replacement)
from openai import OpenAI
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama' # herhangi bir değer olabilir
)
response = client.chat.completions.create(
model='llama3.2',
messages=[{'role': 'user', 'content': 'Merhaba!'}]
)
print(response.choices[0].message.content)
LangChain Entegrasyonu
from langchain_community.llms import Ollama
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory
llm = Ollama(model="llama3.2", temperature=0.7)
memory = ConversationBufferMemory()
chain = ConversationChain(llm=llm, memory=memory)
response = chain.predict(input="Python ile web geliştirme hakkında bilgi ver")
print(response)
12. Araçlar Arası Karşılaştırma
13. Sıkça Sorulan Sorular
Yerel AI modeli çalıştırmak için minimum ne kadar RAM gerekir?
En küçük modeller (1-3B parametre) 4 GB RAM ile çalışabilir. Ancak genel amaçlı ve kaliteli bir deneyim için en az 8 GB RAM ve 7-8B parametre bir model önerilir. 16 GB RAM, çoğu kullanıcı için rahat bir deneyim sunar.
Ollama ile hangi modelleri çalıştırabilirim?
Ollama, Llama 3, Mistral, Qwen, Gemma, Phi, CodeLlama, DeepSeek Coder, LLaVA ve daha yüzlerce modeli destekler. GGUF formatındaki herhangi bir modeli Modelfile ile içe aktarabilirsiniz. Tam liste için ollama.com/library adresini ziyaret edebilirsiniz.
Yerel modeller ChatGPT kadar iyi mi?
En büyük yerel modeller (70B+) birçok görevde GPT-3.5'e yakın veya eşit performans gösterir. GPT-4 seviyesine tam olarak ulaşmak zor olsa da, 7-8B modeller bile basit görevlerde tatmin edici sonuçlar verir. Özelleştirilmiş görevlerde fine-tuning ile çok başarılı sonuçlar elde edilebilir.
GPU olmadan yerel AI modeli çalıştırabilir miyim?
Evet, tüm araçlar CPU-only modda çalışabilir. Ancak GPU kullanmak, token üretim hızını 5-20 kat artırır. CPU'da 7B model saniyede 2-5 token üretirken, orta seviye bir GPU ile 30-80+ token üretebilirsiniz. Apple Silicon Mac'ler unified memory sayesinde CPU modda bile iyi performans gösterir.
Ollama ile LM Studio arasındaki fark nedir?
Ollama komut satırı tabanlıdır ve geliştiriciler için idealdir. Docker benzeri model yönetimi, Modelfile desteği ve güçlü API sunar. LM Studio ise görsel arayüze sahiptir, model keşfi kolaydır ve teknik bilgi gerektirmez. Geliştirme ve otomasyon için Ollama, bireysel kullanım için LM Studio tercih edilebilir.
Yerel modelleri ticari projelerimde kullanabilir miyim?
Çoğu açık kaynak model ticari kullanıma izin verir, ancak lisans koşullarını kontrol etmeniz önemlidir. Llama 3 (Meta Community License), Mistral (Apache 2.0), Qwen (Apache 2.0/özel) ve Gemma (Google'ın lisansı) farklı koşullar sunar. Her modelin lisans sayfasını incelemenizi öneririz.
Birden fazla modeli aynı anda çalıştırabilir miyim?
Evet, yeterli RAM ve GPU belleğiniz varsa birden fazla model yükleyebilirsiniz. Ollama, talep üzerine modelleri yükler ve belirli bir süre kullanılmazsa bellekten kaldırır. Ancak her model için ayrı bellek ayrılacağını unutmayın. 7B model yaklaşık 4-6 GB bellek kullanır.
Sonuç
Yerel AI modelleri, yapay zeka teknolojisinin demokratikleşmesinde kritik bir rol oynuyor. Ollama, LM Studio, GPT4All ve diğer araçlar sayesinde güçlü dil modellerini kendi bilgisayarınızda çalıştırmak artık herkesin erişebileceği bir imkan haline geldi.
Gizlilik, maliyet kontrolü, çevrimdışı erişim ve tam özelleştirme imkanı sunan yerel modeller, hem bireysel geliştiriciler hem de kurumsal kullanıcılar için vazgeçilmez araçlardır. Doğru donanım ve model seçimi ile yerel AI deneyiminizi optimize edebilir, verilerinizi güvende tutarak yapay zekanın gücünden tam olarak yararlanabilirsiniz.