Skip to main content
Yapay Zeka ve Yazılım

Yerel AI Modelleri Çalıştırma: Ollama ve Alternatifleri

March 06, 2026 11 min read 49 views Raw
Yerel AI modelleri çalıştırmak için kullanılan sunucu donanımı
Table of Contents

Yapay zeka modelleri artık sadece büyük teknoloji şirketlerinin sunucularında çalışmak zorunda değil. Yerel AI modelleri, kendi bilgisayarınızda tamamen çevrimdışı çalışabilen, verilerinizi dışarıya göndermeden kullanabileceğiniz güçlü dil modelleridir. 2026 yılı itibarıyla bu alan muazzam bir hızla gelişiyor ve artık orta seviye bir bilgisayar bile ciddi yapay zeka modelleri çalıştırabiliyor.

Bu rehberde, yerel AI modellerini çalıştırmanın en popüler yollarını, başta Ollama olmak üzere tüm alternatifleri detaylıca inceleyeceğiz. Donanım gereksinimlerinden performans optimizasyonuna, model seçiminden API entegrasyonuna kadar bilmeniz gereken her şeyi bulacaksınız.

1. Yerel AI Modelleri Neden Önemli?

Bulut tabanlı AI servisleri güçlü ve kullanışlı olsa da birçok senaryoda yerel çalıştırma büyük avantajlar sunar. İşte yerel AI modellerinin öne çıkmasının temel nedenleri:

Veri Gizliliği ve Güvenlik

Verileriniz bilgisayarınızdan asla çıkmaz. Hassas kurumsal veriler, kişisel bilgiler veya gizli projeler üzerinde çalışırken bu kritik önem taşır. KVKK ve GDPR gibi düzenlemelere uyum sağlamak da yerel modeller sayesinde çok daha kolaydır.

Maliyet Kontrolü

Bulut API'leri token başına ücretlendirilir ve yoğun kullanımda maliyetler hızla artar. Yerel modeller ise bir kez donanım yatırımı yaptıktan sonra sınırsız kullanım imkanı sunar. Özellikle geliştirme ve test süreçlerinde bu fark ciddi tasarruf sağlar.

Çevrimdışı Erişim

İnternet bağlantısı olmadan bile AI modellerinizi kullanabilirsiniz. Seyahatte, güvenlik kısıtlamalı ağlarda veya internet altyapısının zayıf olduğu bölgelerde bu özellik hayat kurtarır.

Tam Kontrol ve Özelleştirme

Model parametrelerini, prompt şablonlarını ve çıktı formatlarını tamamen kendiniz belirlersiniz. Fine-tuning yapabilir, modelleri kendi veri setlerinizle eğitebilir ve ihtiyaçlarınıza özel çözümler oluşturabilirsiniz.

💡 Bilgi

2026 yılında açık kaynak LLM'ler, birçok görevde ticari modellere yakın performans göstermektedir. Llama 3, Mistral ve Qwen gibi modeller yerel çalıştırma için optimize edilmiştir.

2. Ollama Nedir ve Nasıl Çalışır?

Ollama, büyük dil modellerini (LLM) yerel bilgisayarınızda kolayca çalıştırmanızı sağlayan açık kaynaklı bir araçtır. Docker'ın konteyner yönetimi mantığına benzer şekilde, AI modellerini indirme, yönetme ve çalıştırma süreçlerini basitleştirir.

Ollama'nın temel çalışma prensibi şu şekildedir:

  • Model Kataloğu: Yüzlerce önceden yapılandırılmış model sunar
  • Otomatik Quantization: Modelleri donanımınıza uygun formata dönüştürür
  • REST API: Standart HTTP API üzerinden erişim sağlar
  • GPU Hızlandırma: NVIDIA, AMD ve Apple Silicon GPU desteği sunar
  • Modelfile: Dockerfile benzeri yapılandırma dosyaları ile özel modeller oluşturabilirsiniz

Ollama, arka planda llama.cpp kütüphanesini kullanır. Bu, C++ ile yazılmış ve GGUF formatındaki modelleri son derece verimli şekilde çalıştıran bir çıkarım motorudur. Ollama, bu karmaşık altyapıyı basit komut satırı arayüzüyle sarar.

3. Ollama Kurulum ve Kullanım Rehberi

Kurulum

Ollama'yı işletim sisteminize göre aşağıdaki yöntemlerle kurabilirsiniz:

macOS ve Windows:

# Resmi web sitesinden indirin # https://ollama.com/download # macOS için Homebrew ile de kurulabilir brew install ollama

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Docker:

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama # GPU desteği ile (NVIDIA) docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Temel Komutlar

# Model indirme ve çalıştırma ollama run llama3.2 # Sadece model indirme ollama pull mistral # Mevcut modelleri listeleme ollama list # Model bilgilerini görüntüleme ollama show llama3.2 # Çalışan modelleri görme ollama ps # Model silme ollama rm mistral # Belirli bir model boyutu ile çalıştırma ollama run llama3.2:7b ollama run llama3.2:13b

Özel Model Oluşturma (Modelfile)

Ollama'nın en güçlü özelliklerinden biri Modelfile ile özel modeller oluşturabilmenizdir:

# Modelfile örneği FROM llama3.2 # Sistem promptu ayarlama SYSTEM """ Sen Türkçe konuşan bir yazılım asistanısın. Her zaman açık ve anlaşılır yanıtlar ver. Kod örnekleri verirken yorumları Türkçe yaz. """ # Parametre ayarları PARAMETER temperature 0.7 PARAMETER top_p 0.9 PARAMETER num_ctx 4096 PARAMETER stop "<|end|>"
# Özel modeli oluşturma ve çalıştırma ollama create turkce-asistan -f Modelfile ollama run turkce-asistan

4. LM Studio: Görsel Arayüzlü Alternatif

LM Studio, komut satırı kullanmak istemeyenler için mükemmel bir alternatiftir. Şık bir masaüstü uygulaması üzerinden modelleri keşfedebilir, indirebilir ve sohbet edebilirsiniz.

LM Studio'nun Öne Çıkan Özellikleri

  • Görsel Model Keşfi: Hugging Face entegrasyonu ile binlerce modeli arayüzden arayabilirsiniz
  • Sohbet Arayüzü: ChatGPT benzeri kullanıcı dostu arayüz
  • Çoklu Model Desteği: GGUF, GGML ve diğer formatları destekler
  • Yerel Sunucu: OpenAI uyumlu API sunucusu başlatabilirsiniz
  • Parametre Kontrolü: Temperature, top_p, max tokens gibi parametreleri görsel olarak ayarlayabilirsiniz
  • Çapraz Platform: Windows, macOS ve Linux desteği

LM Studio'yu lmstudio.ai adresinden ücretsiz olarak indirebilirsiniz. Kurulum süreci oldukça basittir - indirin, kurun ve kullanmaya başlayın.

✅ İpucu

LM Studio, özellikle AI dünyasına yeni giren kullanıcılar için idealdir. Komut satırı bilgisi gerektirmeden güçlü modelleri deneyimlemenizi sağlar.

5. GPT4All: Herkes İçin Yerel AI

GPT4All, Nomic AI tarafından geliştirilen ve herkesin kullanabileceği şekilde tasarlanmış bir yerel AI platformudur. Adından da anlaşılacağı gibi, "herkes için GPT" vizyonuyla yola çıkmıştır.

GPT4All'ın Temel Özellikleri

  • LocalDocs: Kendi belgelerinizi yükleyip onlar hakkında soru sorabilirsiniz (RAG desteği)
  • Hafif Modeller: 4-8 GB RAM ile çalışabilen optimize modeller sunar
  • Python SDK: Programatik erişim için kapsamlı Python kütüphanesi
  • Gizlilik Odaklı: Hiçbir veri dışarıya gönderilmez
  • Kurumsal Kullanım: Ticari lisans seçenekleri mevcuttur
# GPT4All Python SDK kullanımı from gpt4all import GPT4All model = GPT4All("Meta-Llama-3-8B-Instruct.Q4_0.gguf") with model.chat_session(): response = model.generate( "Python ile basit bir web scraper yaz", max_tokens=1024, temp=0.7 ) print(response)

6. Diğer Önemli Alternatifler

llama.cpp

Ollama'nın da altyapısında kullandığı llama.cpp, C/C++ ile yazılmış yüksek performanslı bir çıkarım motorudur. Doğrudan kullanmak daha fazla teknik bilgi gerektirir ancak maksimum kontrol ve performans sağlar. CUDA, Metal, Vulkan ve OpenCL GPU hızlandırma desteği sunar.

Jan

Jan, açık kaynaklı ve gizlilik odaklı bir ChatGPT alternatifidir. Tamamen çevrimdışı çalışır, güzel bir masaüstü arayüzüne sahiptir ve eklenti sistemiyle genişletilebilir. OpenAI uyumlu API sunucusu da sunar.

Koboldcpp

Özellikle yaratıcı yazarlık ve rol yapma senaryoları için optimize edilmiş bir araçtır. llama.cpp tabanlıdır ve web tarayıcı arayüzü ile gelir. Uzun bağlam penceresi desteği ve karakter kartları gibi özellikleri ile yaratıcı kullanım senaryolarında öne çıkar.

vLLM

Yüksek performanslı model sunumu için tasarlanmış vLLM, özellikle üretim ortamları için idealdir. PagedAttention algoritması ile bellek verimliliği sağlar ve eşzamanlı birden fazla isteği hızla işleyebilir.

7. Donanım Gereksinimleri

Yerel AI modelleri çalıştırmak için gereken donanım, kullanmak istediğiniz modelin boyutuna bağlıdır. İşte genel yönergeler:

Model Boyutu Min. RAM Önerilen GPU VRAM Kullanım Alanı
1-3B (Q4) 4 GB 2 GB Basit görevler, chatbot
7-8B (Q4) 8 GB 6 GB Genel amaçlı, kod yazma
13B (Q4) 16 GB 10 GB Gelişmiş analiz, çeviri
30-34B (Q4) 32 GB 24 GB Profesyonel kullanım
70B+ (Q4) 64 GB 48 GB+ Kurumsal, araştırma

GPU Seçimi

GPU, yerel AI performansını en çok etkileyen bileşendir. İşte platform bazında öneriler:

  • NVIDIA: RTX 3060 (12GB) giriş seviyesi için ideal. RTX 4090 (24GB) profesyonel kullanım için en iyi seçenek. CUDA desteği en olgun ekosisteme sahiptir.
  • AMD: RX 7900 XTX (24GB) ROCm desteği ile güçlü performans sunar. Linux'ta daha iyi desteklenir.
  • Apple Silicon: M2 Pro/Max ve M3 serisi, unified memory mimarisi sayesinde büyük modelleri verimli çalıştırır. Metal API desteği mükemmeldir.

⚠️ Uyarı

GPU olmadan da model çalıştırabilirsiniz (CPU-only), ancak hız önemli ölçüde düşer. 7B modeller CPU'da saniyede 2-5 token üretirken, GPU'da 30-80+ token üretebilir.

8. Model Seçimi Rehberi

Doğru modeli seçmek, yerel AI deneyiminizin kalitesini doğrudan belirler. İşte kullanım senaryolarına göre öneriler:

Kullanım Senaryosu Önerilen Model Boyut
Genel sohbet Llama 3.2 8B
Kod yazma DeepSeek Coder V2, Codestral 7-33B
Türkçe metin Qwen 2.5, Gemma 2 7-27B
Matematik ve mantık Qwen 2.5 Math, Mistral 7-72B
Yaratıcı yazarlık Mistral, Llama 3.2 8-70B
Görüntü anlama LLaVA, Llama 3.2 Vision 7-13B

Quantization Seviyeleri

Modeller farklı quantization seviyelerinde sunulur. Bu, modelin boyutunu ve kalitesini etkiler:

  • Q2_K: En küçük, en düşük kalite - sadece test amaçlı
  • Q4_K_M: En popüler denge noktası - çoğu kullanım için önerilir
  • Q5_K_M: Daha yüksek kalite, biraz daha fazla bellek
  • Q6_K: Neredeyse tam kalite
  • Q8_0: Pratik olarak kayıpsız, en büyük boyut

9. Performans Optimizasyonu

Yerel AI modellerinden maksimum performans almak için aşağıdaki optimizasyon stratejilerini uygulayabilirsiniz:

GPU Katman Ayarları

Modelin kaç katmanının GPU'da çalışacağını ayarlayarak performansı optimize edebilirsiniz. Tüm katmanlar GPU'ya sığmıyorsa, bir kısmını CPU'da çalıştırabilirsiniz.

# Ollama'da GPU katman sayısını ayarlama OLLAMA_NUM_GPU=35 ollama run llama3.2 # Tüm katmanları GPU'da çalıştırma OLLAMA_NUM_GPU=999 ollama run llama3.2 # Sadece CPU kullanma OLLAMA_NUM_GPU=0 ollama run llama3.2

Bağlam Penceresi Optimizasyonu

Bağlam penceresi boyutu (context window) bellek kullanımını doğrudan etkiler. İhtiyacınızdan fazla bağlam penceresi ayarlamak gereksiz bellek tüketimine neden olur.

# Ollama'da bağlam penceresi ayarı ollama run llama3.2 --num-ctx 2048 # Kısa konuşmalar için ollama run llama3.2 --num-ctx 8192 # Uzun belgeler için

Bellek Yönetimi İpuçları

  • Kullanmadığınız uygulamaları kapatarak RAM boşaltın
  • Swap/page file boyutunu artırın (SSD üzerinde en az 16 GB önerilir)
  • Aynı anda birden fazla model yüklemeyin
  • Flash Attention özelliğini destekleyen modelleri tercih edin
  • Batch processing yapıyorsanız istekleri gruplandırın

10. Gizlilik ve Güvenlik Avantajları

Yerel AI modellerinin en önemli avantajlarından biri gizlilik ve güvenlik konusundaki üstünlükleridir:

Veri Egemenliği

Tüm veriler kendi altyapınızda kalır. Bu, özellikle aşağıdaki durumlar için kritiktir:

  • Sağlık sektörü: Hasta verileri asla dışarıya gönderilemez
  • Hukuk: Müvekkil bilgileri gizli kalmalıdır
  • Finans: Finansal veriler ve ticari sırlar korunmalıdır
  • Savunma: Gizli belgeler yerel olarak işlenmelidir
  • Eğitim: Öğrenci verileri KVKK kapsamında korunmalıdır

Düzenleyici Uyum

KVKK, GDPR, HIPAA gibi veri koruma düzenlemelerine uyum sağlamak, yerel modeller kullanıldığında çok daha kolaydır. Veri işleme süreçleri tamamen sizin kontrolünüzdedir ve denetim izleri kolayca oluşturulabilir.

Ağ Güvenliği

Yerel modeller internet bağlantısı gerektirmediğinden, air-gapped (internet bağlantısı olmayan) ağlarda bile çalışabilir. Bu, yüksek güvenlik gereksinimleri olan ortamlar için büyük avantajdır.

11. API Kullanımı ve Entegrasyon

Ollama ve diğer yerel AI araçları, uygulamalarınıza entegre edebileceğiniz API'ler sunar. Ollama'nın REST API'si OpenAI formatıyla uyumludur, bu da mevcut OpenAI tabanlı uygulamaları kolayca yerelleştirmenizi sağlar.

Ollama REST API

# Temel metin üretme curl http://localhost:11434/api/generate -d '{ "model": "llama3.2", "prompt": "Türkiye'nin başkenti neresidir?", "stream": false }' # Sohbet formatında kullanım curl http://localhost:11434/api/chat -d '{ "model": "llama3.2", "messages": [ {"role": "system", "content": "Sen yardımcı bir asistansın."}, {"role": "user", "content": "Python nedir?"} ], "stream": false }' # OpenAI uyumlu endpoint curl http://localhost:11434/v1/chat/completions -d '{ "model": "llama3.2", "messages": [ {"role": "user", "content": "Merhaba!"} ] }'

Python ile Entegrasyon

# ollama Python kütüphanesi import ollama # Basit sohbet response = ollama.chat( model='llama3.2', messages=[ {'role': 'user', 'content': 'Merhaba, nasılsın?'} ] ) print(response['message']['content']) # Streaming ile yanıt alma for chunk in ollama.chat( model='llama3.2', messages=[{'role': 'user', 'content': 'Bir hikaye anlat'}], stream=True ): print(chunk['message']['content'], end='', flush=True) # OpenAI SDK ile kullanım (drop-in replacement) from openai import OpenAI client = OpenAI( base_url='http://localhost:11434/v1', api_key='ollama' # herhangi bir değer olabilir ) response = client.chat.completions.create( model='llama3.2', messages=[{'role': 'user', 'content': 'Merhaba!'}] ) print(response.choices[0].message.content)

LangChain Entegrasyonu

from langchain_community.llms import Ollama from langchain.chains import ConversationChain from langchain.memory import ConversationBufferMemory llm = Ollama(model="llama3.2", temperature=0.7) memory = ConversationBufferMemory() chain = ConversationChain(llm=llm, memory=memory) response = chain.predict(input="Python ile web geliştirme hakkında bilgi ver") print(response)

12. Araçlar Arası Karşılaştırma

Özellik Ollama LM Studio GPT4All Jan
Arayüz CLI GUI GUI GUI
API Desteği
Açık Kaynak Kısmen
RAG Desteği Harici Harici Yerleşik Eklenti
Docker Desteği
Modelfile
Kullanım Kolaylığı ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐

13. Sıkça Sorulan Sorular

Yerel AI modeli çalıştırmak için minimum ne kadar RAM gerekir?

En küçük modeller (1-3B parametre) 4 GB RAM ile çalışabilir. Ancak genel amaçlı ve kaliteli bir deneyim için en az 8 GB RAM ve 7-8B parametre bir model önerilir. 16 GB RAM, çoğu kullanıcı için rahat bir deneyim sunar.

Ollama ile hangi modelleri çalıştırabilirim?

Ollama, Llama 3, Mistral, Qwen, Gemma, Phi, CodeLlama, DeepSeek Coder, LLaVA ve daha yüzlerce modeli destekler. GGUF formatındaki herhangi bir modeli Modelfile ile içe aktarabilirsiniz. Tam liste için ollama.com/library adresini ziyaret edebilirsiniz.

Yerel modeller ChatGPT kadar iyi mi?

En büyük yerel modeller (70B+) birçok görevde GPT-3.5'e yakın veya eşit performans gösterir. GPT-4 seviyesine tam olarak ulaşmak zor olsa da, 7-8B modeller bile basit görevlerde tatmin edici sonuçlar verir. Özelleştirilmiş görevlerde fine-tuning ile çok başarılı sonuçlar elde edilebilir.

GPU olmadan yerel AI modeli çalıştırabilir miyim?

Evet, tüm araçlar CPU-only modda çalışabilir. Ancak GPU kullanmak, token üretim hızını 5-20 kat artırır. CPU'da 7B model saniyede 2-5 token üretirken, orta seviye bir GPU ile 30-80+ token üretebilirsiniz. Apple Silicon Mac'ler unified memory sayesinde CPU modda bile iyi performans gösterir.

Ollama ile LM Studio arasındaki fark nedir?

Ollama komut satırı tabanlıdır ve geliştiriciler için idealdir. Docker benzeri model yönetimi, Modelfile desteği ve güçlü API sunar. LM Studio ise görsel arayüze sahiptir, model keşfi kolaydır ve teknik bilgi gerektirmez. Geliştirme ve otomasyon için Ollama, bireysel kullanım için LM Studio tercih edilebilir.

Yerel modelleri ticari projelerimde kullanabilir miyim?

Çoğu açık kaynak model ticari kullanıma izin verir, ancak lisans koşullarını kontrol etmeniz önemlidir. Llama 3 (Meta Community License), Mistral (Apache 2.0), Qwen (Apache 2.0/özel) ve Gemma (Google'ın lisansı) farklı koşullar sunar. Her modelin lisans sayfasını incelemenizi öneririz.

Birden fazla modeli aynı anda çalıştırabilir miyim?

Evet, yeterli RAM ve GPU belleğiniz varsa birden fazla model yükleyebilirsiniz. Ollama, talep üzerine modelleri yükler ve belirli bir süre kullanılmazsa bellekten kaldırır. Ancak her model için ayrı bellek ayrılacağını unutmayın. 7B model yaklaşık 4-6 GB bellek kullanır.

Sonuç

Yerel AI modelleri, yapay zeka teknolojisinin demokratikleşmesinde kritik bir rol oynuyor. Ollama, LM Studio, GPT4All ve diğer araçlar sayesinde güçlü dil modellerini kendi bilgisayarınızda çalıştırmak artık herkesin erişebileceği bir imkan haline geldi.

Gizlilik, maliyet kontrolü, çevrimdışı erişim ve tam özelleştirme imkanı sunan yerel modeller, hem bireysel geliştiriciler hem de kurumsal kullanıcılar için vazgeçilmez araçlardır. Doğru donanım ve model seçimi ile yerel AI deneyiminizi optimize edebilir, verilerinizi güvende tutarak yapay zekanın gücünden tam olarak yararlanabilirsiniz.

Share this post