Skip to main content
Yapay Zeka

Doğal Dil İşleme (NLP): Tokenization, NER, Duygu Analizi, Transformers, BERT ve GPT Rehberi

March 29, 2026 5 min read 1 views Raw
Also available in: en
Doğal dil işleme ve yapay zeka arayüzü
Table of Contents

Doğal Dil İşleme Nedir?

Doğal Dil İşleme (Natural Language Processing - NLP), bilgisayarların insan dilini anlama, yorumlama ve üretme yeteneğini geliştiren yapay zeka dalıdır. Dilbilim, bilgisayar bilimi ve makine öğrenmesinin kesişim noktasında yer alan NLP, günümüzün en heyecan verici ve hızla gelişen teknoloji alanlarından biridir.

Sesli asistanlardan (Siri, Alexa, Google Assistant) otomatik çeviri sistemlerine, spam filtrelerinden chatbot'lara, arama motorlarından metin özetleme araçlarına kadar NLP her yerdedir. Bu rehberde, NLP'nin temel kavramlarını ve modern yaklaşımlarını derinlemesine inceleyeceğiz.

NLP'nin Temel Yapı Taşları

Dil Modellerinin Evrimi

NLP tarihsel olarak üç ana döneme ayrılır:

  1. Kural tabanlı dönem (1950-1990): El yazımı dilbilgisi kuralları ve sözlükler kullanılırdı.
  2. İstatistiksel dönem (1990-2010): N-gram modelleri, Hidden Markov Models (HMM) ve olasılıksal yaklaşımlar hakimdi.
  3. Derin öğrenme dönemi (2010-günümüz): RNN, LSTM, Transformer mimarileri ve büyük dil modelleri çağı.

1. Tokenization (Belirteçleme)

Tokenization Nedir?

Tokenization, ham metni daha küçük, işlenebilir birimlere (token) ayırma sürecidir. NLP pipeline'ının ilk ve en temel adımıdır. Token'lar kelimeler, alt kelimeler, karakterler veya cümleler olabilir.

Tokenization Türleri

  • Kelime düzeyinde (Word-level): Metni boşluklara ve noktalama işaretlerine göre kelimelere ayırır. Basit ama sözlük dışı kelimelerde (OOV) sorun yaşar.
  • Alt kelime düzeyinde (Subword-level): Byte Pair Encoding (BPE), WordPiece ve SentencePiece gibi algoritmalar kullanır. Modern dil modellerinin tercihi.
  • Karakter düzeyinde (Character-level): Her karakteri ayrı bir token olarak ele alır. OOV sorunu yoktur ama dizi uzunluğu artar.
  • Cümle düzeyinde (Sentence-level): Metni cümlelere ayırır. Metin özetleme ve sınıflandırma görevlerinde kullanılır.

Tokenization Karşılaştırması

YöntemAvantajDezavantajKullanıldığı Model
BPEOOV sorunu azEğitim verisi gerekirGPT, RoBERTa
WordPieceAlt kelime hassasiyetiKarmaşık uygulamaBERT
SentencePieceDil bağımsızAyar hassasiyetiT5, ALBERT
UnigramOlasılıksal yaklaşımEğitim maliyetiXLNet

2. Named Entity Recognition (NER) - Adlandırılmış Varlık Tanıma

NER Nedir?

NER, metin içindeki adlandırılmış varlıkları (kişi isimleri, kuruluşlar, konumlar, tarihler, parasal değerler vb.) tanımlayan ve sınıflandıran NLP görevidir. Bilgi çıkarma, soru yanıtlama ve metin analizi sistemlerinin temel bileşenidir.

NER Varlık Kategorileri

  • PER (Person): Kişi isimleri - "Mustafa Kemal Atatürk", "Albert Einstein"
  • ORG (Organization): Kuruluşlar - "Google", "Birleşmiş Milletler"
  • LOC (Location): Konumlar - "İstanbul", "Alpler"
  • DATE: Tarihler - "29 Ekim 1923", "geçen yıl"
  • MONEY: Parasal ifadeler - "500 TL", "1 milyon dolar"

NER Yaklaşımları

  1. Kural tabanlı: Düzenli ifadeler ve sözlükler kullanır. Basit ama sınırlı.
  2. İstatistiksel: CRF (Conditional Random Fields) ve HMM kullanır.
  3. Derin öğrenme: BiLSTM-CRF, Transformer tabanlı modeller. En yüksek doğruluk.
  4. Transfer öğrenme: Önceden eğitilmiş modellerin (BERT, SpaCy) ince ayarı.

3. Duygu Analizi (Sentiment Analysis)

Duygu Analizi Nedir?

Duygu analizi, metin içindeki duyguları, tutumları ve görüşleri otomatik olarak tespit eden NLP görevidir. Müşteri geri bildirimlerinin değerlendirilmesi, marka algısı izleme ve pazar araştırması gibi alanlarda yaygın olarak kullanılır.

Duygu Analizi Türleri

  • Polarite analizi: Metni pozitif, negatif veya nötr olarak sınıflandırır.
  • Duygu yoğunluğu: Duygunun şiddetini ölçer (çok pozitif, hafif negatif, vb.).
  • Aspect-based analiz: Bir ürünün farklı özelliklerine yönelik duyguları ayrı ayrı analiz eder.
  • Çok sınıflı duygu: Mutluluk, üzüntü, öfke, korku, şaşkınlık gibi spesifik duyguları tanır.

Duygu Analizi Zorlukları

İroni, alaycılık ve çift anlamlı ifadeler duygu analizinin en büyük zorluklarıdır. "Harika, yine mi bozuldu!" gibi alaycı cümlelerde kelime düzeyinde pozitif görünen ifade aslında negatiftir. Bu sorunları çözmek için bağlamsal dil modelleri (BERT, GPT) kritik öneme sahiptir.

4. Transformer Mimarisi

Transformer Nedir?

Transformer, 2017 yılında Google tarafından "Attention Is All You Need" makalesinde tanıtılan devrim niteliğinde bir sinir ağı mimarisidir. RNN ve LSTM'lerin sıralı işleme kısıtlamalarını ortadan kaldırarak paralel hesaplama imkanı sunar.

Transformer'ın Temel Bileşenleri

  1. Self-Attention mekanizması: Bir dizideki her elemanın diğer tüm elemanlarla ilişkisini hesaplar.
  2. Multi-Head Attention: Birden fazla attention başlığı ile farklı ilişki türlerini yakalar.
  3. Positional Encoding: Sıra bilgisini modele ekler (RNN'de olduğu gibi doğal sıralama olmadığından).
  4. Feed-Forward Networks: Her attention katmanından sonra uygulanan tam bağlantılı ağlar.
  5. Layer Normalization: Eğitim sürecini stabilize eder.

Transformer Etkisi

Transformer mimarisi, NLP alanında paradigma değişimi yaratmıştır. BERT, GPT, T5, PaLM ve Claude gibi tüm modern büyük dil modelleri Transformer tabanlıdır.

5. BERT (Bidirectional Encoder Representations from Transformers)

BERT Nasıl Çalışır?

BERT, Google tarafından 2018'de geliştirilen çift yönlü Transformer modelidir. Bir kelimenin anlamını hem solundaki hem sağındaki bağlama bakarak çıkarır. İki aşamalı bir yaklaşım kullanır:

  • Ön eğitim (Pre-training): Masked Language Modeling (MLM) ve Next Sentence Prediction (NSP) görevleriyle büyük metin külliyatlarında eğitilir.
  • İnce ayar (Fine-tuning): Belirli görevler için (NER, duygu analizi, soru yanıtlama) az veriyle uyarlanır.

BERT Varyantları

ModelParametreÖzellik
BERT-Base110M12 katman, 768 gizli birim
BERT-Large340M24 katman, 1024 gizli birim
DistilBERT66MBERT'in %97 performansı, %40 daha hızlı
RoBERTa355MDaha uzun eğitim, NSP kaldırılmış
BERTurk110MTürkçe BERT modeli

6. GPT (Generative Pre-trained Transformer)

GPT Serisi

GPT, OpenAI tarafından geliştirilen otoregresif dil modelidir. BERT'ten farklı olarak yalnızca soldan sağa (tek yönlü) çalışır ve metin üretiminde uzmanlaşmıştır.

GPT Evrim Süreci

  1. GPT-1 (2018): 117M parametre. Transfer öğrenmenin NLP'deki gücünü kanıtladı.
  2. GPT-2 (2019): 1.5B parametre. "Too dangerous to release" tartışmasını başlattı.
  3. GPT-3 (2020): 175B parametre. Few-shot learning yetenekleriyle devrim yarattı.
  4. GPT-4 (2023): Multimodal yetenek, gelişmiş akıl yürütme kapasitesi.

BERT vs GPT Karşılaştırması

ÖzellikBERTGPT
YönÇift yönlüTek yönlü (soldan sağa)
Güçlü olduğu alanAnlama görevleriÜretme görevleri
Eğitim göreviMLM + NSPNext token prediction
Kullanım alanıNER, sınıflandırma, QAMetin üretimi, sohbet, özetleme

NLP'nin Geleceği

NLP alanı hızla gelişmeye devam etmektedir. Multimodal modeller (metin + görüntü + ses), daha verimli eğitim teknikleri, düşük kaynaklı diller için çözümler ve yapay genel zekanın (AGI) temelleri NLP araştırmalarının odak noktalarıdır. Türkçe NLP ekosistemi de BERTurk, Turkish-NLP ve çeşitli üniversite projeleriyle güçlenmektedir.

Sonuç

Doğal dil işleme, yapay zekanın en etkileyici uygulama alanlarından biridir. Tokenization ile metni parçalar, NER ile varlıkları tanır, duygu analizi ile görüşleri ölçer, Transformer mimarisi ile paralel işlem gücü kazanır, BERT ile derin anlama sağlar ve GPT ile akıcı metin üretiriz. Bu teknolojilerin birleşimi, insan-bilgisayar etkileşimini temelden dönüştürmeye devam etmektedir.

Share this post