Doğal Dil İşleme (NLP): Tokenization, NER, Duygu Analizi, BERT ve GPT Rehberi

Doğal Dil İşleme Nedir?

Doğal Dil İşleme (Natural Language Processing - NLP), bilgisayarların insan dilini anlama, yorumlama ve üretme yeteneğini geliştiren yapay zeka dalıdır. Dilbilim, bilgisayar bilimi ve makine öğrenmesinin kesişim noktasında yer alan NLP, günümüzün en heyecan verici ve hızla gelişen teknoloji alanlarından biridir.

Sesli asistanlardan (Siri, Alexa, Google Assistant) otomatik çeviri sistemlerine, spam filtrelerinden chatbot'lara, arama motorlarından metin özetleme araçlarına kadar NLP her yerdedir. Bu rehberde, NLP'nin temel kavramlarını ve modern yaklaşımlarını derinlemesine inceleyeceğiz.

NLP'nin Temel Yapı Taşları

Dil Modellerinin Evrimi

NLP tarihsel olarak üç ana döneme ayrılır:

Kural tabanlı dönem (1950-1990): El yazımı dilbilgisi kuralları ve sözlükler kullanılırdı.
İstatistiksel dönem (1990-2010): N-gram modelleri, Hidden Markov Models (HMM) ve olasılıksal yaklaşımlar hakimdi.
Derin öğrenme dönemi (2010-günümüz): RNN, LSTM, Transformer mimarileri ve büyük dil modelleri çağı.

1. Tokenization (Belirteçleme)

Tokenization Nedir?

Tokenization, ham metni daha küçük, işlenebilir birimlere (token) ayırma sürecidir. NLP pipeline'ının ilk ve en temel adımıdır. Token'lar kelimeler, alt kelimeler, karakterler veya cümleler olabilir.

Tokenization Türleri

Kelime düzeyinde (Word-level): Metni boşluklara ve noktalama işaretlerine göre kelimelere ayırır. Basit ama sözlük dışı kelimelerde (OOV) sorun yaşar.
Alt kelime düzeyinde (Subword-level): Byte Pair Encoding (BPE), WordPiece ve SentencePiece gibi algoritmalar kullanır. Modern dil modellerinin tercihi.
Karakter düzeyinde (Character-level): Her karakteri ayrı bir token olarak ele alır. OOV sorunu yoktur ama dizi uzunluğu artar.
Cümle düzeyinde (Sentence-level): Metni cümlelere ayırır. Metin özetleme ve sınıflandırma görevlerinde kullanılır.

Tokenization Karşılaştırması

Yöntem	Avantaj	Dezavantaj	Kullanıldığı Model
BPE	OOV sorunu az	Eğitim verisi gerekir	GPT, RoBERTa
WordPiece	Alt kelime hassasiyeti	Karmaşık uygulama	BERT
SentencePiece	Dil bağımsız	Ayar hassasiyeti	T5, ALBERT
Unigram	Olasılıksal yaklaşım	Eğitim maliyeti	XLNet

2. Named Entity Recognition (NER) - Adlandırılmış Varlık Tanıma

NER Nedir?

NER, metin içindeki adlandırılmış varlıkları (kişi isimleri, kuruluşlar, konumlar, tarihler, parasal değerler vb.) tanımlayan ve sınıflandıran NLP görevidir. Bilgi çıkarma, soru yanıtlama ve metin analizi sistemlerinin temel bileşenidir.

NER Varlık Kategorileri

PER (Person): Kişi isimleri - "Mustafa Kemal Atatürk", "Albert Einstein"
ORG (Organization): Kuruluşlar - "Google", "Birleşmiş Milletler"
LOC (Location): Konumlar - "İstanbul", "Alpler"
DATE: Tarihler - "29 Ekim 1923", "geçen yıl"
MONEY: Parasal ifadeler - "500 TL", "1 milyon dolar"

NER Yaklaşımları

Kural tabanlı: Düzenli ifadeler ve sözlükler kullanır. Basit ama sınırlı.
İstatistiksel: CRF (Conditional Random Fields) ve HMM kullanır.
Derin öğrenme: BiLSTM-CRF, Transformer tabanlı modeller. En yüksek doğruluk.
Transfer öğrenme: Önceden eğitilmiş modellerin (BERT, SpaCy) ince ayarı.

3. Duygu Analizi (Sentiment Analysis)

Duygu Analizi Nedir?

Duygu analizi, metin içindeki duyguları, tutumları ve görüşleri otomatik olarak tespit eden NLP görevidir. Müşteri geri bildirimlerinin değerlendirilmesi, marka algısı izleme ve pazar araştırması gibi alanlarda yaygın olarak kullanılır.

Duygu Analizi Türleri

Polarite analizi: Metni pozitif, negatif veya nötr olarak sınıflandırır.
Duygu yoğunluğu: Duygunun şiddetini ölçer (çok pozitif, hafif negatif, vb.).
Aspect-based analiz: Bir ürünün farklı özelliklerine yönelik duyguları ayrı ayrı analiz eder.
Çok sınıflı duygu: Mutluluk, üzüntü, öfke, korku, şaşkınlık gibi spesifik duyguları tanır.

Duygu Analizi Zorlukları

İroni, alaycılık ve çift anlamlı ifadeler duygu analizinin en büyük zorluklarıdır. "Harika, yine mi bozuldu!" gibi alaycı cümlelerde kelime düzeyinde pozitif görünen ifade aslında negatiftir. Bu sorunları çözmek için bağlamsal dil modelleri (BERT, GPT) kritik öneme sahiptir.

4. Transformer Mimarisi

Transformer Nedir?

Transformer, 2017 yılında Google tarafından "Attention Is All You Need" makalesinde tanıtılan devrim niteliğinde bir sinir ağı mimarisidir. RNN ve LSTM'lerin sıralı işleme kısıtlamalarını ortadan kaldırarak paralel hesaplama imkanı sunar.

Transformer'ın Temel Bileşenleri

Self-Attention mekanizması: Bir dizideki her elemanın diğer tüm elemanlarla ilişkisini hesaplar.
Multi-Head Attention: Birden fazla attention başlığı ile farklı ilişki türlerini yakalar.
Positional Encoding: Sıra bilgisini modele ekler (RNN'de olduğu gibi doğal sıralama olmadığından).
Feed-Forward Networks: Her attention katmanından sonra uygulanan tam bağlantılı ağlar.
Layer Normalization: Eğitim sürecini stabilize eder.

Transformer Etkisi

Transformer mimarisi, NLP alanında paradigma değişimi yaratmıştır. BERT, GPT, T5, PaLM ve Claude gibi tüm modern büyük dil modelleri Transformer tabanlıdır.

5. BERT (Bidirectional Encoder Representations from Transformers)

BERT Nasıl Çalışır?

BERT, Google tarafından 2018'de geliştirilen çift yönlü Transformer modelidir. Bir kelimenin anlamını hem solundaki hem sağındaki bağlama bakarak çıkarır. İki aşamalı bir yaklaşım kullanır:

Ön eğitim (Pre-training): Masked Language Modeling (MLM) ve Next Sentence Prediction (NSP) görevleriyle büyük metin külliyatlarında eğitilir.
İnce ayar (Fine-tuning): Belirli görevler için (NER, duygu analizi, soru yanıtlama) az veriyle uyarlanır.

BERT Varyantları

Model	Parametre	Özellik
BERT-Base	110M	12 katman, 768 gizli birim
BERT-Large	340M	24 katman, 1024 gizli birim
DistilBERT	66M	BERT'in %97 performansı, %40 daha hızlı
RoBERTa	355M	Daha uzun eğitim, NSP kaldırılmış
BERTurk	110M	Türkçe BERT modeli

6. GPT (Generative Pre-trained Transformer)

GPT Serisi

GPT, OpenAI tarafından geliştirilen otoregresif dil modelidir. BERT'ten farklı olarak yalnızca soldan sağa (tek yönlü) çalışır ve metin üretiminde uzmanlaşmıştır.

GPT Evrim Süreci

GPT-1 (2018): 117M parametre. Transfer öğrenmenin NLP'deki gücünü kanıtladı.
GPT-2 (2019): 1.5B parametre. "Too dangerous to release" tartışmasını başlattı.
GPT-3 (2020): 175B parametre. Few-shot learning yetenekleriyle devrim yarattı.
GPT-4 (2023): Multimodal yetenek, gelişmiş akıl yürütme kapasitesi.

BERT vs GPT Karşılaştırması

Özellik	BERT	GPT
Yön	Çift yönlü	Tek yönlü (soldan sağa)
Güçlü olduğu alan	Anlama görevleri	Üretme görevleri
Eğitim görevi	MLM + NSP	Next token prediction
Kullanım alanı	NER, sınıflandırma, QA	Metin üretimi, sohbet, özetleme

NLP'nin Geleceği

NLP alanı hızla gelişmeye devam etmektedir. Multimodal modeller (metin + görüntü + ses), daha verimli eğitim teknikleri, düşük kaynaklı diller için çözümler ve yapay genel zekanın (AGI) temelleri NLP araştırmalarının odak noktalarıdır. Türkçe NLP ekosistemi de BERTurk, Turkish-NLP ve çeşitli üniversite projeleriyle güçlenmektedir.

Sonuç

Doğal dil işleme, yapay zekanın en etkileyici uygulama alanlarından biridir. Tokenization ile metni parçalar, NER ile varlıkları tanır, duygu analizi ile görüşleri ölçer, Transformer mimarisi ile paralel işlem gücü kazanır, BERT ile derin anlama sağlar ve GPT ile akıcı metin üretiriz. Bu teknolojilerin birleşimi, insan-bilgisayar etkileşimini temelden dönüştürmeye devam etmektedir.

Doğal Dil İşleme (NLP): Tokenization, NER, Duygu Analizi, Transformers, BERT ve GPT Rehberi