TÜBİTAK BİLGEM liderliğinde geliştirilen, tamamen Türkçe verilerle eğitilen ve 300 milyar token kullanılarak ortaya çıkarılan Türkiye’nin ilk yerli büyük dil modeli tanıtıldı. Teknik detaylar, hedefler ve milli ekosistem içeriğe dahil edildi.Türkçe verilerle eğitilen ve 2 trilyon tokenlik dev bir veri setine dayanan Türkiye’nin ilk büyük dil modelinin geliştirildiğini duyurdu.
Sanayi ve Teknoloji Bakanı Mehmet Fatih Kacır, Türkiye’nin ilk yerli büyük dil modelini tanıttı. Bu model, tamamen Türkçe derlenen ve temizlenen verilerle eğitilerek teknolojik bağımsızlık konusunda önemli bir dönüm noktası oldu.
Milli Veri Kümeleri: 2 Trilyon → 300 Milyar Token
- Türkiye için özel olarak derlenen 2 trilyon tokenlik Türkiye Türkçesi veri seti oluşturuldu.
- Bu devasa veri havuzundan 300 milyar token titizlikle temizlenerek eğitim için seçildi
Ortaya çıkan model, Türkçe kültürüne ve dil yapısına uygun, yüksek doğrulukta metin işleyebiliyor.

Teknik Detaylar ve Gelecek Vizyonu
- Şu aşamada yalnızca metin verileriyle sınırlı eğitim gerçekleştirildi.
- Gelecekte modelin çok modlu (multimodal) yeteneklerle görüntü ve ses verilerini işleyebilmesi hedefleniyor .
- Modelin, TÜBİTAK BİLGEM’in önderliğinde geliştirilen “Milli Teknoloji Hamlesi” vizyonunun temelini desteklemesi bekleniyor .
Ekosistem: Sadece Bir Model Değil
- Süper bilgisayar altyapısı milli işlemcilerle güçlendiriliyor.
- TEKNOFEST gibi etkinliklerle on binlerce genç, yapay zeka alanında eğitiliyor .
- Bu çabalar, yerli yapay zeka altyapısı oluşturma ve teknolojik egemenlik hedeflerinin bir parçası.
Neden Önemli?
- Türkiye, global teknoloji devlerine bağımlılıktan ulusal çözüm üreticiliğine geçiş yapıyor.
- Bu model, sadece akademik bir başarı değil, aynı zamanda savunma, sağlık, eğitim ve kamu hizmetlerinde yapay zekânın yerelleştirilmesi için temel oluşturuyor.
- Uzun vadede, yerli dil modeli kullanımının Türkiye’nin dijital egemenlik stratejisi içinde kritik bir role sahip olması bekleniyor.