Gün geçmiyor ki yeni bir yapay zeka modeli görelim. Teknoloji devleri daima olarak yeni modellerle hünerlerini sergilerken, art taraftan yeni yapay zeka şirketleri türemeye devam ediyor. AI kervanına erken katılan şirketlerden Google, kısa mühlet öncesinde “en akıllı yapay zeka modeli” olarak tanımladığı Gemini 2.5 model koleksiyonunu tanıtmıştı. Biz de detaylara biraz yakından bakalım istedik.
Gemini 2.5 ailesinin birinci sürümü olarak Gemini 2.5 Pro’yu duyuruldu. Yeterli olan tarafı, şirket Gemini 2.5 Pro’yu (deneysel) herkesin kullanması için fiyatsız hale getirdiklerini söyledi. Birinci olarak Gemini Advanced kullanıcıları için kullanıma açılmıştı lakin artık Google AI Studio’da ve Gemini uygulamasında mevcut.
Gemini 2.5 Pro, Google’ın Gemini 2.5 ailesindeki birinci ve şu andaki en güçlü model. Bunun muhakeme kabiliyeti olan çok modlu bir akıl yürütme modeli olduğunu belirtelim. Ayrıyeten kıymetli ölçütlerde OpenAI, Anthropic ve DeepSeek tarafından sunulan rakiplerini geride bırakmayı başarıyor. Gemini 2.5 Pro’nun en güçlü yanı, 2 milyona çıkarılması planlanan 1 milyon token’lık (jeton) devasa bağlam kapasitesi. Bu ne mana tabir ediyor diye soracak olursanız; OpenAI o3-mini ve bir başka rakip Claude 3.7 Sonnet 200 bin token’lik takviyeye sahip. DeepSeek R1 biraz daha düşük, 128 bin. Gemini ile uzunluk ölçüşebilen tek model, 1 milyon token ile şu anda Grok 3.
- Yapay Zeka Muhakeme (Akıl Yürütme) Modeli Nedir?
En yaygın yapay zeka kullanım alanlarından biri de kod üretimi. Google’ın yapay zekası Gemini 2.0 Flash zati bu bahiste âlâ işler çıkarıyordu, yeni sürüm işleri bir adım daha öteye taşıyacak.
Şirkete nazaran Gemini 2.5 Pro, araçların kullanımı, çok modlu girdi sürece ve uzun bağlam performansındaki güzelleştirmelerle şimdiye kadarki en düzgün akıl yürütme modeli. Birtakım temel ayrıntılarına gelince:
- Giriş çeşitleri: Metin, fotoğraf, ses ve video
- Çıktı çeşidi: Sırf metin
- Bağlam penceresi: Giriş için 1 milyona kadar token (planlanan genişleme ile 2 milyona çıkabilir)
- Çıktı boyutu: 64.000 token
- Bilgi kesintisi: Ocak 2025
Gemini 2.5 Pro araç kullanımını desteklemekte. Yani harici fonksiyonları çağırabiliyor, yapılandırılmış çıktı (JSON gibi) üretebiliyor, kod çalıştırabiliyor ve arama yapabiliyor. Bu yetenekler, modelin çok adımlı misyonları çözmesine, API’leri çağırmasına yahut makul aşağı akış sistemleri için cevapları biçimlendirmesine imkan tanıyor.
Bir muhakeme modeli olduğu için Gemini 2.5 Pro bilhassa kodlama, matematik, mantık ve bilim alanlarında güçlü. Birden fazla günlük vazife için Gemini 2.0 Flash üzere genele hitap modelleri kullanmaya devam edebilirsiniz zira çok daha süratli. 2.0 Pro ise daha karmaşık sorulara karşılık verebilecek biçimde geliştirildi. Muhakeme (akıl yürütme) modelleri hakkında en son kısımda bilgi vereceğiz. Böylece Google’ın yeni yapay zeka yetenekleri hakkında daha düzgün fikir sahibi olabilirsiniz.
Google daha evvel Aralık ayında birinci muhakeme yapay zeka modeli olan Gemini 2.0 Flash Thinking’i piyasaya sürmüştü. Flash Thinking, kısa müddet evvel evrak yüklemeye ve daha büyük istemlere müsaade verecek formda güncellendi; lakin Gemini 2.5 Pro’nun piyasaya sürülmesiyle Google, “Thinking” etiketini büsbütün kaldıracak üzere görünüyor.
İnternet devinin Gemini 2.5 ile ilgili duyurusuna nazaran bunun nedeni, muhakeme yeteneklerinin artık gelecekteki tüm modellere mahallî olarak entegre edilecek olması. Bu değişim, “düşünme” özelliklerini bağımsız bir marka olarak ayırmak yerine daha birleşik bir yapay zeka mimarisine hakikat geçişe işaret ediyor.
Google, Gemini 2.5 Pro’yu Claude 3.7 Sonnet, OpenAI’nin o3-mini, DeepSeek R1 ve Grok 3 üzere günümüzde mevcut en âlâ modellerden kimileriyle karşılaştırdı. Performans misyona nazaran değişse de, Gemini 2.5 Pro çoklukla muhakeme, kodlama, matematik ve uzun bağlamlı misyonlarda âlâ performans gösteriyor.
Son sürüm yapay zeka, AIME 2025’te (matematik) %86,7 ve GPQA diamond benchmark’ta (fen) %84,0 puan alarak akademik muhakeme ölçütlerinde öne plana çıkıyor. Matematik, fen ve beşeri bilimler alanlarında binlerce soru içeren geniş bir test olan Humanity’s Last Exam’da model %18,8’lik bir puanla yarışı önde götürüyor. Bilhassa, bu sonuçlar o1 ve R1 üzere modellerin kıymetlendirme sırasında öğrenmeye devam etmesini sağlayan kıymetli test vakti teknikleri kullanılmadan elde edildi.
Yazılım geliştirme ölçütlerinde Gemini 2.5 Pro biraz karmaşık sonuçlar veriyor. Kod düzenleme için Aider Polyglot testinde %68,6 puan alarak en üst seviye modellerin birçoklarını geride bıraktı. Fakat SWE-bench Verified’da %63,8 puan alarak daha geniş programlama misyonlarında Claude Sonnet 3.7’nin akabinde ikinci oldu.
Buna karşın Google, Gemini 2.5 Pro’nun “görsel olarak ilgi cazibeli web uygulamaları ve aracı kod uygulamaları oluşturmada mükemmel” olduğunu, bunun da tek bir komuttan görüntü oyunu oluşturma maharetinden kaynaklandığını söylüyor.
Model bir milyon jetonluk bir bağlam penceresini destekliyor, yani 750.000 sözlük bir komut istemine yahut birinci altı Harry Potter kitabına muadil bir süreç yapabiliyor. Google, vakti geldiğinde bu eşiği iki milyon jetona çıkarmayı planlıyor.
Benchmark |
Gemini 2.5 Pro |
En Yakın Rakipler |
|
Muhakeme ve Genel Bilgi |
Humanity’s Last Exam (araçsız) |
%18.8 |
o3-mini (%14), Claude 3.7 (%8.9), DeepSeek R1 (%8.6) |
GPQA Diamond (pass@1) |
%84.0 |
Grok 3 Beta (%80.2), o3–mini (%79.7), Claude 3.7 Sonnet (%78.2) |
|
Matematik ve Mantık |
AIME 2024 (pass@1) |
%92.0 |
o3-mini (%87.3), Grok 3 Beta (%83.9) |
AIME 2025 (pass@1) |
%86.7 |
o3-mini (%86.5), Grok 3 Beta (%77.3) |
|
Kodlama |
LiveCodeBench v5 |
%70.4 |
o3-mini (%74.1), Grok 3 Beta (%70.6) |
Aider Polyglot (dosya düzenleme) |
%74.0 |
— |
|
SWE-bench |
%63.8 |
Claude 3.7 (%70.3) |
|
Uzun Bağlam ve Çoklu Mod |
MRCR (128K bağlam) |
%91.5 |
GPT-4.5 (%48.8), o3-mini (%36.3) |
MMMU (çok modlu anlayış; pass@1) |
%81.7 |
Grok 3 Beta (%76.0), Claude 3.7 Sonnet (%75) |
Gemini 2.5 Pro’yu denemek için birkaç yol var. Erişmenin en kolay yolu Gemini uygulamasını (uygulama yahut web) kullanmak. Eğer Gemini Advanced abonesiyseniz, açılır menüde Gemini 2.5 Pro’yu göreceksiniz.
Girdiler, araç kullanımı yahut çok modlu istekler üzerinde daha fazla denetim istiyorsanız, Google AI Studio‘yu kullanabilirsiniz. Buradan Gemini 2.5 Pro’ya fiyatsız olarak erişmek mümkünken metin, fotoğraf, görüntü ve ses girdileri destekleniyor. Bilhassa büyük evraklar yahut özel iş akışları ile uğraşırken evrak yüklemek yahut araç kullanımını test etmek için Gemini uygulamasından daha yeterli çalışmakta. Bir hesap oluşturduktan sonra model açılır menüsünden Gemini 2.5 Pro’yu seçebilirsiniz.
Bu çeşit yapay zeka modelleri “reasoning model” olarak biliniyor. Biz Türkçeye “muhakeme, akıl yürütme yahut mantık yürütme modeli” olarak çevirebiliriz. Pekala tam manasıyla nedir bu muhakeme modeli? Bir şeylerin muhakemesi nasıl yapılabiliyor?
OpenAI o1, OpenAI o3-mini, DeepSeek R1, xAI Grok 3 (Think Mode) ve Google Gemini (Flash Thinking) üzere muhakeme yeteneğine sahip modeller, karmaşık muhakeme yapmak için destekli öğrenme ile eğitilmiş yeni büyük lisan modelleri. Standart modellerden ayrışan bu tahliller, karşılık vermeden evvel düşünür, kullanıcıya cevap vermeden evvel uzun bir iç fikir zinciri üretir. Karmaşık sorun çözme ve kodlama üzere hususlar için çok adımlı planlamada harikadır.
Basitçe özetlemek gerekirse, akıl yürütme hüneri olmayan yapay zekalar sorulara daha direkt cevaplar vermekte. Tıpkı piyasada gördüğünüz birçok yapay zeka sohbet robotu üzere. Mantık yürütme sistemleri ise yanıtlanması daha güç, daha karmaşık soruları derinlemesine ele alarak ve daha çok adımdan geçirerek daha düzgün karşılıklar üretebilir.
Akıl yürütme her şirketin her modelinde mevcut değil. Süratli halde yaygınlaşıyor, sanayide giderek daha kıymetli hale gelmeye başladı. Direkt yanıt üreten genel kullanım modellerinin tersine, muhakeme modelleri bir sonuca varmadan evvel sorunları adım adım kesimlere ayırarak düşünme süreçlerinden geçiyor.
Bu ortada, kullanmış olduğunuz yapay zeka platformları hem bir muhakeme modeli hem de genele hitap eden bir yapay zeka olarak kullanıma sunulabilir. Tıpkı Grok 3 üzere. İstediğinizde muhakeme modunu etkinleştirip farklı karşılıklar alabilirsiniz. Grok 3’de bu özelliğe Think Mode (Düşünme Modu), Gemini’da Flash Thinking (Hızlı Düşünme), DeepSeek’te Deep Think (Derin Düşünce) deniyor mesela. Bu mod kapalı olduğunda platformlar standart modeller üzere çalışıyor. Yani süratli, konuşmaya dayalı ve genel misyonlara hizmet edecek formda ayarlanıyor.
Bu vakte kadar tahminen de birçok yapay zeka sohbet robotu kullanmışsınızdır, nasıl çalıştığını biliyorsunuzdur: Bir soru sorarsınız, yanıt üretirler ve hepsi bu kadar. Akıl yürütme modelleri farklı bir yaklaşım benimsemekte. Çabucak bir karşılık vermek yerine, sıkıntılar adım adım kesimlere ayrılıyor, orta niyetler ortaya çıkıyor ve hatta kesin bir karşılık sunmadan evvel çıktılar rafine ediliyor. Bu da modelleri bilhassa matematik, kodlama ve gerçek dünyada sorun çözme üzere vazifeler için güçlü kılıyor.
AI muhakeme sistemi, tümdengelim ve tümevarım üzere mantıksal tekniklerden yararlanarak mevcut bilgilerden sonuçlar üreten bir yazılım platformudur. Büyük Lisan Modelleri (LLM’ler), üretken yapay zekanın (Generative AI) yükselişinden bu yana uzun bir yol kat etti. Evvelden eğitilmiş cevaplarla birlikte “hızlı düşünce” sistemi benimseniyordu, problemleri nitekim akıl yürüterek çözmeyi benimseyen “yavaş düşünmeye” geçildi.
İçgüdüsel karşılıklardan mantıksal muhakemenin gücüyle fikirli kararlara geçiş yapıldı, böylece gerçek dünya senaryosundaki karmaşıklığın üstesinden gelebilecek oyun değiştirici teknolojiler gün yüzüne çıkmaya başladı. Günümüzde teknoloji epeyce ilerledi diyoruz lakin istekler de daha karmaşık ve güçlü hale gelmeye başladı. Artık yalnızca bilgi aramak ve içerik üretmek kâfi değil.
Yapay zekanın gerçek vakitli olarak duraklaması, değerlendirmesi ve sonuç çıkarması gerekiyor. Evvelce eğitilmiş modeller, daha evvel gördükleri büyük ölçüde dataya dayanarak bir sonraki kelimeyi kestirim eden “eğitim vakti hesaplamasına” dayanıyordu. Kolay denilebilecek işlerde bu iş görecektir. Fakat karmaşık, yüksek riskli sıkıntılar için süratli, içgüdüsel cevaplar kâfi olmuyor. Gerçek ilerleme vakit, yaratıcılık ve dikkatli fikir gerektirir ki tıpkı şey yapay zeka için de geçerli.
İşte bu noktada yapay zeka muhakemesi devreye giriyor. Bir model düşünmek için “durakladığında”, yalnızca kalıplarla bir şeyler yapmıyor ve geçmiş bilgilerden kestirimler çıkarmıyor. Gelişmiş yapay zeka modelleri farklı senaryoları tartar, sonuçlar üzerinde düşünür ve mantığa dayalı kararlar verir. Bu süreçte daha fazla hesaplama gücü ve vakit gerekse de ortaya çok daha manalı sonuçlar çıkacaktır.
Örneğin, “Türkiye’nın başşehri neresidir?” üzere bir soru için akıl yürütmeye gerek yok. Öbür yandan, “Bir tren 60 km süratle hareket ediyorsa ve 3 saat yol kat ediyorsa, ne kadar ara kat eder” üzere bir soru için mantık yürütme gereklidir. Yanıta ulaşmadan evvel aralık, sürat ve vakit ortasında bağlantı kurmak gerekir.