Bir ya da birkaç kelimeyi dünyadaki tüm internet siteleri içinde (genelde) 1 saniyeden kısa sürede aramayı becerebilen, bu yetmezmiş gibi tamda aradığımız şeyi karşımıza getiren Google’ın nasıl çalıştığı hakkında pek azımızın bir fikri vardır. Bakalım google bunu nasıl oluyor da mümkün kılıyor? Google’ın alan adı sunucusu (dns) yazılımı tüm dünyadaki şirkete ait ya da kiralanmış bilgisayarlarda çalışır. Bunların tek görevi sorguyu en yakın ve en az meşgul olan Google sunucu kümesine (cluster) a göndermektir. Google Cluster kelimesi Türkçeye salkım ya da kümelerden oluşan bir bütün olarak çevrilebilir. Küçük parçalardan meydana gelen büyük bir yapıyı temsil etmek için kullanılır diyebiliriz. Salkımlar üzüm tanelerinden oluşur ve başlı başına bir şeydir.
Google’ın dehası binlerce ucuz ve yavaş bilgisayarı tek bir süper bilgisayar gibi kullanabilen network yazılımında yatar. Bu sistem salkımı oluşturan küçük bilgisayarların sisteme girip çıkmasına izin verir. Bu sayede eğer küçük bilgisayarlardan biri bozulursa sistemin çalışması sekteye uğramadan tamir edilebilir veya değiştirilebilir. Googlebot, görevi girebildiği bütün siteleri gezmek ve istemediğini belirtmediği sürece yazıların kopyasını alan ve kolay ulaşılabilir olması için “indeks verileri” oluşturan web örümceğidir. Bu örümcekler bir siteden diğerine linkler aracılığı ile geçerler popüler siteleri ve oradaki linkleri yaklaşık her saatte bir indekslerler. Tüm Google clusterlerinin içinde bütün web in toplam üç kopyası vardır. Bu yaklaşık 20 petabyte tutar.(Kulağa küçük geliyor değil mi? Eğer ipodunuzun hafızası 20 petabyte olsaydı tam 200 milyon şarkıyı cebinizde taşıyabilirdiniz.) Clusterlardaki veriler sürekli güncellenir, asla sabit değildir.
Aramalar üzerinde aynı anda çalışılması için web server tarafından onbinlerce makineye gönderilir. Bu markete gidip bir şey istediğinizde yüzlerce görevlinin bir ürün bulup alışveriş sepetinize koymasına benzer.
Googlenin bildiği her şey devasa veritabanlarında saklanır fakat bir bilgisayarın gigabytelarca dosyayı işlemesini beklemek yerine google bu verileri binlerce bilgisayar tarafından taranarak benzer aramalar için indeks verileri oluşturulur. Bunu bir kitapta neyin nerede olduğunu belirten içindekiler sayfasına benzetebiliriz. Bu sayade webin kolayca ulaşılabilir olması sağlanır (bkz google desktop). İndeks serverden gelen verileri linklere ve sıralama algoritmasına göre düzenler ve kullanıcının karşısına çıkarır. Bütün bu işlemler ortalama 0,5 saniye sürer. Peki, google webi nasıl bu kadar kısa sürede arar? Aslında bir sorgu gerçekleştirdiğinizde google webde aramaz. Google zaten veritabanlarına webin 3 kopyasını almış ve kendi özel algoritmaları sayesinde bunları kolayca aranabilir hale getirmiştir.
Bu “program” sayesinde Google hangi sitelerin önemli ve hangilerinin önemsiz olduğunu belirler. Pagerank hakkındaki detayları daha önce milyon sitede yazmıştım. Google’ın web araması özelliklerini bilgisayara taşıyan Google Desktop adlı bir uygulaması var. Tam anlamıyla olmasa da web aramalarını kullanıyor. Bilgisayarınızı kullanmadığınız zamanlarda dosyaları tarayarak indeks verisini oluşturuyor. Bu sayede siz daha aradığınız kelimleri yazarken google bu kelimeleri içeren sonuçları (e-mailler, belgeler, dosyalar, web geçmişi) listeliyor. Yazmaya devam ettikçe sonuçları güncelleyebiliyor.
Hiç yorum yok:
Yorum Gönder