Tanım
Crawling (Tarama), arama motorlarının web sitelerini sistematik olarak ziyaret etme ve içeriklerini okuma sürecidir. Bu işlem, "web crawler" veya "spider" olarak adlandırılan otomatik yazılım botları tarafından gerçekleştirilir.
Kullanım Alanları ve Örnekler
Crawling süreci şu aşamalardan oluşur:
- URL Keşfi: Crawler’lar bilinen URL listelerinden başlar ve sitemap dosyalarını, robots.txt direktiflerini kontrol eder. Daha sonra sayfa içindeki bağlantıları takip ederek yeni URL’ler keşfeder.
- Priority Assignment: Tüm URL’ler aynı öncelikte taranmaz. Ana sayfa, sitemap’te belirtilen sayfalar ve güncellenme sıklığı yüksek olan sayfalar öncelikli olarak taranır.
- Resource Allocation: Her site için belirli bir “crawl budget” (tarama bütçesi) ayrılır. Bu bütçe, sitenin otoritesine, performansına ve güncellenme sıklığına göre belirlenir.
- Content Analysis: Crawler, sayfa içeriğini okur, HTML etiketlerini analiz eder ve medya dosyalarını tespit eder. Bu aşamada sayfa kalitesi ve kullanıcı değeri de değerlendirilir.
Yanlış Bilinenler
“Bir sayfa tarandıysa mutlaka indekslenir.”
Crawling ve indexing farklı süreçlerdir. Bir sayfa taranabilir ama kalite, duplicate content veya teknik sorunlar nedeniyle indekslenmeyebilir. Crawling = Indexing değiltdir.
“XML sitemap’e eklenen tüm sayfalar mutlaka taranır.”
Site haritaları bir öneri niteliğindedir. Arama motorları kendi algoritmalarına göre hangi sayfaları ne sıklıkta tarayacaklarına karar verir.
Kaynakça ve Referanslar
Google Crawling Dokümantasyon ve Araçları:
- Googlebot Crawling Guide
- Control Crawling and Indexing
- Crawl Budget Management
- Google Search Console Tarama İstatistikleri
JavaScript SEO ve Crawling: