Robots.txt Nedir?

Arama motorlarının sitenizi sık sık ziyaret etmesi ve içeriğinizi dizine eklemesi iyi bir fırsattır, ancak çoğu zaman online içeriklerin bölümlerini dizine eklemek istediğiniz şekilde sonuçlanmayabilir. Örnek olarak, biri tarayıcıda görüntülemek diğeri de yazdırmak için bir sayfanın iki sürümüne sahipseniz, baskı sürümünün taramadan çıkarılmasını tercih etmek istersiniz, aksi halde yinelenen içerik nedeniyle spam olarak algılanabilirsiniz. Ayrıca, sitenizde dış dünyanın görmesini istemediğiniz hassas verileriniz varsa, arama motorlarının bu sayfaları indekslememesini de isteyebilirsiniz (elbette böyle bu durumda hassas verileri indekslememenin en kesin yolu ayrı bir makinede çevrimdışı tutmaktır). Ek olarak, resimler ve javascript’i indekslemenin dışında bant genişliğinden de tasarruf yapmak akıllıca olabilir.

Arama motorlarına web sitenizdeki hangi dosya ve klasörlerin önbelleğe alınmaması gerektiğini söylemenin bir yolu, Robots meta etiketinin kullanılmasıdır, ancak, tüm arama motorları meta etiketlerini okumadığından, Robots matatag’ı farkedilemeyebilir. Arama motorlarını isteğiniz hakkında bilgilendirmenin daha iyi bir yolu bir robots.txt dosyası kullanmaktır.

Robots.txt Nasıl Oluşturulur

Robots.txt, arama robotlarına hangi sayfaları ziyaret etmemelerini istediğinizi bildirmek için sitenize yerleştirdiğiniz bir metin (html olmayan) dosyasıdır. Robots.txt hiçbir şekilde arama motorları için kullanımı zorunlu bir metin dosyası değildir, ancak genellikle arama motorları, yapmamaları istenenleri bu dosya yardımıyla yerine getirir. Robots.txt dosyasının, arama motorlarının sitenizi taramasını engellemenin bir yolu olmadığını yani bir güvenlik duvarı veya bir tür şifre koruması sağlamadığını bilmeniz önemlidir.

Robots.txt dosyasının yeri çok önemlidir. Aksi halde arama motorları onu bulamayacak, çünkü ana dizinde olmadığında diğer alanlara bakıp robot.txt dosyasının varlığını araştırmayacaktır. Bunun yerine, önce ana dizine yani, http://benimsitem.com/robots.txt olacak şekilde bu alana bakarlar ve burada bulamazlarsa, karşılaştıkları her şeyi dizine eklemeye başlarlar.

Robots.txt kavramı ve yapısı on yıldan daha uzun bir süre önce geliştirilmiştir ve bu konuda daha detaylı bilgi için, http://www.robotstxt.org/adresini ziyaret edebilirsiniz, ya da doğrudan Robotları Hariç Tutma Standartı sayfasına tıklayarak da orijinal makaleye erişim sağlayabilirsiniz. Bu yazıda bir robots.txt dosyasının sadece en önemli yönlerine değineceğiz.

Robots.txt Parametreleri

Bir robots.txt dosyasının yapısı oldukça basittir ancak bunun bir getirisi olarak da neredeyse esnek olmaktan tamamen uzaktı.

Use-agent:
Disallow:

Buada “User-agent” arama motorlarının tarayıcılarının tanımlandığı alandır ve “Disallow:” dizinlemenin dışında tutulacak dosyaları ve dizinleri listeleyeceğiniz alandır. Bunlara ek olarak, yorum satırları da ekleyebilirsiniz – satırın başına # işaretini koymanız yeterlidir:

# Buraya dilediğiniz notları yazabilirsiniz.
Use-agent: *
Disallow: /temp/

Robots.txt Dosyasının Trikleri

Karmaşık dosyalar oluşturduğunuzda yani, farklı kullanıcı temsilcilerinin farklı dizinlere erişmesine izin vermeye karar verirsiniz – bir robots.txt dosyasının püf noktalarına dikkat etmezseniz, sorunlar yaşayabilirsiniz. Buradaki yaygın hatalar, yazım hataları ve çelişkili yönergelerdir. Daha ciddi olan problem ise mantıksal hatalardır. Örneğin:

User-agent: *
Disallow: / temp /
User-agent: Googlebot
Disallow: / görüntüler /
Disallow: / temp /
Disallow: / cgi-bin /

Yukarıdaki örnek, / temp dizini dışındaki tüm aracıların sitedeki her şeye erişmesini sağlayan bir robots.txt dosyasına aittir. Buraya kadar sorun yok, ancak daha sonra Googlebot için daha kısıtlayıcı terimler belirten başka bir kayıt daha oluşturulduğunu görüyoruz. Googlebot, robots.txt dosyasını okumaya başladığında, tüm kullanıcı aracılarına (Googlebot’un kendisi dahil), / temp / dışındaki tüm klasörlere izin verildiğini görecektir. Bu nokta, Googlebot için bilmesi gerekeni öğrendiği yerdir, bu nedenle dosyayı sonuna kadar okumaz ve / temp / – dahil olmak üzere / images / ve / cgi-bin / dahil olmak üzere hiçbir şeyi dizine eklemesini istemediğinizi düşünür. Gördüğünüz gibi, bir robots.txt dosyasının yapısı basittir ancak yine de böylesi bir mantık hatasına düşmek kolaydır ve böyle bir durumdan kesinlikle kaçınılması gerekir.

Leave a Reply