Inną przyczyną są strony np. o krótkim okresie żywotności - to również często tyczy się ogłoszeń, które jak szybko pojawiają się w sieci, tak szybko znikają - i robi się bajzel szybko kierujący ruch do stron z magicznymi cyframi 404:P
Podczas projektowania stron www nierzadko wykorzystuje się samo blokowanie dostępu dla robotów wyszukiwarek z prostej przyczyny - aby w wyszukiwarkach przypadkiem nie znalazła się robocza wersja strony;)
Jak blokować archiwizowanie podstron w Google?
Tutaj technicznie mogę opisać jedną wystarczającą metodę: zastosowanie odpowiedniego nagłówka META.
Wystarczy, że w sekcji <head> dodamy kod:
<meta name=robots content="noarchive" />
Typ "noarchive" informuje roboty wyszukiwarek, aby strona z takim tagiem META nie była archiwizowana - dodawana do cache wyszukiwarek.
Jeżeli chcemy zaś uniemożliwić cache'owanie podstron serwisu tylko dla Google, za to dla innych wyszukiwarek podstrona ma być normalnie widoczna w pamięci podręcznej, stosujemy:
<meta name=Googlebot content="noarchive" />
Jak usunąć istniejący cache w Google?
Technicznie - używając tego samego tagu, co w przypadku pierwszej opcji - lecz tutaj z kolei musimy łaskawie czekać, aż robaczek Google odwiedzi naszą podstronę nadającą się do wyrejestrowania z Google Cache.
Jak usunąć podstronę z indeksu Google?
Tutaj sprawa jest nieco bardziej złożona - metod na blokowanie dostępu jest kilka i technicznie, te same metody mogą posłużyć do wyindeksowania strony z indeksu wyszukiwarek. Niestety, w przypadku wyindeksowania, jesteśmy ponownie skazani na oczekiwanie.
Sprawę blokowania dostępu do podstron dla robotów wyszukiwarek internetowych można przedstawić na dwóch najpopularniejszych sposobach - tagu META oraz regule w pliku robots.
W przypadku tagu META, wystarczy w sekcji HEAD wrzucić:
<meta name=Robots content="noindex" />
Reguła informuje robota wyszukiwarki, aby nie indeksował wybranej strony.
W przypadku plików robots, wystarczy z kolei, że do reguł dopiszemy:
User-agent: *
Disallow: /adres-mojej-podstrony.html
aby robot nie indeksował wybranego adresu, lub:
User-agent: *
Dissalow: /kategoria/moje-ulubione/*
aby robot nie indeksował żadnej podstrony, której adres zaczyna się od "/kategoria/moje-ulubione/".
Do metod usuwania podstron z indeksu Google można również zaliczyć dwie dodatkowe metody: nieco bardziej zaawansowana, bo wymaga pewnych zmian programistycznych - wysłanie nagłówka o kodzie 410, który dla Google jest niczym innym, jak natychmiastowym poleceniem w stylu "Wyrzuć tą stronę z indeksu", czyli:
<?php header("HTTP/1.0 410 Gone"); ?>
Druga metoda, to wykorzystanie narzędzia do usuwania podstron z indeksu Google poprzez panel Webmaster Tools. Jest to niestety robota czasochłonna, jeśli adresów do usunięcia jest sporo. Panel usuwania adresów z indeksu Google jest dostępny pod adresem:https://www.google.com/webmasters/tools/removals