Powszechnie wiadomym jest, że Google zjada wszystko, co mu w łapska wpadnie. Indeks stale powiększa się o tysiące podstron. Czasem jednak zajdzie potrzeba, gdy określone strony naszego serwisu nie mogą być indeksowane przez Google np. ze względu na wrażliwe dane czy też testowe wdrożenia podstron.

Data dodania: 2010-09-17

Wyświetleń: 3101

Przedrukowań: 0

Głosy dodatnie: 2

Głosy ujemne: 0

WIEDZA

2 Ocena

Licencja: Creative Commons

Inną przyczyną są strony np. o krótkim okresie żywotności - to również często tyczy się ogłoszeń, które jak szybko pojawiają się w sieci, tak szybko znikają - i robi się bajzel szybko kierujący ruch do stron z magicznymi cyframi 404:P

Podczas projektowania stron www nierzadko wykorzystuje się samo blokowanie dostępu dla robotów wyszukiwarek z prostej przyczyny - aby w wyszukiwarkach przypadkiem nie znalazła się robocza wersja strony;)

Jak blokować archiwizowanie podstron w Google?

Tutaj technicznie mogę opisać jedną wystarczającą metodę: zastosowanie odpowiedniego nagłówka META.

Wystarczy, że w sekcji <head> dodamy kod:

<meta name=robots content="noarchive" />

Typ "noarchive" informuje roboty wyszukiwarek, aby strona z takim tagiem META nie była archiwizowana - dodawana do cache wyszukiwarek.

Jeżeli chcemy zaś uniemożliwić cache'owanie podstron serwisu tylko dla Google, za to dla innych wyszukiwarek podstrona ma być normalnie widoczna w pamięci podręcznej, stosujemy:

<meta name=Googlebot content="noarchive" />

Jak usunąć istniejący cache w Google?

Technicznie - używając tego samego tagu, co w przypadku pierwszej opcji - lecz tutaj z kolei musimy łaskawie czekać, aż robaczek Google odwiedzi naszą podstronę nadającą się do wyrejestrowania z Google Cache.

Jak usunąć podstronę z indeksu Google?

Tutaj sprawa jest nieco bardziej złożona - metod na blokowanie dostępu jest kilka i technicznie, te same metody mogą posłużyć do wyindeksowania strony z indeksu wyszukiwarek. Niestety, w przypadku wyindeksowania, jesteśmy ponownie skazani na oczekiwanie.

Sprawę blokowania dostępu do podstron dla robotów wyszukiwarek internetowych można przedstawić na dwóch najpopularniejszych sposobach - tagu META oraz regule w pliku robots.

W przypadku tagu META, wystarczy w sekcji HEAD wrzucić:

<meta name=Robots content="noindex" />

Reguła informuje robota wyszukiwarki, aby nie indeksował wybranej strony.

W przypadku plików robots, wystarczy z kolei, że do reguł dopiszemy:

User-agent: *

Disallow: /adres-mojej-podstrony.html

aby robot nie indeksował wybranego adresu, lub:

User-agent: *

Dissalow: /kategoria/moje-ulubione/*

aby robot nie indeksował żadnej podstrony, której adres zaczyna się od "/kategoria/moje-ulubione/".

Do metod usuwania podstron z indeksu Google można również zaliczyć dwie dodatkowe metody: nieco bardziej zaawansowana, bo wymaga pewnych zmian programistycznych - wysłanie nagłówka o kodzie 410, który dla Google jest niczym innym, jak natychmiastowym poleceniem w stylu "Wyrzuć tą stronę z indeksu", czyli:

<?php header("HTTP/1.0 410 Gone"); ?>

Druga metoda, to wykorzystanie narzędzia do usuwania podstron z indeksu Google poprzez panel Webmaster Tools. Jest to niestety robota czasochłonna, jeśli adresów do usunięcia jest sporo. Panel usuwania adresów z indeksu Google jest dostępny pod adresem:https://www.google.com/webmasters/tools/removals

Licencja: Creative Commons
2 Ocena