W tej lekcji skupimy się szczegółowo jak działają wyszukiwarki bazujące na indeksacji przez roboty, poznamy algorytmy ich działania, czyli, w jaki sposób czytają kod źródłowy naszej strony.

Data dodania: 2010-11-10

Wyświetleń: 1746

Przedrukowań: 0

Głosy dodatnie: 0

Głosy ujemne: 0

WIEDZA

0 Ocena

Licencja: Creative Commons

W przeszłości wyszukiwarka Google preferowała comiesięczną aktualizację bazy nazywaną przez specjalistów „Google Dance”. Obecnie boty Googla przeszukują kod naszych stron codziennie zbierając informacje o zmianach. Dzięki dużemu skokowi technologicznemu, zmianie programu bota, regionalizacji oddziałów Googla i podział na kraje czas indeksacji stron uległ znacznemu skróceniu, mówi się, że robot odwiedzi naszą stronę już po dwóch dniach od dodania jej do bazy wyszukiwarki Google.

Proces, któremu poddawana jest nowa strona dodana do Google nazywany jest "crawling" lub "spidering”. Nasza strona jest kompresowana i dodawana do magazynu nazywanego „index”.

Zanim nasza strona znajdzie się w indeksie zostaje poddana pewnym algorytmom:
- robot sprawdzi ile linków odwołuje się do naszej strony,
- co zawierają linki, jaki PageRank maja strony linkujące,
- jeśli znajduje się już w Katalogu stron to sprawdzi czy we właściwej kategorii.

Oto najważniejsze zasady, jak z sukcesem zoptymalizować naszą stronę zanim dodamy ją do Google:
- nazwa domeny, bardzo ważna,
- pierwsze słowa w TITTLE Tag i słowa w nagłówkach H1-H6,
- ALT text w obrazkach,
- niepowtarzalność treści naszej strony, unikać duplicate content w całym serwisie, portalu, itp
- tekst zawierający linki wychodzące,
- menu w postaci linku,
- niektóre słowa Boldem,

Najważniejszymi czynnikami, którymi kieruje się Google są: PageRank, link anchor text i semantyka.

PageRank jest bezwzględną wartością regularnie przeliczaną dla każdej strony znajdującej się w Indeksie. Głównie wartość PageRank zależy od ilości linków odwołujących się do naszej strony.
MiniRank/Local Rank
jest bazuje na strukturze linków tylko w pojedynczej stronie.

Link anchor text jak sama nazwa wskazuje jest to tekst w linku odwołującym się do naszej strony zorientowany na tematykę naszej strony.

Semantyka jest nowym czynnikiem, który wydaje się najbardziej wpływowym na wyniki wyszukiwania. Termin ten odnosi się do znaczenia słów i wzajemnych relacji. Najprościej termin ten oznacza, że po wpisaniu konkretnego wyrażenia otrzymujemy konkretny wynik zamiast wielu linków trudno interpretowalnych. Semantyka stała się między innymi zalążkiem Web 3.0.

Wzrost w rankingu Google naszych stron jest zależny od dwóch algorytmów: Hilltop i Sandbox.
Hilltop
to, alghorytm przyjęty w 1999 roku i bazuje na relacji pomiędzy stronami „Expert” i stronami „Authority".
Expert to baza linków tematycznych o wysokim PR do ktorej linkuje duża liczba stron.
Authority to strona, do której prowadzą linki z bazy Expert.

Sandbox – algorytm, który wykrywa jak „stara” jest nasza strona i jak dawno została dodana po to by ustalić poziom zaufania czy nie zawiera treści spamerskich i po pewnym czasie, jeśli uzna, że stronie można zaufać zostaje dodana.

Licencja: Creative Commons