Mając popularną stronę (np. forum) jesteś narażony na roboty - programy które automatycznie oglądają wszystkie podstrony np. w poszukiwaniu adresów email aby wysłać reklamy viagry. Takie roboty potrafią generować nawet 90% transferu. W tym artykule napiszę jak sobie z nimi poradzić

Data dodania: 2007-07-09

Wyświetleń: 5439

Przedrukowań: 0

Głosy dodatnie: 2

Głosy ujemne: 0

WIEDZA

2 Ocena

Licencja: Creative Commons

Mając stronę internetową jest się narażonym na to, że wkrótce będą po niej grasowały roboty. Przykładem takich robotów (czasem nazywa się je spiderami - z angielskiego pająk) jest wyszukiwarka google, która "ogląda" stronę i zapisuje jej kopię w bazie danych. Dzięki temu osoba wpisująca jakieś hasło może znaleźć Twoją stronę (przykładowo wpisując słowo Jelcyn w googlach znajdziesz moją stronę). Robot google jest pozytywnym robotem. Są jednak negatywne roboty, które oglądają Twoją stronę i niepotrzebnie przeciążają serwer a także zużywają cenny transfer. Takimi robotami mogą być mało popularne wyszukiwarki, albo różne dziwne roboty, które mają na celu wyłapywanie adresów email i spamowanie. W ramach oszczędności transferu (a także utrudnienia życia spammerom) warto jest utworzyć specjalną blokadę na te złe roboty. Aby wszystko działało należy mieć na serwerze zainstalowany moduł mod_rewrite (o którym pisałem np. tutaj. Aby utworzyć ową blokadę należy w pliku .htaccess dodać następujące wpisy (źródło forum.optymalizacja.com + moje drobne poprawki):

Options FollowSymLinks All
Options +FollowSymlinks All
RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^Gigabot OR
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider OR
RewriteCond %{HTTP_USER_AGENT} ^ichiro OR
RewriteCond %{HTTP_USER_AGENT} ^Lorkyll OR
RewriteCond %{HTTP_USER_AGENT} ^aipbot* OR
RewriteCond %{HTTP_USER_AGENT} ^arachnofilia* OR
RewriteCond %{HTTP_USER_AGENT} ^aspseek* OR
RewriteCond %{HTTP_USER_AGENT} ^AsksJeeves* OR
RewriteCond %{HTTP_USER_AGENT} ^attach OR
RewriteCond %{HTTP_USER_AGENT} ^BackWeb OR
RewriteCond %{HTTP_USER_AGENT} ^Bandit OR
RewriteCond %{HTTP_USER_AGENT} ^BatchFTP OR
RewriteCond %{HTTP_USER_AGENT} ^Buddy OR
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw OR
RewriteCond %{HTTP_USER_AGENT} ^Collector OR
RewriteCond %{HTTP_USER_AGENT} ^Copier OR
RewriteCond %{HTTP_USER_AGENT} ^Crescent OR
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker OR
RewriteCond %{HTTP_USER_AGENT} ^DA OR
RewriteCond %{HTTP_USER_AGENT} ^DISCoPump OR
RewriteCond %{HTTP_USER_AGENT} ^DownloadDemon OR
RewriteCond %{HTTP_USER_AGENT} ^DownloadWonder OR
RewriteCond %{HTTP_USER_AGENT} ^Downloader OR
RewriteCond %{HTTP_USER_AGENT} ^Drip OR
RewriteCond %{HTTP_USER_AGENT} ^DIIbot OR
RewriteCond %{HTTP_USER_AGENT} ^eCatch OR
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber OR
RewriteCond %{HTTP_USER_AGENT} ^ExpressWebPictures OR
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro OR
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE OR
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon OR
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf OR
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro OR
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector OR
RewriteCond %{HTTP_USER_AGENT} ^FileHound OR
RewriteCond %{HTTP_USER_AGENT} ^FlashGet OR
RewriteCond %{HTTP_USER_AGENT} ^GetRight OR
RewriteCond %{HTTP_USER_AGENT} ^GetSmart OR
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla OR
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It OR
RewriteCond %{HTTP_USER_AGENT} ^gotit OR
RewriteCond %{HTTP_USER_AGENT} ^Grabber OR
RewriteCond %{HTTP_USER_AGENT} ^GrabNet OR
RewriteCond %{HTTP_USER_AGENT} ^Grafula OR
RewriteCond %{HTTP_USER_AGENT} ^HMView OR
RewriteCond %{HTTP_USER_AGENT} ^HTTrack OR
RewriteCond %{HTTP_USER_AGENT} ^InterGET OR
RewriteCond %{HTTP_USER_AGENT} ^InternetNinja OR
RewriteCond %{HTTP_USER_AGENT} ^Iria OR
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver OR
RewriteCond %{HTTP_USER_AGENT} ^InternetSeer.com OR
RewriteCond %{HTTP_USER_AGENT} ^JetCar OR
RewriteCond %{HTTP_USER_AGENT} ^JOC OR
RewriteCond %{HTTP_USER_AGENT} ^JustView OR
RewriteCond %{HTTP_USER_AGENT} ^lftp OR
RewriteCond %{HTTP_USER_AGENT} ^likse OR
RewriteCond %{HTTP_USER_AGENT} ^Link OR
RewriteCond %{HTTP_USER_AGENT} ^LinkWalker OR
RewriteCond %{HTTP_USER_AGENT} ^Magnet OR
RewriteCond %{HTTP_USER_AGENT} ^Mag-Net OR
RewriteCond %{HTTP_USER_AGENT} ^MassDownloader OR
RewriteCond %{HTTP_USER_AGENT} ^Memo OR
RewriteCond %{HTTP_USER_AGENT} ^MIDowntool OR
RewriteCond %{HTTP_USER_AGENT} ^Mirror OR
RewriteCond %{HTTP_USER_AGENT} ^MisterPiX OR
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT OR
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*Indy OR
RewriteCond %{HTTP_USER_AGENT} ^MSFrontPage OR
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL OR
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL OR
RewriteCond %{HTTP_USER_AGENT} ^Navroad OR
RewriteCond %{HTTP_USER_AGENT} ^NearSite OR
RewriteCond %{HTTP_USER_AGENT} ^NetAnts OR
RewriteCond %{HTTP_USER_AGENT} ^NetSpider OR
RewriteCond %{HTTP_USER_AGENT} ^NetVampire OR
RewriteCond %{HTTP_USER_AGENT} ^NetZip OR
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO OR
RewriteCond %{HTTP_USER_AGENT} ^Ninja OR
RewriteCond %{HTTP_USER_AGENT} ^Octopus OR
RewriteCond %{HTTP_USER_AGENT} ^OfflineExplorer OR
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber OR
RewriteCond %{HTTP_USER_AGENT} ^PapaFoto OR
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser OR
RewriteCond %{HTTP_USER_AGENT} ^Pockey OR
RewriteCond %{HTTP_USER_AGENT} ^Pump OR
RewriteCond %{HTTP_USER_AGENT} ^Ping OR
RewriteCond %{HTTP_USER_AGENT} ^psbot OR
RewriteCond %{HTTP_USER_AGENT} ^RealDownload OR
RewriteCond %{HTTP_USER_AGENT} ^Reaper OR
RewriteCond %{HTTP_USER_AGENT} ^Recorder OR
RewriteCond %{HTTP_USER_AGENT} ^ReGet OR
RewriteCond %{HTTP_USER_AGENT} ^Siphon OR
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger OR
RewriteCond %{HTTP_USER_AGENT} ^sitecheck.internetseer.com OR
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload OR
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison OR
RewriteCond %{HTTP_USER_AGENT} ^Stripper OR
RewriteCond %{HTTP_USER_AGENT} ^Sucker OR
RewriteCond %{HTTP_USER_AGENT} ^SuperBot OR
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP OR
RewriteCond %{HTTP_USER_AGENT} ^Surfbot OR
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut OR
RewriteCond %{HTTP_USER_AGENT} ^TeleportsPro OR
RewriteCond %{HTTP_USER_AGENT} ^Vacuum OR
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE OR
RewriteCond %{HTTP_USER_AGENT} ^WebImageCollector OR
RewriteCond %{HTTP_USER_AGENT} ^WebSucker OR
RewriteCond %{HTTP_USER_AGENT} ^WebAuto OR
RewriteCond %{HTTP_USER_AGENT} ^WebCopier OR
RewriteCond %{HTTP_USER_AGENT} ^WebFetch OR
RewriteCond %{HTTP_USER_AGENT} ^WebReaper OR
RewriteCond %{HTTP_USER_AGENT} ^WebSauger OR
RewriteCond %{HTTP_USER_AGENT} ^Website OR
RewriteCond %{HTTP_USER_AGENT} ^Webster OR
RewriteCond %{HTTP_USER_AGENT} ^WebStripper OR
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker OR
RewriteCond %{HTTP_USER_AGENT} ^WebZIP OR
RewriteCond %{HTTP_USER_AGENT} ^Wget OR
RewriteCond %{HTTP_USER_AGENT} ^Whacker OR
RewriteCond %{HTTP_USER_AGENT} ^findlinks OR
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot OR
RewriteCond %{HTTP_USER_AGENT} ^ealuloq OR
RewriteCond %{HTTP_USER_AGENT} ^Xenu OR
RewriteCond %{HTTP_USER_AGENT} ^NutchCVS OR
RewriteCond %{HTTP_USER_AGENT} ^boitho.com-dc OR
RewriteCond %{HTTP_USER_AGENT} ^pehape OR
RewriteCond %{HTTP_USER_AGENT} ^WwebBbandit OR
RewriteCond %{HTTP_USER_AGENT} ^Xaldon OR
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot OR
RewriteCond %{HTTP_USER_AGENT} ^EasyDL OR
RewriteCond %{HTTP_USER_AGENT} ^VespasCrawler OR
RewriteCond %{HTTP_USER_AGENT} ^cfetch OR
RewriteCond %{HTTP_USER_AGENT} ^e-SocietyRobot OR
RewriteCond %{HTTP_USER_AGENT} ^Widow OR
RewriteCond %{HTTP_USER_AGENT} ^WebEMailExtrac.* OR
RewriteCond %{HTTP_USER_AGENT} ^VMBot OR
RewriteCond %{HTTP_USER_AGENT} ^NusearchsSpider OR
RewriteCond %{HTTP_USER_AGENT} ^Snake
RewriteRule .* - F

Pierwsze 3 linijki to informacja że chcemy włączyć mod_rewrite. Następne linie to reguły. Ostatnia linia informuje, że jeśli któraś z tych reguł jest prawdziwa, to zamiast strony ma się wyświetlić strona z błędem 403 (dostęp zabroniony). Owe reguły to nic innego jak wypisane "nazwy" robotów.
Licencja: Creative Commons
2 Ocena