| |||||||
adm | Find | login register |
[root@www httpd]# grep -i yahoo access_log | wc -l 本站才剛成立,沒多少文章,被24小時 crawl 半天,結果去 search,文章進去還很少。 去看 download 的 URL,大部份不是有內容的 URL,像是 search/login/edit ..,那當然沒用。 似乎應該要有統計分析那一個 .php 會有比較多的內容的能力。 | |||||||||||
| |||||||||||
現在就可以用 robot.txt控制哪些不要 index,也可以用 <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 只是懶得弄,現在看來,如果要讓自己的網頁能快點被搜尋到,最好還是要控制。 | |||||||||||
各家的 bot 都不是全抓,每個連結都進去砍站的話,根本砍不完。 新的站幾乎都不會有啥內容上大站吧,要等一陣子才行。 對於 low Page Rank site, Google search delay 個三五個月是蠻常見的。 對於各家 bot 的行為分析,網路上有詳細研究比較,找來看看還蠻好玩的。 | |||||||||||
以 Google 來說,效率似乎不太好,URL中 eid=???是隨 directory 變化的,login.php output 的內容是不會變的。 66.249.70.118 - - [22/Sep/2007:16:48:25 +0800] "GET /login.php?eid=107 HTTP/1.1" 200 716 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
# grep Google access_log | grep login.php | wc -l edited: 1
| |||||||||||
由於 search engine 的 BOT 對新網站的 traverse quota 很小,search engine 常常去traverse 沒用的 URL,不僅浪費 quote,且造成不必要的 disk read/write。 決定還是把 robots.txt 給弄起來,以減少不必要的浪費。
| |||||||||||
加了 robots.txt 後,果然好很多,現在 access_log 看起來清爽多了。 現在只剩 baidu,完全不讀 robots.txt,果然是土匪。 China 還有一個 BOT 叫 yodao,就有 read robots.txt。 edited: 1
| |||||||||||
還有一個 QihooBot(顯然是China) 也是不看 robots.txt,台灣的 search engine 完全被 yahoo & google 消滅。 | |||||||||||
baidu 也有,只是最多可能 5 天才抓一次 robots.txt |
| |||||||
adm | Find | login register |