この記事はブロックされています。続きを読みたい方はログインをして下さい。会員ではない方は新規会員登録をして下さい。


ワードプレス魔改造 オートブログ講座2 第八回目 人気記事アライバー ボット判定をする

今回はそのアクセスが人間のものかボットによるものかを判定する処理です。
判定する文字列なのですが、ざっと調べた所これだけのボットプログラムがありました。


google
Yahoo
bing
Wget
Yeti
Steeler
ichiro/mobile goo
ichiro
hotpage.fr
Feedfetcher-Google
livedoor FeedFetcher
ia_archiver
YandexBot
SISTRIX Crawler
msnbot-media
zenback bot
Y!J-BRI
TurnitinBot
Google Desktop
newzia crawler
BaiduMobaider
Y!J-BRJ/YATS crawler
Seznam screenshot-generator
SiteBot
Purebot
emBot-GalaBuzz/Nutch
Search17Bot
Toread-Crawler
Tumblr
DotBot
Chilkat
ceron
hatena

で、さらに未知のボットプログラムにも対処するため以下の文字列を含むエージェントもボットとみなします。


bot
spider
clawler
http
search

大手のボットプログラムはボットプログラムであることを明確にしているので、判別が簡単です。
残念ながら個人が動かしているボットプログラムについては、ユーザーエージェントに何かしらの識別子がなければ判定はできません。
どのみち数が少ないのでこの辺は妥協します。

あとユーザーエージェントを消しているものや、極端に短いものも却下します。
これで大抵のボットは排除できると思います。
それでは「popular_post.php」に以下の処理をプラスして下さい。

関連記事