Subscribe via RSS Feed

从今天起拒绝百度

尽管有很长时间没有上百度了,今天还是不小心去了这个网站,一不小心,突然发现自己的 BLOG 在这上面居然快找不到了。尽管这里本只是我个人纯粹瞎闹的地方,可是相比在 Google 上搜索的体验,心里还是一阵不爽。

不就是在去年或写或转了几篇文字嘛,值得这样嘛?一个小家子气的网络公司永远成不了气候,也就只能靠胁迫、推搪和欺骗来运转,这样的日子还能维持多久?

反正我也不需要百度,从今天起我的博客屏蔽百度。

下面是学习如何屏蔽百度抓取的记录:

其实也很简单,在网站根目录下面有一个 robots.txt 文件,在其中设置相关命令,就可以禁止百度爬虫获取网站的网页信息。

那么,这个“robots.txt”是什么呢?

robots.txt (小写字母) 是一种存放在一些网站的服务器根目录下的 ASCII 编码的文本文件。它的作用是告诉搜索引擎的爬虫机器人该网站中的哪些内容是不允许被搜索引擎爬虫抓取的,哪些是允许被抓取的。由于在一些系统中 URL 大小写敏感,因此 robots.txt 文件名均统一为小写。robots.txt放置在网站的根目录下。

现在只需要在这个 robots.txt 文件中加入:

User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

就可以屏蔽百度的爬虫骚扰了。

再见百度。

Tags:

Category: 收藏

About the Author: 本文可以任意转载。转载时请务必以超链接形式标明文章原始出处以及此声明。谢谢!

评论 (5)

Trackback URL | Comments RSS Feed

  1. 幽行 说:

    本人也报名离开百度!其实早就不用了它!

  2. Benny 说:

    想当年百度曾经风光一时,现在这样,只能说是它太让人失望!

  3. 方法 说:

    百度垃圾网站

  4. Keengle 说:

    我首先谷歌,其次有道。

  5. Linco 说:

    林可报到,拒绝百度

Leave a Reply




If you want a picture to show with your comment, go get a Gravatar.