YangFan.net

Tag : 百度 Search in Google

史上最贵的网络广告位诞生

  尽管目前还不是或者宣称不是广告位,但是很快——也许半年的预热之后——就会有代理商对此待价而沽了。
  一个Alexa排名前15的网站首页的唯一一张图片就是你的头像,持续一个月,各位心动了吗?
Tag:
2007-11-08 23:12 | Category : Blog | Comments (3)

是谁小鸡肚肠?又是谁在流氓?

  首先打开http://blog.sohu.com/robots.txt,看到以下内容:
   User-agent: Googlebot
   Disallow:
   User-agent: baiduspider
   Disallow: /
   User-agent: Nutch
   Disallow:
   User-agent: *
   Disallow: /
  可以看到,搜狐博客禁止了除了Google和Nutch之外一切搜索引擎的抓取,而且还单独把百度拿出来深恶痛绝地鞭尸。这显然是小鸡肚肠的行为,对用户很不负责——因为别人无法通过搜索引擎搜到自己的博客内容。但是且慢,真的如此吗?
  在各个搜索引擎用site:blog.sohu.com进行搜索。
  首先是Google的结果,共有搜索结果417000项,全部是三级域名xxxx.blog.sohu.com这样的首页,任意找一个xxxx.blog.sohu.com去site:一下,可以看到还是都抓到内容的。417000,是一个三级域名的数量,差不多也就是他抓到的搜狐博客的用户数量。
  然后是搜狗的结果,2984875个页面,看到的也都是三级域名,随便找个继续site:,可以看到只有首页没有内容,说明sogou就算是在自己家也还是很道德的。至于为什么sohu博客吃里扒外让Google抓却不让自家的sogou抓,那就要去问张朝阳了。
  接着给出有道的结果:抱歉,没有找到与 "site:blog.sohu.com" 相关的网页。很好,遵纪守法。
  最后隆重推出百度的结果,找到了131000篇,数量不是关键,关键是它的结果从第二篇开始就是内容页面,也许是百度不敢太过分,从外部过来的页面抓了之后看了眼robots.txt,于是不再往下继续,但是好歹,有外链的全给抓了(应该不是全部,否则数量也太少了)。这只有三种可能,一是百度不懂robots.txt的规范,二是百度装作不懂,做了流氓——还好它没全抓,否则就不是流氓而是黑社会了,第三就是只抓外链页面是允许的,我个人感觉这种可能性不大。地震震得w3c网站连不上,所以也确定不了。
  看完sohu的,再来看看流氓百度家的http://hi.baidu.com/robots.txt,内容如下:
   User-agent: Baiduspider
   Disallow:
   User-agent: Googlebot
   Disallow:
   User-agent:
   Disallow: /
  流氓就是流氓,比他强的他不得罪,比他弱的,全部封杀。至于最后那个User-agent为什么不加个*,我就不知道了。这样写是不是符合规范呢?如果不符合,那就是白写,就算页面被人抓了也是白抓。那么来看看site:hi.baidu.com的搜索结果。
  首先还是Google的结果,只有96400个结果,都是每个人的首页!而且搜几个朋友的百度空间,发现只有首页没有内容,也就是说,Google也许只抓了每个人的首页,即使它被允许全抓。
  然后是有道的结果,和Google一样,只有每个人的首页而没有内容,一共171000条。有道还是挺听话的。至于为什么数量几乎是Google的两倍,很简单,因为Google没有抓中文目录,而有道抓了。正好这里顺路鄙视一下百度这么大个家伙居然还允许用户用中文目录名。
  百度自己的结果在这里就没有什么意义了,4980000条,挺多。
  最后是搜狗的结果,667756项。结果很眼熟是吧,没错,就是和百度搜搜狐博客的结果非常像,应该是只抓了外部有链接的,没有继续扒拉。
  好了,结果出来了,搜狐博客和百度空间,毫无疑问,都不是合适的BSP,因为它们连用户内容被检索的自由都不给。相比之下同样是门户的博客,新浪和网易至少没有从robots.txt上去做手脚。
  谁是流氓呢?在能找全robots.txt规范前不下定义,但是比较显然的是,百度流氓的可能性很大,而搜狗的以彼之道还致彼身很可能因为百度自己的写法错误而只能让百度有苦说不出。
2007-01-12 21:30 | Category : Blog | Comments (4)

看图说话

  每到个啥逢年过节的,GoogleBaidu的fans就开始互相比较LOGO的好坏。本来就是萝卜青菜的东西,也要上升到一定高度,板砖横飞。这回到教师节了,俩LOGO哪个好?其实谁也不比谁强多少。

2006-09-10 15:14 | Category : Blog | Comment (1)

百度空间上线

  据说是在今天0点,百度空间上线了。又是一个来分一勺羹的。百度的业务铺得很开啊,貌似什么热门他就做什么。随便看了眼,没有能让人眼前一亮的特点,也难怪,这种当量的网站做的东西肯定是中规中矩。和很多现有的blog比,百度空间应该是个不错的选择了,不过这东西连Trackback都不支持,对高端blog用户的吸引力要打个大折扣。另外,百度做搜索起家,百度空间上却看不到他的搜索上的技术优势,只是靠名声和访问量来推。最让我感兴趣的是,百度如何吸引MSN SPACE用户?SPACE一更新,MSN就闪小黄花,这点在用户粘滞度上比百度强得多,这也是MSN SPACE发展迅速的原因。目前百度尚无法在此对抗,那么他是否有其他后继手段来调动用户呢?或者说,假如有一天腾讯的QQ空间不再是现在这么以弱智化低龄化为目标,而是像TM那样,白领化一把,百度的优势又在哪里?
  好友中第一个搬家到百度空间的是iceberg,这是很显然的事,因为百度空间就是他写的……
Tag: , ,
2006-07-13 12:58 | Category : Blog | Comment (1)
Subscribe Atom
  • Subscribe to google
  • Subscribe to bloglines
  • Subscribe to zhuaxia
Search
License
  • Creative Commons Lisence
Copyright © 2011 Yang Fan. Powered by Fomalhaut 1.0b.