YangFan.net

Tag : 搜狗 Search in Google

拼音大战,流弹命中微软

  这几天谷歌拼音搜狗拼音来来往往,炒得不可开交(有人提醒我说这里是吵,不过我觉得区别不大),其他公司在一边敲锣打鼓看热闹。可是所谓刀枪无眼,这看热闹的中间就有个不小心被误伤的。误伤也就罢了,关键这位是陈年老伤,包裹得严严实实,结果,双方各一下,恰恰都打中了他致命之处。
  这位可怜的仁兄叫微软,捧着个宝贝Vista,走街串巷大肆叫卖。微软好歹也是个老员外,大家都给点面子,所以无论是谷歌还是搜狗,做个拼音出来都要支持一下Vista,本来就是好意,让Vista用户能用得更爽。结果没想到刚上来,给Vista的不是好处,而是一人一下闷棍。
  微软自称Vista采用了某某某某高新尖技术,安全性百分百有保障,大家可以放心使用。作为证明,好多原来可以跑得好好的软件都跑不起来了——因为不够安全!所以大家纷纷鼓掌叫好。
  谷歌拼音本来也是去鼓掌的——尽管谷歌和微软没啥深交,前阵还耍过嘴皮子——但是这时候也要支持一下。于是拼音发布了,能在Vista下用得顺畅。不到一天,就有人来报,在Vista登录前,调出谷歌拼音,一键搜索,居然就打开了个浏览器,然后……打开浏览器能干什么谁都知道。微软精心构造的安全系统就被谷歌一不小心给破解了。此时舆论哗然,各路小报记者纷纷出动,探个究竟。谷歌很无奈,原是好意,结果却砸了人家牌子。
  那头搜狗见谷歌不小心捅破了微软的宝贝,暗自高兴,编排了不少文章出来,说谷歌拼音不安全——其实都知道是谁不安全——结果呢?搬起石头还没砸出去呢,就把自己也栽进去了。在Vista登录前,调出搜狗拼音,选择换肤,然后……我们又见到了浏览器!
  话说微软尽管看得真切,但是却做了鸵鸟,装作不知,也可能是做了大象,还没反应过来,总之就是对自己硕大的安全漏洞不闻不问。幸好谷歌反应迅速,第二天就在自己程序里把那个不小心攻破Vista的代码给改了,算是再给微软一点面子。搜狗也算不错,说是要改这个问题,当然还在忙于吵架一时半会没空去改。不过至少这俩炒得厉害的对头,在这事上还是一起为用户着想了,尽管有快手慢手之分。
  可是问题在于,谷歌搜狗是不做病毒的,也是不希望用户被病毒干掉的,所以能自己改了,但是其他人呢?江湖水这么深,哪个角落里没有高人?哪里不能风起云涌再烧三柱香?回想当年,2000的那个经典漏洞,同样是登录前,同样是输入法,同样的老眼昏花不闻不问了好久。微软这回是唱着Yesterday Once More,走进了新时代……
2007-04-10 23:43 | Category : Blog | Comments (5)

是谁小鸡肚肠?又是谁在流氓?

  首先打开http://blog.sohu.com/robots.txt,看到以下内容:
   User-agent: Googlebot
   Disallow:
   User-agent: baiduspider
   Disallow: /
   User-agent: Nutch
   Disallow:
   User-agent: *
   Disallow: /
  可以看到,搜狐博客禁止了除了Google和Nutch之外一切搜索引擎的抓取,而且还单独把百度拿出来深恶痛绝地鞭尸。这显然是小鸡肚肠的行为,对用户很不负责——因为别人无法通过搜索引擎搜到自己的博客内容。但是且慢,真的如此吗?
  在各个搜索引擎用site:blog.sohu.com进行搜索。
  首先是Google的结果,共有搜索结果417000项,全部是三级域名xxxx.blog.sohu.com这样的首页,任意找一个xxxx.blog.sohu.com去site:一下,可以看到还是都抓到内容的。417000,是一个三级域名的数量,差不多也就是他抓到的搜狐博客的用户数量。
  然后是搜狗的结果,2984875个页面,看到的也都是三级域名,随便找个继续site:,可以看到只有首页没有内容,说明sogou就算是在自己家也还是很道德的。至于为什么sohu博客吃里扒外让Google抓却不让自家的sogou抓,那就要去问张朝阳了。
  接着给出有道的结果:抱歉,没有找到与 "site:blog.sohu.com" 相关的网页。很好,遵纪守法。
  最后隆重推出百度的结果,找到了131000篇,数量不是关键,关键是它的结果从第二篇开始就是内容页面,也许是百度不敢太过分,从外部过来的页面抓了之后看了眼robots.txt,于是不再往下继续,但是好歹,有外链的全给抓了(应该不是全部,否则数量也太少了)。这只有三种可能,一是百度不懂robots.txt的规范,二是百度装作不懂,做了流氓——还好它没全抓,否则就不是流氓而是黑社会了,第三就是只抓外链页面是允许的,我个人感觉这种可能性不大。地震震得w3c网站连不上,所以也确定不了。
  看完sohu的,再来看看流氓百度家的http://hi.baidu.com/robots.txt,内容如下:
   User-agent: Baiduspider
   Disallow:
   User-agent: Googlebot
   Disallow:
   User-agent:
   Disallow: /
  流氓就是流氓,比他强的他不得罪,比他弱的,全部封杀。至于最后那个User-agent为什么不加个*,我就不知道了。这样写是不是符合规范呢?如果不符合,那就是白写,就算页面被人抓了也是白抓。那么来看看site:hi.baidu.com的搜索结果。
  首先还是Google的结果,只有96400个结果,都是每个人的首页!而且搜几个朋友的百度空间,发现只有首页没有内容,也就是说,Google也许只抓了每个人的首页,即使它被允许全抓。
  然后是有道的结果,和Google一样,只有每个人的首页而没有内容,一共171000条。有道还是挺听话的。至于为什么数量几乎是Google的两倍,很简单,因为Google没有抓中文目录,而有道抓了。正好这里顺路鄙视一下百度这么大个家伙居然还允许用户用中文目录名。
  百度自己的结果在这里就没有什么意义了,4980000条,挺多。
  最后是搜狗的结果,667756项。结果很眼熟是吧,没错,就是和百度搜搜狐博客的结果非常像,应该是只抓了外部有链接的,没有继续扒拉。
  好了,结果出来了,搜狐博客和百度空间,毫无疑问,都不是合适的BSP,因为它们连用户内容被检索的自由都不给。相比之下同样是门户的博客,新浪和网易至少没有从robots.txt上去做手脚。
  谁是流氓呢?在能找全robots.txt规范前不下定义,但是比较显然的是,百度流氓的可能性很大,而搜狗的以彼之道还致彼身很可能因为百度自己的写法错误而只能让百度有苦说不出。
2007-01-12 21:30 | Category : Blog | Comments (4)

搜狗的新玩具

  今天四处都有人在传搜狗文学水平评测系统,从URL地址来看,应该是个还处于测试期的服务,或者说是个不小心泄露出来的内部服务(页面Sogou Rank只有2)。从其评测内容来说,更多的是一个用词风格拟合系统而不是水平评测系统,这两者区别也太大了点。至于它的具体评测方法,胡烈学派著名文人lily同学在测试了一些自己的小说之后作出了如下猜测:分词先,然后统计词频,然后以词为单位怎么着筛选一下,再构造一个特征向量,和数据库里已经存好了的那些特征向量算一个余弦,取最近的三个结果给出来。另外,也有人测试了把文章里空格标点都去掉,测试结果没有改变,这证明判断是基于文字本身的,至少没有说短句多的就像古龙之类的判断,也就是说是用词风格的评价而不是句式的评价。
  当然,以现在的程度,其功能只能如其页面所言“提供乐趣,让您的生活更加丰富多彩”。另外,还有一些很弱智的问题,例如把金庸的小说扔进去,判断出结果最像鲁迅,其次才是金庸自己,再把路遥《平凡的世界》塞进去,相似度前三名分别是古龙,余华和王朔。这些应该都是训练数据吧,都拟合成这样。另外,由于作家库里没有罗贯中,于是三国演义的测试结果相似度最高的是易中天,这使得我充分怀疑是不是所有诸如刘备曹操新野襄阳这样的专有名词都给匹配进去了。
  不过总的来说,作为一个新奇的玩具而言,它的设计创意也很能吸引人了——当然,作为一个评测系统,还要多多努力。
  行文之此,随手把本文上面部分贴入该系统,结果是:易中天92%,余秋雨4%,金庸1%。如果把那段“另外,由于作家库……给匹配进去了。”删除,再去匹配,结果就是余秋雨64%,刘墉19%,余华2%。这充分说明了我的猜想极其正确。
  最后贴一些我自己写的完整的文章的测试结果并进行分析。首先是《星之璨》的第一到第十五回:
    第一回 古龙17%,老舍12%,韩寒10%      第二回 古龙22%,韩寒15%,张恨水12%
    第三回 古龙17%,二月河17%,琼瑶11%     第四回 古龙28%,金庸14%,张恨水13%
    第五回 古龙31%,张恨水17%,曹雪芹13%    第六回 古龙16%,韩寒16%,二月河12%
    第七回 古龙22%,张恨水12%,阿越11%     第八回 古龙30%,张恨水16%,曹雪芹12%
    第九回 古龙23%,余华17%,张恨水11%     第十回 古龙26%,余华16%,张恨水15%
    第十一回 古龙26%,张恨水13%,阿越12%    第十二回 古龙27%,张恨水13%,曹雪芹11%
    第十三回 古龙23%,余华12%,张恨水12%    第十四回 古龙24%,韩寒12%,张恨水12%
    第十五回 韩寒33%,古龙14%,金庸10%
  简要分析一下,这个结果可以说明这个系统的测试标准和结果还是有迹可循的(当然也能说明我的文章用词也有规律)。不过弄不懂的是为什么古龙总是高居榜首,也许是有一些高度吻合的字词,就好比我在任何文章里加入10遍“刘备曹操新野襄阳”,结果一定是易中天第一一样。
  再分析一些以前写的,凑合着自己能看得过去留下来的散文杂文什么的,结果也挺不错。标题略去,熟悉的人可以猜猜这些文章各是什么。
    余秋雨27%,古龙17%,余华10%    余秋雨不错,这篇模仿他的,可是古龙哪里冒出来的
    易中天36%,贾平凹23%,刘墉14%   搞笑的结果,我不过就是文章里有一个曹操而已……
       乙删掉一个曹操之后 贾平凹36%,刘墉23%,郭敬明11%
    郭敬明21%,张小娴13%,林语堂12%  凑和吧,证明他作家库里少一个人。
    二月河20%,古龙20%,琼瑶19%    可以接受的结果
    古龙23%,郭敬明14%,刘墉13%    为什么又是古龙……
    痞子蔡19%,皮皮18%,古龙18%    这个很荒诞
    金子19%,古龙17%,鲁迅12%     金子是谁??
  上面的结果对于一个测试产品来说不错了,比我想象的好。当然,古龙和易中天这俩,一定是有数据问题。古龙是极其频繁,而易中天,一个曹操就能出36%,已经可以算是黑洞bug了。哪位看到这篇文章的搜狗的总,不如把这个bug报上去然后请我吃个饭……
Tag: , ,
2006-10-25 21:04 | Category : Blog | Comments (2)

雅虎广告大片

  今天雅虎中国发布了三名大导演陈凯歌,冯小刚和张纪中拍摄的广告片,据说耗资千万,气势不凡。于是,慕名去观赏了一番。
  陈凯歌版
  女知青和狗的故事。唯一一个从头到尾与雅虎,与搜索,甚至与电脑无关的广告。15秒的版本是最好的,干净利索。1分钟的版本则把故事讲透了,感情也到位,也强调了搜索,只不过最后啥都没找到,却蹦出一句“生活,因找到而快乐”,显得有点奇怪。6分钟的长版本,看上去就像是个优美的艺术片,而不是广告,最后的问题和1分钟版本一样,广告词出得有些突兀。另外,陈凯歌是不是不知道有个叫搜狗的搜索引擎?如果这个广告能打80分的话,把最后的广告词改成搜狗而不是雅虎,那么绝对可以打到95分以上!马云出钱,倒给张朝阳做了广告。
  冯小刚版
  一贯的,冯小刚式的搞笑风格,范伟的表演也很是出色。8分钟长版比较好,故事完整到位,冯氏风格明显,对雅虎的使用也贯穿其中。而1分钟那个版本有些头重脚轻,前面那段长了点。15秒的版本就剪得不错,关键点都出来了,还着重了个免费搜索……虽然啥搜索都是免费的。总的来说,我最喜欢冯小刚版的。
  张纪中版
  15秒版本凑合,1分钟版本也凑合,好歹也搜了点东西,而且有起有承,能看个热闹。完整的9分钟版本就不堪入目了,画面倒是精美,剧情明显抄袭《神话》,节奏拖沓。白拍这么长,得浪费多少钱啊。顺便说一句,定格下镜头可以发现,张纪中的搜索结果,是在国学网里的。
Tag: , ,
2006-09-29 19:05 | Category : Blog | Comments (3)

搜狗拼音输入法 测试感受

搜狗的总们很出乎意料地弄个输入法出来。不过利用搜索引擎现成的词频来做输入法,确实是个很牛的点子,而且做得还是相当地不错。
这里先来挑几个毛病,次序不分先后:
1. 我不喜欢它天蓝和红的两种文字颜色。并不是说我不喜欢这个颜色本身或者这个色调搭配,而是这样高饱和度的颜色不太适合作为输入法的选字色,看久了不舒服。这是个小问题,不过选项中可以修改颜色是否能更吸引人呢?
2. 难道开发人员都没发现设置界面里面的所有按钮都比大家习惯的按钮要大一号吗?特别是高度上,一眼就看出来了。这应该不是故意的,而是开发的时候随意了一把。因为关于界面里的按钮就是正常大小。
3. 为什么不能输入繁体字呢?
4. 在某些特定软件下有点问题。比如wow中,微软拼音是显示自己的选词条,智能ABC是显示游自己里的选词条,而sogou两个都显示。然后我选好词之后,有一定概率显示不出来,必须再打个字才能把前面的一起显示出来。
5. 在bbs的时候,无论我用微软拼音还是智能abc,按=都可以找到同主题第一篇文章,但是在搜狗拼音的时候就不能。也就是说,=虽然在搜狗拼音中直接输入没有意义,但是,被吃掉了。
6. 这不是一个软件问题,而是网页上的“首选词准确率测试结果对比”。这样的比较不应该出现在官方页面上,显得不够大气。用软文或者其他方式可以达到同样或者更好的效果。
本文使用搜狗拼音输入法完成,感觉还不错。按此进入搜狗拼音输入法主页>>>
2006-06-06 00:48 | Category : Blog | Comment (1)
Subscribe Atom
  • Subscribe to google
  • Subscribe to bloglines
  • Subscribe to zhuaxia
Search
License
  • Creative Commons Lisence
Copyright © 2011 Yang Fan. Powered by Fomalhaut 1.0b.