<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>I&#039;m qiqiboy ! &#187; baidu</title>
	<atom:link href="http://www.qiqiboy.com/tags/baidu/feed" rel="self" type="application/rss+xml" />
	<link>http://www.qiqiboy.com</link>
	<description>一个very朝气的小孩子...</description>
	<lastBuildDate>Wed, 18 Jan 2012 03:32:41 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>不遵守游戏规则的百度、搜狗</title>
		<link>http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html</link>
		<comments>http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html#comments</comments>
		<pubDate>Fri, 25 Dec 2009 05:55:00 +0000</pubDate>
		<dc:creator>qiqiboy</dc:creator>
				<category><![CDATA[Information]]></category>
		<category><![CDATA[baidu]]></category>
		<category><![CDATA[bing]]></category>
		<category><![CDATA[google]]></category>
		<category><![CDATA[PHP]]></category>
		<category><![CDATA[yahoo]]></category>
		<category><![CDATA[爬虫]]></category>

		<guid isPermaLink="false">http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html</guid>
		<description><![CDATA[<p>通过一周来的观察，终于等到baidu、google，Yahoo，soso，bing，sogou等更新了首页快照。但是我发现，除了百度和搜狗，其它搜索引擎都按照我的设置正常抓去了首页快照，只有百度和搜狗居然无视一般照样抓取普通访客看到的列表式首页。难道是我设置有误？</p><img src="http://farm3.static.flickr.com/2677/4212703704_1d2a03a434_o.gif" width="463" height="175" class="aligncenter sided" alt="baidu_logo" />]]></description>
			<content:encoded><![CDATA[<p>或者，标题也可以改为“难以捉摸的百度、搜狗”。</p>
<p>上周，我将首页展示方式改为列表式呈现。为了照顾搜索引擎抓取到首页更多的信息，我在网上找了一种对搜索引擎和普通访客分别展示不同内容的方法。大致就是通过服务器判断请求数据的用户的userAgent中包含的信息，符合各家的爬虫软件信息的就向其提供另一种展示界面。简单来说，我就是通过这种方法向搜索引擎的爬虫软件展示首页“more”截断式首页。</p>
<p>通过一周来的观察，终于等到baidu、google，Yahoo，soso，bing，sogou等更新了首页快照。但是我发现，除了百度和搜狗，其它搜索引擎都按照我的设置正常抓去了首页快照，只有百度和搜狗居然无视一般照样抓取普通访客看到的列表式首页。难道是我设置有误？</p>
<p> <span id="more-1920"></span>
<p>我检查了一下，确认没有问题，爬虫名称我也正确书写了。既然不起作用，我只能猜想百度和搜狗的爬虫没有将自身信息包含进Http_User_Agent这个字段里。服务器检测不到它们的信息就只能展示一般的列表式首页了。</p>
<p>但是屏蔽搜索引擎一般做法是在网站根目录放置robots.txt，比如要屏蔽百度，内容为</p>
<blockquote><pre>User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /</pre>
</blockquote>
<p>至少淘宝是这么做的，<a title="http://www.taobao.com/robots.txt" href="http://www.taobao.com/robots.txt" target="_blank">http://www.taobao.com/robots.txt</a>。虽然都说百度不遵守robots协议，但是淘宝既然这么做，说明百度也并不是完全不遵守，这样也是有作用的。这里判断爬虫信息也是通过user-agent ,现在还能在百度里搜到淘宝网站的信息，看来百度真的是不理别人对自己的称呼。就如同我们都知道头上带套子那人叫百度，但是那丫偏偏要在套子外面带个帽子伪装自己。写个牌子：带套的人不准进。百度非说，我没带套子，我就要进。进去后却立马将帽子摘下顶着套子胡作非为。于是，所有人都知道，百度来过了。但是也只能心里呐喊：明明门口写了牌子不准带套儿的进呀！！！</p>
<p>所以说，百度爬虫访问网站时是隐藏自身信息的，抓取时却又留下自身信息。所以通过常规方法无法识别百度爬虫。</p>
<p>搜狗看来也一样。</p>
<p>目前我很看好soso，现在天天爬的很勤快，不愧在google手下学了两年的。</p>
<p>鉴于以上情况，我只好对首页文章输出方式进行了更改，将第一篇文章按普通摘要方式输出，其余文章还是列表输出，然后再向第二和第三篇文章动态加载数据。这只是为了照顾一下百度搜狗，其它搜索引擎还是会抓取more截断式首页。</p>
<p>最后提供一下快照链接，有兴趣的可以点击查看快照与本站首页的区别。如果网页过期请自行查看。</p>
<p>带套子的：<a href="http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece763105392230e54f72067948b45229f8448e435061e5a72a6e667741f4588832b7000dc0c19afe73605745863eccb95c35dddccc37570&amp;p=aa3f8915d9c70ee918be9b7d1c&amp;user=baidu" target="_blank">百度</a> <a href="http://www.sogou.com/websnapshot?url=http%3A%2F%2Fwww.qiqiboy.com%2F&amp;did=6d41e79dc3b5081e-87abd4d5df00fb20&amp;encodedQuery=&amp;query=site%3Awww.qiqiboy.com&amp;&amp;w=01020400" target="_blank">搜狗</a></p>
<p>正常抓取：<a href="http://203.209.253.250/snap/webcache.php?ei=UTF-8&amp;icp=1&amp;u=www.qiqiboy.com/&amp;w=qiqiboy&amp;d=b6FRQkLUUAjX&amp;sig=b6ea3967c1550d80df770f4861d4070e&amp;cq=qiqiboy" target="_blank">雅虎</a> <a href="http://203.208.39.132/search?q=cache:uX_yRv-xPgQJ:www.qiqiboy.com/+site:www.qiqiboy.com&amp;cd=1&amp;hl=zh-CN&amp;ct=clnk&amp;gl=cn&amp;st_usg=ALhdy28_oOgmnFzz5UfYAYMWTlhBEsHfQA" target="_blank">谷歌</a> <a href="http://snapshot.soso.com/snap.cgi?d=7187120951935868355&amp;w=site%3Awww.qiqiboy.com&amp;u=http://www.qiqiboy.com/" target="_blank">搜搜</a> <a href="http://cncc.bingj.com/cache.aspx?q=&amp;d=4618477171574207&amp;mkt=zh-CN&amp;setlang=zh-CN&amp;w=b3ae0b0c,7060eaa5" target="_blank">必应</a></p>
<p><img alt="baidu_logo_jr_0912_shd" src="http://farm3.static.flickr.com/2677/4212703704_1d2a03a434_o.gif" width="463" height="175" />
<div class="wlWriterHeaderFooter" style="margin:0px; padding:0px 0px 0px 0px;">
<p>&#160;</p>
<p style="background: url(http://www.qiqiboy.com/wp-content/themes/bluePaled/img/hang.gif) no-repeat scroll 300px top;" align="right">——By <a href="http://WWW.qiqiboy.com">QiQiBoY</a></p>
</div>
<ul class="related_post"><li><img src="http://www.qiqiboy.com/wp-content/themes/windPaled/timthumb.php?src=http://www.qiqiboy.com/thumbcache/3978823541_8bf8ffcb2c_o.gif&amp;h=100&amp;w=100&amp;zc=1" alt="Google AdSense的放置——PS：没错，我现在也放了" class="thumb" /><a href="http://www.qiqiboy.com/2009/12/19/put-google-adsense-code-in-my-site.html" title="Google AdSense的放置——PS：没错，我现在也放了">Google AdSense的放置——PS：没错，我现在也放了</a> (48)</li><li><img src="http://www.qiqiboy.com/wp-content/themes/windPaled/timthumb.php?src=http://www.qiqiboy.com/wp-content/uploads/2011/09/rrr.png&amp;h=100&amp;w=100&amp;zc=1" alt="wordpress 搜索自定义字段(模糊查询)" class="thumb" /><a href="http://www.qiqiboy.com/2011/09/14/query-posts-by-postmeta.html" title="wordpress 搜索自定义字段(模糊查询)">wordpress 搜索自定义字段(模糊查询)</a> (17)</li><li><img src="http://www.qiqiboy.com/wp-content/themes/windPaled/timthumb.php?src=http://www.qiqiboy.com/wp-content/uploads/2011/08/demo.png&amp;h=100&amp;w=100&amp;zc=1" alt="wordpress 按首字母排列文章/检索文章" class="thumb" /><a href="http://www.qiqiboy.com/2011/08/10/wordpress-search-post-by-first-char.html" title="wordpress 按首字母排列文章/检索文章">wordpress 按首字母排列文章/检索文章</a> (19)</li><li><img src="http://www.qiqiboy.com/wp-content/themes/windPaled/timthumb.php?src=http://www.qiqiboy.com/wp-content/uploads/2011/06/5.png&amp;h=100&amp;w=100&amp;zc=1" alt="wordpress的微博时间显示方法" class="thumb" /><a href="http://www.qiqiboy.com/2011/06/10/sina-weibo-timestamp-function-2.html" title="wordpress的微博时间显示方法">wordpress的微博时间显示方法</a> (18)</li><li class="last"><img src="http://www.qiqiboy.com/wp-content/themes/windPaled/timthumb.php?src=http://www.qiqiboy.com/wp-content/uploads/2011/02/312e53cfb85c.gif&amp;h=100&amp;w=100&amp;zc=1" alt="WordPress技术: 无限多级楼层显示" class="thumb" /><a href="http://www.qiqiboy.com/2011/02/02/unlimited-multi-level-floor-display.html" title="WordPress技术: 无限多级楼层显示">WordPress技术: 无限多级楼层显示</a> (61)</li></ul><p><strong>声明:</strong> 本站遵循 <a href="http:\/\/creativecommons.org/licenses/by-nc-sa/3.0/">署名-非商业性使用-相同方式共享 3.0</a> 共享协议. 转载请注明转自 <a href="http://www.qiqiboy.com">I'm qiqiboy !</a> </p> <p>本文地址: <a href="http://qiqi.boy.im/2w">http://qiqi.boy.im/2w<a></p><span style="background:#cc5566;color:#fffff;"><h4>Look, this post is replyed so hot, let's go O(∩_∩)O~.</h4></span><h3>Related comments</h3><ul><li>2010年01月14日, <a href="http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html#comment-1387">feln</a> say: 咱们还是支持谷歌吧</li><li>2010年01月10日, <a href="http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html#comment-1350">吖Bee</a> say: 搜狗跟雅虎.......我几年都没有碰过...</li><li>2010年01月8日, <a href="http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html#comment-1324">江流</a> say: 百度是坏蛋，搜狗是变态</li><li>2010年01月3日, <a href="http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html#comment-1267">eRic.</a> say: 唉 我现在都不在乎这些了。。
他爱怎样怎样。、</li><li>2010年01月3日, <a href="http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html#comment-1261">秦大少</a> say: 自打换了域名，百度那里就我一个首页……
快照倒是常更新，但就是不收录其它页面，真的郁闷。</li><li>2009年12月31日, <a href="http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html#comment-1220">柳城</a> say: 恩.这个的确是.. 喜欢google</li><li>2009年12月28日, <a href="http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html#comment-1187">QiQiBoY</a> say: <a href='#comment-1186' title='吓我一跳' rel="nofollow">@ 吓我一跳 </a>: 你用Baiduspider+试试，百度爬虫爬行时是带一个“+”小尾巴的。。</li><li>2009年12月28日, <a href="http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html#comment-1186">吓我一跳</a> say: 这个得学着接受，以前我在空间上建了一个目录在里面放了一个mp3文件，我都在robots上对那个目标表明了Baiduspider Disallow，结果，没过一个星期空间把主机暂停掉了，原因就是那个mp3文件下载量过大占用带宽影响别人正常使用。我去百度mp3一搜，那个mp3名称，排第二！</li></ul>]]></content:encoded>
			<wfw:commentRss>http://www.qiqiboy.com/2009/12/25/non-compliance-with-rules-of-the-game-baidu-sogou.html/feed</wfw:commentRss>
		<slash:comments>30</slash:comments>
		</item>
	</channel>
</rss>

