SEO Project: Yahoo slurp Supporting wildcards in robots.txt
Posted on November 8th, 2006 in SEO
ถือเป็นการชิงดีชิงเด่น ชิงไหวพริบกันดึงกลุ่มของ Webmaster กันก็ว่าได้นะครับ ระหว่าง yahoo และ google ที่ช่วงนี้พยายามออกอะไรใหม่ๆ ออกมาชิงกันก่อน
ซึ่งในยกแรกที่ผมเห็นนั้นคือ การที่ [tag]google[/tag] ออกมาประกาศ Meta tag “[tag]NOODP[/tag]” ไปก่อน จนทำให้ทางฝั่งของ yahoo ต้องมานั่งปรับตัวตามหลัง ในขณะที่ msn ยังไม่ขยับตัว ซึ่งคิดว่าทางฝั่งของ MSN น่าจะหมกเม็ดเจ้า Live search อย่างแน่นอนครับ แต่จะมี Algorithm หรือ อะไรใหม่ๆ ออกมานั้นต้องรอดูกัน (แต่ถือว่า แผ่วไปเยอะเลย)
แน่นอนว่า ทางฝั่งของ yahoo เลยต้องออกไม้เด็ดมาเพื่อชิงตำแหน่งบ้าง ในสังเวียนนี้ครับ เมื่อสองสามวันที่ผ่านมา Yahoo เลยประกาศใน blog ของ [tag]yahoo[/tag] search ว่า ได้สนับสนุนการใช้ wildcards ใน [tag]robots.txt[/tag] แล้ว
โดยตัวอย่างที่ yahoo ออกมาประกาศนั้นก็คือ
User-Agent: Yahoo! Slurp
Allow: /public*/
Disallow: /*_print*.html
Disallow: /*?sessionid
Disallow: /*.gif$
Allow: /*?$
โดยการใช้เครื่องหมาย * และ $ ในตัวของ robots.txt ครับ
เครื่องหมาย * นั้น แทนว่า อะไรก็ได้ เช่น ถ้าจากในตัวอย่างคือ
Allow: /public*/ หมายถึงว่า อนุญาติให้ bot ของ yahoo เนี่ยเข้าไปอ่านข้อมูลในโฟล์เดอร์ ที่ขึ้นต้นด้วย public ทุกอันครับ ดังนั้น หากเรามี folder ชื่อว่า public_html เจ้า bot ของ yahoo ก็เข้าไปอ่านได้ หรือ มี folder ที่ชื่อว่า public_document อย่างนี้ก็อ่านได้
Disallow: /*_print*.html หมายความว่า ไม่อนุญาติให้ bot ไป crawl ไฟล์ html ที่มี _print อยู่ในชื่อไฟล์ ดังนั้น ไฟล์ชื่อว่า new_print01.html จะไม่ถูกอ่านครับ
Disallow: /*?sessionid หมายความว่า ไม่อนุญาติให้วิ่งตามลิ้งค์ ที่มี ?sessionid ตามหลัก ซึ่งจะเห็นบ่อยในระบบพวก webboard หลายๆตัว รวมทั้ง cms ด้วย ที่จะมีการส่งค่า session id ไปในลิ้งค์ (ซึ่งโดยปรกติแล้ว bot มักจะวิ่งตามลิ้งค์พวกนี้ไม่ได้อยู่แล้ว)
ในขณะที่เครื่องหมาย $ นั้น จะหมายถึงจุดสิ้นสุดของ url ที่มีการร้องขอมา เช่น
Disallow: /*.gif$ หมายถึง ไม่อนุญาติให้ อ่านไฟล์ gif เลย ซึ่งหากไฟล์ชื่อว่า 01.gif ก็จะไม่ถูกอ่านครับ
Allow: /*?$ หมายความ อนุญาติให้ bot วิ่งตามลิ้งค์อะไรก็ได้ที่ มีเครื่องหมาย ? ลงท้าย ดังนั้น ถ้าเป็น www.abcd.com/index.php? ก็จะถูกอ่านครับ แต่ถ้าเป็น www.abcd.com/index.php?id=1 ก็จะไม่ได้รับอนุญาติครับ
ซึ่งปรกตินั้น เครื่องหมายอย่าง * ก็มีการใช้งานอยู่แล้ว สำหรับผมจึงรู้สึกว่า แทบไม่ต่างจากเดิมมากนักครับ เพียงแต่การใช้ $ นั้นก็เพิ่งจะมีเพิ่มขึ้นครับ
ปัญหาในขณะนี้ ยังคงน่าจะอยู่ที่ว่า จะมี bot อีกกี่ตัวที่ปรับให้สามารถใช้งานเจ้าสิ่งเหล่านี้ได้นั่นเอง แน่นอนว่าสำหรับ google งานนี้อาจจะดูเสียรางวัดกันไปหน่อยนึง เพราะในขณะนี้ ทางฝั่งของ google เองก็ยังพบปัญหาใน google codesearch ของตัวเองอยู่ ที่กลายเป็น1ใน hacking tool kit ไปอีกอันหนึ่งแล้ว ดังนั้นคิดว่า google ไม่น่าจะนิ่งเฉยในประเด็นนี้อย่างแน่นอน ครับ
แต่จะเมื่อไหร่นั้น คนที่จะตอบได้ดี ก็คงไม่พ้น google เองนั่นล่ะครับ
Relate entries
- Yahoo search scan.
ถือว่าเป็น ลูกเล่นใหม่จาก yahoo ครับ หลังจากที่ปล่อยให้ google safe search ออกมาก่อนไปนานแล้วจนสร้างปัญหา ให้กับหลายๆ... - SE News :Yahoo! Search Webmap (Yahoo! Developer Network blog)
แวะมาอัพเดทข่าวก่อนแล้วกัน เรื่องของ Yahoo search webmap. The Webmap build starts with... - SEO and Webhosting part 3 : International Gateway Factor.
เอาล่ะครับ พักผ่อนไปสองสามวัน หลังจากมีปัญหาจิตตก ตบะแตกกันไป เริ่มกลับมาเป็นปรกติแล้วครับ เหอๆ กลับมาต่อกันดีกว่า ครับเกี่ยวกับการทำ [tag]SEO[/tag] กับเรื่องของ... - Update Robots.txt for SEO #2
ก็เรียกว่าประกาศกันแล้วนะครับ สำหรับ Yahoo, ASK, MSN. เหลือ ค่ายใหญ่ อย่าง google ที่ยังไม่มีการประกาศอย่างเป็นทางการนะครับ... - Robots.txt for SEO.
สวัสดีปีใหม่ไทยครับ อิอิ สงกรานต์ไปเที่ยวไหนกันมาบ้างครับ ส่วนผมเองไม่ได้ไปไหนเลย นั่งเฝ้าหน้าคอมฯ ตลอดเลยครับ เพี้ยนเพ้อในโลกออนไลน์ไปเรื่อยๆครับ เอาล่ะ เข้าเรื่องกันเลยครับกับ [tag]robots.txt[/tag]...
Related posts brought to you by Yet Another Related Posts Plugin.
![RSS[Blog]](http://www.eblogbiz.com/wp-content/themes/eblogbiz20/images/rss.png)











เห็น article เกี่ยวกะ bot ของ msn แว๊บๆ
เด๋วตามไปอ่านก่อน