SEO project:Advance Google sitemap [part 1]

Posted on August 25th, 2006 in SEO

SEO

แวะกลับมาต่อกันเรื่อง[tag]การทำ seo[/tag] นะครับ ซึ่งหายไปหลายต่อหลายวันแล้ว ไปนอกเรื่องโน่นนี่ กันซะอย่างงั้นนะครับ ก็ไม่รู้เป็นเพราะความเพ้อจากการนั่งทำ presentation และเตรียมตัวทำ [tag]seo[/tag] training มาเป็นอาทิตย์นะครับ ตอนนี้เริ่มรู้สึกว่า จะมีคนใน office สนใจหลายคนแล้ว เหอๆ

งานนี้ของบ. นึงเค้าคิด 900 บาท แต่ของผมฟรี ครับ 555+ ก็โดน lock คอให้จัดนี่ครับ เลยต้องทำ (ไม่แน่นะ ถ้ามีคนเรียกร้องมามากๆ อาจจะหาเวลาจัดเองก็ได้ แต่จะหาเวลาได้ไหมเนี่ย สงสัย)

เอาล่ะเข้าเรื่องครับ โดยปรกติการทำ google sitemap เนี่ย เค้าก็คงจะคุ้นเคยกันกับ[tag]การทำ sitemap[/tag].xml มีรูปแบบทั่วๆ ไปที่ตายตัว ซึ่ง google เองก็ได้กำหนดไว้ว่า จะต้องไม่เกิน 50000 ลิ้งค์ หรือ 50000 url และไฟล์ [tag]sitemap.xml[/tag] จะต้องมีขนาดไม่เกิน 10 mb.

ถ้าเกินทำอย่างไรดีล่ะ ???

google ก็บอกว่า ให้ zip เป็น [tag]sitemap.xml.gz[/tag] ก็ได้ (แหม ช่างรู้ใจเสียจริงๆ) แต่ถ้าจะให้ผมมาเขียนบอกแค่นี้ว่า ให้เอา sitemap.xml ไปซิบ เนี่ย มันก็ดูกระไรอยู่ล่ะครับ เหมือนขวานผ่าซากยังไงอย่างงั้น มันต้องมีอะไรเพิ่มเติมสิ

เอาล่ะครับ แน่นอนว่า คงไม่ปล่อยให้อ่านแค่นี้แน่ๆ ครับ เริ่มต้นการทำ [tag]Advacnce sitemap[/tag] สำหรับ google กันเลยดีกว่าครับ

โดยปรกติแล้ว การทำ google sitemap ทั่วๆไปนั้น จะมี sitemap กันตัวเดียว คือ sitemap.xml หรือ sitemap.xml.gz เท่านั้น เพราะเว็บไซต์ ทั่วไปนั้น การที่จะมีเกิน 50000 ลิ้งค์ใน sitemaps นึงนั้น คงจะเป็นเรื่องไม่ง่าย (แต่ก็ไม่ยากสำหรับเว็บใหญ่ๆ)

จากในการที่ผมเองได้ลงไปทำ project ในการนั่งทำ seo ให้กับเว็บไซต์ gossipstar.com ซึ่งมองแนวทางแล้วค่อนข้างจะเป็นเว็บใหญ่ ที่จะต้องมองเผื่อว่า ถ้าเว็บมันโต ขึ้น sitemap ก็จะต้องใหญ่ขึ้นด้วย

เนื่อหาในเว็บถูกแบ่งออกมาเป็นส่วนๆ ตามคอลัมป์ แน่นอนว่า การทำ sitemap ออกมาทีเดียวนั้น ไม่ใช่เรื่องง่าย การ gen ไฟล์ xml โดยใช้การ query ข้อมูลออกมาทั้งก้อนแล้วเขียนนั้นโอกาสที่จะเสีย ต่อไปในอนาคตมีแน่ๆ ครับ

เพราะการคิวรี่ของมาเป็น url จำนวน 50000 url นั้นใหญ่เหมือนกัน หลายคนถามว่า ทำไมต้อง คิวรี่ทั้งหมดด้วยล่ะ ทำไม่มีคิวรี่แค่ส่วนที่ใช้งาน ลงมาเขียนเพิ่มลงไป ตั้ง cron ไว้อัติโนมัติก็ได้ ผมก็ตอบคำถามนี้ไปว่า ตัวเนื้อหาเนี่ย บางครั้งเวลาที่เราทำเว็บไปแล้วเนี่ย คงจะต้องมีการลบข้อมูลแน่ๆ ไม่ลบวันนี้พรุ่งนี้ก็ต้องลบ ดังนั้นถ้า cron เพิ่มของใหม่อย่างเดียวแล้ว ปัญหาที่อาจจะเกิดขึ้นคือ การเกิด 404 error จำนวนมาก เมื่อ google bot มาเยี่ยมเยียนได้

ดังนั้น นั่งคิดระบบ คิด อ่าน ค้น และก็พบว่า สิ่งเดียวที่ควรจะทำ คือการทำ sitemap index หลายท่านอาจจะสงสัยว่า sitemap index เนี่ย มันเป็นยังไง

ขออธิบายอย่างนี้ครับว่า การทำ [tag]sitemap index[/tag] คือ [tag]การทำ sitemap[/tag] หลัก และในตัวของ sitemap index ก็จะไปเรียก sitemap ย่อยๆ อีกทีหนึ่งครับ ถ้างง ให้นึกถึง ตัวระบบของเว็บไซต์ คือ sitemap index เปรียบเหมือนกับ เมนูหลัก ของเว็บไซต์ ที่จะลิ้งค์ไปยังหัวข้อต่างๆ และพอที่เข้าไปในส่วนย่อยนั้น ก็มี sub menu อีกครั้งหนึ่งครับ

ลองไปดู ลักษณะของ sitemap index กันก่อนนะครับ

{?xml version=”1.0″ encoding=”UTF-8″?>
     {sitemapindex xmlns=”http://www.google.com/schemas/sitemap/0.84″> 
          {sitemap> 
               {loc>http://www.example.com/sitemap1.xml.gz{/loc> 
               {lastmod>2004-10-01T18:23:17+00:00{/lastmod> 
          {/sitemap> 
     {sitemap> 
               {loc>http://www.example.com/sitemap2.xml.gz{/loc> 
               {lastmod>2005-01-01{/lastmod> 
     {/sitemap>
{/sitemapindex>

*** หมายเหตุ ให้เปลี่ยนตัว { เป็น < นะครับ

ตัว sitemap index จะเป็นอย่างนี้ครับ จากนั้นในตัวของ sitemapย่อย ต่างๆนั้น ก็จะเป็นในรูปแบบ zip นะครับ ซึ่งจริงๆ แล้วเท่าที่ลองดูนะครับ ไม่ต้อง zip เป้น sitemap1.xml.gz ก็ได้ครับ เป็นแบบ sitemap1.xml เลยก็สามารถใช้งานได้ครับ ไม่มีปัญหาแต่อย่างใดครับ และในตัวของ sitmap1.xml หรือ sitemap1.xml.gz นั้น ก็จะเป็นลักษณะของรูปแบบ sitemap.xml ปรกติ ที่เราใช้งานกันอยู่ครับ

sitemap index นี่ก็จะมีชื่อว่า sitemap.xml เฉยๆ ครับผม

ทีนี้กลับมาใน project นั้น ในตัวของ sitemap ย่อยแต่ละอัน จึงเป็น sitemap ของเนื้อหาในแต่ละหมวด ดังนั้นเวลาสั่ง cron ก็จะตั้งไว้ ให้มัน cron ทีละชุด ทุกวันครับ ดังนั้นเนี่ย การจัดการจึงจะมีการจัดการอย่างเป็นระบบครับ

ซึ่งตรงนี้เนี่ย มันจะช่วยเราได้เยอะ โดยเฉพาะอย่างยิ่ง เว็บไซต์ใหญ่ๆ ครับ ที่มีเนื้อหามากกว่า ที่ google กำหนดไว้นั่นเองครับ ซึ่งคิดง่ายๆ นะครับ จากตัวอย่างทีใน sitemap index ด้านบน มี sitemap1 และ sitemap2

เวลาที่ bots เข้ามาเก็บเอา sitemap ไป ระบบของ google จะมาดึงไปทีละขั้นครับคือ ดึงเอา sitemap.xml ซึ่งเป็น sitemap index ของเราไปก่อน เมื่อมันเช็คเจอว่า เราใช้ sitemap index มันก็จะมีดีงเอา sitemap1 และ sitemap2 ไปอีกทีหนึ่ง

นั่นหมายความว่า sitemap1= 50000 url , sitemap2= 50000 url กลายเป็นทั้งหมดคือ 1 แสน url ซึ่งเรียกได้ว่า เยอะเอาการแล้วล่ะครับ ซึ่งในตัวของ sitemap index นั้น ก็คิดว่าน่าจะอยู่ได้ 50000 url เช่นกัน กลายเป็น สามารถทำ sitemapจำนวนมหาศาลเลยล่ะครับ

ซึ่งจริงๆแล้ว ผมแนะนำอย่างนี้ครับว่า ตัวของ sitemap1 , sitemap2 หรือ พูดง่ายๆคือ sitemap ย่อย นั่นล่ะครับ ควรจะ zip เป็น .gz เสียให้เรียบร้อยครับ เพื่อความรวดเร็วในการที่ bots จะมาเก็บลิ้งค์เอาไป

เพราะการที่ bots มาดูดเอา sitemap เราไปนั้น ก็เหมือนกับการที่ user มาใช้งานในส่วนนั้นเช่นกัน หากเราไม่ทำการ zip ไว้ จะเกิดปัญหาเรื่อง bandwith ที่จะเสียให้กับ bots ได้ครับ

อีกทั้ง ช่วยให้ bots สามารถดึงไปได้อย่างรวดเร็วอีกด้วยครับ

ลองนำไปใช้กันดูนะครับ คิดว่า น่าจะมีประโยชน์ครับ ซึ่งไม่จำกัดนะครับว่า การทำแบบนี้ จะต้องเมื่อเรามี sitemap ที่มีขนาดเกินกว่าที่ google กำหนดแล้ว จึงค่อยทำ แต่เราสามารถนำมาใช้งานได้เลยครับ

ปล. บอกก่อนนะครับว่าการทำ google sitemap ยังไม่จบแค่แบบนี้เท่านั้น ยังมีอีกครับแล้วจะนำมาเสนอในตอนต่อๆ ไปนะครับ

Share and Enjoy:
  • TwitThis
  • Digg
  • Google
  • Facebook
  • del.icio.us
  • Slashdot
  • Technorati
  • LinkedIn

Tags Comment

Relate entries

  • Flash SEO, Improved your flash index.
    ถือเป็นภาคต่อจาก เมื่อวานแล้วกันครับ เกี่ยวกับเรื่อง การทำ SEO กับ Flash ครับ ซึ่งผมขอแปล และจะแทรกความคิดเห็นผมเข้าไปด้วยนะครับ...
  • About Google and Crawl rate.
    อัพเดท กันอีกแล้วครับ 555+ หลายท่านที่แวะเวียนเข้ามา อาจจะเห็นก่อนหน้านี้ เห็นว่าผมเขียนประกาศพักอัพเดทชั่วคราว แต่พฤติกรรมมันกลับตรงกันข้ามโดยสิ้นเชิงครับ 555+ งานนี้ ก็คงต้องบอกว่า...
  • Google Video Sitemap.
    ห่างหายหน้า หายตาไปนานโคตร กับเนื้อหาเรื่อง seo ในบล็อกครับ เพราะเนื่องจากช่วงนี้ ถือเป็นช่วงสิ้นปีที่ต้องรีบทำผลงาน เอ้ย เคลียร์งานครับ ทำให้งานที่วิ่งเข้ามาประดังประเด...
  • SEO and Webhosting part 3 : International Gateway Factor.
    เอาล่ะครับ พักผ่อนไปสองสามวัน หลังจากมีปัญหาจิตตก ตบะแตกกันไป เริ่มกลับมาเป็นปรกติแล้วครับ เหอๆ กลับมาต่อกันดีกว่า ครับเกี่ยวกับการทำ [tag]SEO[/tag] กับเรื่องของ...
  • SEO and Webhosting part 2 : Thai Hosting VS Inter Hosting
    อ่าแวะมาต่อกันดีกว่าครับ กับเรื่องของ การทำ [tag]seo[/tag] กับการ [tag]hosting[/tag] ครับ คราวก่อนเป็นเรื่องของ free host...

Related posts brought to you by Yet Another Related Posts Plugin.

1 Comment »

  1. [...] กลับมาต่อกันที่ Advance google sitemap กันต่อนะครับ ซึ่งต่อจากคราวก่อนโน้น นะครับ สำหรับ google sitemap ที่ใครก็บอกว่า ต้องทำ xml นะ ต้องไปนั่ง Gen sitemap.xml กัน ทั้งที่ต้องไปหาโปรแกรม Gen กันมา หรือว่า ไปใช้ Online service น่ะครับ ซึ่งจริงๆแล้ว อย่างที่ได้บอกไปแล้วว่า มัน Google เองนั้น มีให้เราได้เลือก หลายรูปแบบด้วยกันครับ [...]

Leave a comment