มีอะไรใหม่ๆ ฉลอง Before Valentine มากันอีกแล้วนะครับ กับ วิธีการแก้ปัญหา duplicate content หรือเนื้อหาซ้ำกัน ซึ่งเป็นปัญหาใหญ่เหมือนกันครับ เลยทำให้ ยักษ์ใหญ่แห่ง Search engine ทั้ง สาม คือ Google, Yahoo และ live Search ของ MSN ออกมาสร้างมาตรฐานเดียวกัน อีกครั้ง กับ tag ที่ชื่อว่า "canonical"
ปัญหาของ Duplicate Content คืออะไร???
ปัญหานี้ เป็นปัญหาที่เนื้อหาซ้ำซ้อนกัน ซึ่งอาจจะเกิดจากความผิดพลาดในตัวของระบบ ที่เราคาดไม่ถึงครับ เป็นต้นว่า ในระบบเว็บบอร์ดหลายๆตัวอย่าง PhpBB หรือ SMF มักจะมีการเพิ่ม Session idเข้าไปต่อท้าย url นั่นเองครับ เช่น
url ปรกติที่ใช้งาน : www.example.com/forums/index.php
Url ที่ระบบเพิ่ม Session id : www.example.com/forums/index.php?sid=xxxxxxxxxxxxxxxxxxxxxxx
หรืออาจจะเกิดจากปัญหา ของในระบบมีหน้าที่สำหรับไว้พิมพ์โดยเฉพาะ ที่จะถูกตัดเนื้อหา,โฆษณา หรือรายละเอียดที่ไม่เกี่ยวข้องออกเพื่อให้ประหยัดและเหมาะสมกับการพิมพ์ออกมาเก็บไว้อ่านครับ ตัวอย่างเช่น
Url ปรกติ : www.example.com/forums/view-somecontent.php
urlของหน้าสำหรับพิมพ์ :www.example.com/forums/view-somecontent.php?view=print
ซึ่งไม่ว่าจะเป็นกรณีใดที่ยกตัวอย่างมา ล้วนแล้วแต่เป็นเนื้อหาเดียวกัน ซ้ำกันทั้งนั้นครับ และ Search engine ส่วนใหญ่ ไม่ค่อยปรารถนา เนื้อหาพวกนี้เลย
Effect ของ Duplicate Content.
หลายคนอาจจะมองว่า ปัญหาของ Duplicate เหล่านี้ ไม่น่าจะมีผลอะไร น่าจะเป็นผลดีที่ทำให้เว็บเรามี index ในgoogle หรือ Yahoo เพิ่มขึ้นด้วยซ้ำ
แต่ไม่เลย สิ่งเหล่านั้น ตรงข้ามโดยสิ้นเชิง เพราะว่า ในเมื่อมันเป็นเนื้อหาเดียวกัน เราคงปฏิเสธไม่ได้ว่า สิ่งต่างในหน้านั้น มันก็เท่ากัน ไม่ว่า Keywords density, page size เนื้อหา ซึ่งมันกลายเป็นว่า มันมาแบ่งความน่าเชื่อถือ แบ่งคะแนนของหน้าหลักลงๆไปนั่นเอง
พูดง่ายคือ เหมือนเกิดคู่แข่งมาหารคะแนนกันเพิ่ม นั่นล่ะครับ ประดุจดั่ง มีอาหารอยู่เหมือนกัน แต่ดันจัดเป็นสองชุดแบ่ง คนละครึ่งจาน สุดท้ายแล้ว เมื่อบอทมากิน ก็ร้อง "โอ้วไม่ถูกต้อง คนแบ่งอาหารผมจากจานเดียว ออกเป็นสองจาน อย่างนี้คุณโกงผมนี่"
ท้ายที่สุด คุณเคยเจอปัญหาอย่างเช่น
- Index ร่วงหายไปเยอะๆ ทุกครั้งที่ Search engine update หรือไม่?
- เนื้อหาของคุณมักจะโดนจัดไปอยู่หน้าหลังๆเสมอ
- หาด้วยคีย์เวิร์ดที่ต้องการ มักจะไม่เจอ หรืออันดับไม่ค่อยดี
- เว็บคุณมี index เยอะ แต่คนเข้ามาจาก Search engine น้อยผิดปรกติ (อินเด็กซ์หลักแสน แต่มีคนเข้าเว็บหลัก 10 ผมก็เคยเห็นมาแล้ว)
- คีย์เวิร์ด Density ดีกว่า แต่ทำไมอันดับไม่กระเตื้อง
- Optimize ดีแล้ว แต่ทำไมยังสู้เว็บที่ไม่ได้ Optimize ไม่ได้
- และอื่นๆ อีก
สิ่งเหล่านี้คือ สิ่งที่บอกได้เลยว่า นั่นคือ ส่วนหนึ่งมาจากปัญหาของการ Duplicate Content นั่นเองครับ
แล้วการแก้ปัญหาแบบใหม่นี้คืออะไร ใช้อย่างไร?
เกริ่นนำมาซะยืดยาว ยืดเย้อ เผื่อว่าใครที่ยังไม่รู้ และงง กับ Duplicate content นั่นล่ะครับ เอาล่ะ มาดูวิธีการแก้ปัญหากัน
โดยปรกติแล้ว เรามาจะใช้ Robots.txt หรือ ใช้ meta robots มาควบคุม คือ ไม่ให้มันเก็บหน้าที่ซ้ำซ้อนกัน แต่นั่นเหมือนกับการบอก Search engine หรือบอกกับ Bots ว่า
"โอ้ว ไม่ได้นะ อย่าเข้าไป ไม่ต้องยุ่งเลย เนื้อหา นี้มันซ้ำซ้อนแล้ว"
แต่ Bots หรือ Search engine ก็จะถามกลับมาว่า " อ้าว ไม่ให้ฉันเข้าไป มันซ้ำซ้อน เออ แล้วมันซ้ำกันอันไหนล่ะ"
นั่นล่ะครับ นี่เป็นปัญหาส่วนหนึ่งที่ Search engine ปวดกบาล เหมือนกันนะครับ เลยสร้าง Tags ขึ้นมาใหม่เลย เพื่อบอกว่า เนื้อหานี้ อาจจะซ้ำซ้อนนะ และให้อ้างอิงอันใดเป็นหลัก เจ้า tag ที่ว่า มีชื่อว่า "canonical" มีหน้าตาอย่างนี้ครับ
<link rel="canonical" href="http://www.example.com/forums/view-somecontent.php" />
โดย นำไปแปะไว้ในหน้าที่อาจจะเกิดการซ้ำซ้อนได้ เช่น จากตัวอย่างก่อนหน้านี้ ในหน้าสำหรับ พิมพ์ ที่มี url เป็น www.example.com/forums/view-somecontent.php?view=print ให้นำ tag ด้านบนไปใส่ไว้ ในหน้าเว็บในส่วนของ head นั่นเองครับ
หรืออย่างหน้า ที่จะมีติด Session id ติดไป อย่าง www.example.com/forums/index.php?sid=xxxxxxxxxxxxxxxxxxx ก็ให้ใส่อ้างอิงไว้ ว่า
<link rel="canonical" href="http://www.example.com/forums/index.php" />
หรือเอาอีกตัวอย่างหนึ่งให้ง่ายขึ้น เช่นคุณมีหน้า ขายสินค้าอยู่หน้าหนึ่ง โดยมี urlคือ
- http://www.example.com/product-seo.php
ทีนี้ ในหน้านี้ มี Print View ด้วย โดยมี url ของหน้าสำหรับพิมพ์ว่า
- http://www.example.com/forums/product-seo-print.php" />
ซึ่งทั้งสองหน้า มีเนื้อหาภายในเหมือนกัน ต่างกันแค่สีสันที่ในหน้า product-seo-print.php นั้นไม่มีสีสันใดๆเลย เพื่อให้ประหยัดในการพิมพ์
คุณก็ไปเพิ่ม tag cananical ในหน้า ของ product-seo-print.php ว่า
- <link rel="canonical" href="http://www.example.com/forums/product-seo.php" />
ซึ่ง bots ของ Search engine จะเข้าอ่าน และรู้ว่า หน้านี้เข้าข่าย duplicate นะ ให้อ้างอิงจากหน้า product-seo.php อย่างเดียวเลย ไม่ต้องสนใจหน้า product-seo-print.php มากนักนะ
นี่ล่ะครับ เป็นเทคนิคใหม่ ง่ายๆ และคิดว่าเป็นทางออกที่ดีในการป้องกัน Duplicate content นะครับ ซึ่งแทนที่เราจะ Block ด้วย Robots text เพียงอย่างเดียว แต่มันไม่ได้บอกรายละเอียดอย่างอื่นๆ เลยว่า จะให้เอาเนื้อหาที่ไหนเป็นตัวหลัก อย่างที่ได้กล่าวไปแล้วนั่นล่ะ
อ่อ แต่วิธีนี้ ใช้ป้องกันปัญหา Duplicate content ในเว็บเราได้ แต่ไม่ได้ช่วยป้องกัน Duplicate Content ในกรณีที่คนอื่นๆ มาลอก หรือ copy เนื้อหาเราไปใช้นะครับ เว้นแต่เค้าลง tag Canonical นี้ให้ว่า มาจากเว็บเราด้วยนั่นเอง

