Skip to main content

กำลังโหลด...

Southern Whale
รับ SEO Audit ฟรี
Technical SEO 17 นาทีอ่าน

Robots.txt คืออะไร? คู่มือ Syntax + ตัวอย่างจริง + AI Crawler ปี 2026 | Southern Whale

Robots.txt คือไฟล์สั่ง bot ว่าหน้าไหนเข้าได้ — บทความนี้สอน syntax (User-agent, Disallow, Allow, Sitemap, Crawl-delay), ตัวอย่าง robots.txt จริง WordPress/อีคอมเมิร์ซ/บล็อก, robots.txt vs noindex, การจัดการ AI crawler GPTBot ปี 2026 และวิธีทดสอบใน Search Console

ตัวอย่างไฟล์ robots.txt แสดง User-agent, Disallow, Allow, Sitemap และการบล็อก AI crawler ปี 2026

ลองนึกภาพเว็บไซต์ของคุณเป็นห้างสรรพสินค้า แล้ว Googlebot กับ bot ตัวอื่น ๆ คือลูกค้าที่เดินเข้ามาสำรวจ — robots.txt ก็คือ ป้ายที่ติดไว้หน้าประตู บอกว่า “โซนนี้เข้าได้ โซนนี้พนักงานเท่านั้น ห้องเก็บของห้ามเข้า” มันเป็นไฟล์ข้อความเล็ก ๆ ธรรมดาที่สุด แต่กลับมีอำนาจมากที่สุดไฟล์หนึ่งในเว็บคุณ

ที่ Southern Whale เราเจอเคสนี้บ่อยมาก: ลูกค้าโทรมาด้วยน้ำเสียงตื่นตระหนกว่า “เว็บหายจาก Google หมดเลย!” พอเปิดดู robots.txt — มีบรรทัด Disallow: / ค้างอยู่ตั้งแต่ตอนทำเว็บบน staging แล้วลืมเอาออกตอนขึ้น production ผลคือ Google ถูกสั่งห้ามเข้าทั้งเว็บ ทราฟฟิกหายเกลี้ยงภายในไม่กี่สัปดาห์ — จากบรรทัดเดียว

นั่นคือเหตุผลที่บทความนี้มีอยู่ เราจะอธิบาย robots.txt ตั้งแต่ระดับ “มันคืออะไร” ไปจนถึง syntax ทุกคำสั่ง ตัวอย่างจริงหลายแบบ ความแตกต่างที่คนเข้าใจผิดมากที่สุด (robots.txt vs noindex) การจัดการ AI crawler ในปี 2026 และวิธีทดสอบไม่ให้พลาด — ครบกว่า ลึกกว่า และนำไปใช้ได้จริงกว่าคู่มือทั่วไป

Robots.txt คืออะไร?

Robots.txt คือไฟล์ข้อความ (plain text) ที่วางไว้ที่ root ของโดเมน เพื่อบอก web crawler หรือ “bot” ว่าส่วนไหนของเว็บไซต์ที่ อนุญาตให้เข้าไปรวบรวมข้อมูล (crawl) ได้ และส่วนไหน ขอให้เว้นไว้ ไฟล์นี้ทำงานตามมาตรฐานที่เรียกว่า Robots Exclusion Protocol (REP) ซึ่งในปี 2022 ถูกยกระดับเป็นมาตรฐานทางการของ IETF (RFC 9309) แล้ว

หัวใจที่ต้องเข้าใจตั้งแต่แรกคือ — robots.txt เป็นเหมือน “คำขอความร่วมมือ” ไม่ใช่ “กำแพงรักษาความปลอดภัย” bot ที่ดีอย่าง Googlebot, Bingbot จะเคารพกฎนี้เสมอ แต่ bot ที่ไม่ดี (เช่น scraper หรือ bot ดูดข้อมูล) สามารถเพิกเฉยได้ ถ้าคุณต้องการ “ห้ามเข้าจริง ๆ” ต้องใช้การ authentication หรือป้องกันที่ระดับ server ไม่ใช่ robots.txt

สิ่งสำคัญอีกอย่าง: robots.txt ควบคุมแค่การ “crawl” ไม่ได้ควบคุมการ “index” — สองคำนี้ต่างกันมาก และเป็นจุดที่คนพลาดบ่อยที่สุด (เราจะเจาะลึกในหัวข้อ robots.txt vs noindex ด้านล่าง)

หน้าที่ของ Robots.txt — ทำไมเว็บคุณถึงต้องมี

robots.txt ทำหน้าที่หลัก 4 อย่าง:

  1. จัดการ Crawl Budget — บอก bot ไม่ให้เสียเวลา crawl หน้าที่ไม่มีค่า SEO (เช่น หน้าผลการค้นหาภายใน, หน้า filter สินค้าที่มีพารามิเตอร์เยอะ ๆ, หน้า admin) เพื่อให้ bot เอางบประมาณการ crawl ไปทุ่มกับหน้าสำคัญแทน เรื่องนี้สำคัญมากสำหรับเว็บใหญ่ อ่านเพิ่มได้ที่บทความ การจัดการ Crawl Budget
  2. ป้องกัน server โหลดหนัก — สำหรับเว็บที่ทรัพยากร server จำกัด การจำกัด bot บางตัวช่วยลดภาระได้
  3. ชี้ตำแหน่ง Sitemap — robots.txt เป็นจุดมาตรฐานที่ bot มองหา Sitemap ของคุณ
  4. กันหน้าที่ไม่อยากให้ปรากฏใน Google จากการถูก crawl — เช่น หน้า cart, หน้า checkout, หน้า thank-you (แต่ระวัง: นี่คือการกัน crawl ไม่ใช่กัน index — อ่านต่อด้านล่าง)

ในความเป็นจริง เว็บขนาดเล็ก (ต่ำกว่า ~50 หน้า) อาจไม่จำเป็นต้องมี robots.txt ที่ซับซ้อน — แต่ในปี 2026 ที่มี AI crawler เพิ่มขึ้นมหาศาล การมี robots.txt ที่ตั้งใจออกแบบกลายเป็น เครื่องมือเชิงกลยุทธ์ ไม่ใช่แค่ไฟล์เทคนิคพื้นฐานอีกต่อไป

Syntax ของ Robots.txt — ทุกคำสั่งที่ต้องรู้

robots.txt ประกอบด้วย “บล็อก” ของกฎ แต่ละบล็อกเริ่มด้วย User-agent แล้วตามด้วยคำสั่ง มาดูทีละคำสั่ง

User-agent — ระบุว่ากฎนี้ใช้กับ bot ตัวไหน

User-agent คือบรรทัดที่บอกว่ากฎที่ตามมา ใช้กับ bot ตัวใด

User-agent: Googlebot      # กฎนี้ใช้กับ Googlebot เท่านั้น
User-agent: *              # เครื่องหมาย * = ใช้กับ bot ทุกตัว

bot ที่พบบ่อย: Googlebot (Google), Bingbot (Bing), Googlebot-Image (Google ค้นรูป), GPTBot (OpenAI), ClaudeBot (Anthropic)

Disallow — ห้าม crawl path นี้

Disallow: /admin/          # ห้าม crawl ทุกอย่างใต้ /admin/
Disallow: /private-page    # ห้าม crawl path ที่ขึ้นต้นด้วย /private-page
Disallow: /                # ห้าม crawl ทั้งเว็บ (ระวัง! อันตรายมาก)
Disallow:                  # เว้นว่าง = อนุญาตทุกอย่าง

Allow — อนุญาตเฉพาะ path นี้ (ใช้ซ้อนกับ Disallow)

Allow ใช้สร้าง “ข้อยกเว้น” ภายใน path ที่ถูก Disallow

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php    # ห้ามทั้งโฟลเดอร์ ยกเว้นไฟล์นี้

Sitemap — ชี้ตำแหน่ง Sitemap

Sitemap: https://www.example.com/sitemap.xml

ใส่เป็น URL เต็ม (absolute) เสมอ และวางที่ไหนของไฟล์ก็ได้ ไม่ผูกกับ User-agent block ใส่ได้หลายบรรทัดถ้ามีหลาย Sitemap หากยังไม่มี Sitemap ควรทำก่อน อ่านวิธีได้ที่ คู่มือ XML Sitemap

Crawl-delay — หน่วงเวลาระหว่างการ crawl

User-agent: Bingbot
Crawl-delay: 10      # ให้รออย่างน้อย 10 วินาทีระหว่างแต่ละ request

ข้อควรรู้สำคัญ: Google ไม่รองรับ Crawl-delay มานานแล้ว — ถ้าต้องการลดความถี่ Googlebot ให้ปรับใน Search Console แทน แต่ Bing และ Yandex ยังรองรับอยู่ ดังนั้น Crawl-delay จึงมีประโยชน์เฉพาะกับ bot บางตัว

Wildcard และ Pattern matching

Disallow: /*?            # บล็อกทุก URL ที่มี query string (?)
Disallow: /*.pdf$        # บล็อกทุกไฟล์ที่ลงท้ายด้วย .pdf ($ = สิ้นสุด URL)
Disallow: /products/*/print   # * แทนอะไรก็ได้ตรงกลาง
  • * = แทนตัวอักษรกี่ตัวก็ได้
  • $ = ระบุจุดสิ้นสุดของ URL
  • # = comment (bot จะข้ามทั้งบรรทัด)

ตารางสรุป Syntax

คำสั่งหน้าที่Google รองรับ?หมายเหตุ
User-agentระบุ bot เป้าหมายใช้ * สำหรับทุก bot
Disallowห้าม crawl pathเว้นว่าง = อนุญาตทั้งหมด
Allowยกเว้น path ภายใน Disallowกฎที่เจาะจงกว่าชนะ
Sitemapชี้ตำแหน่ง sitemapต้องเป็น URL เต็ม
Crawl-delayหน่วงเวลา crawlBing/Yandex รองรับ
Hostระบุ domain หลักเลิกใช้แล้ว
Noindex (ใน robots.txt)สั่งไม่ให้ indexGoogle เลิกรองรับตั้งแต่ 2019

ตัวอย่าง Robots.txt จริง — หลายแบบตามประเภทเว็บ

ทฤษฎีอย่างเดียวไม่พอ มาดูตัวอย่างที่ใช้ได้จริงตามประเภทเว็บกัน

1. เว็บ WordPress ทั่วไป

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?s=
Disallow: /search/
Disallow: /*?replytocom

Sitemap: https://www.example.com/sitemap_index.xml

จุดสำคัญ: บล็อก /wp-admin/ แต่ เปิด admin-ajax.php ไว้ เพราะ theme/plugin หลายตัวเรียกใช้ไฟล์นี้ในการ render หน้าเว็บ — ถ้าบล็อกอาจทำให้ Google เห็นหน้าเพี้ยน และบล็อกหน้าผลค้นหาภายใน (/?s=) ที่สร้าง URL ขยะจำนวนมาก

2. เว็บอีคอมเมิร์ซ (E-commerce)

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?orderby=
Disallow: /*?filter_
Disallow: /*?add-to-cart=
Allow: /wp-content/uploads/

Sitemap: https://www.shop.com/product-sitemap.xml
Sitemap: https://www.shop.com/category-sitemap.xml

จุดสำคัญ: อีคอมเมิร์ซมักมี URL จาก filter และ sorting จำนวนมหาศาล (?orderby=, ?filter_color=...) ซึ่งเป็น duplicate content และกิน crawl budget — การบล็อกพารามิเตอร์เหล่านี้ช่วยให้ bot โฟกัสที่หน้าสินค้าจริง แต่ อย่าบล็อก /wp-content/uploads/ เพราะรูปสินค้าอยู่ตรงนั้น

3. บล็อก / เว็บคอนเทนต์

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /tag/
Disallow: /author/
Disallow: /page/

Sitemap: https://www.blog.com/sitemap.xml

จุดสำคัญ: บล็อกมักมีหน้า archive ของ tag และ author ที่เป็น thin content / duplicate การกันออกช่วยให้ Google โฟกัสที่บทความจริง (แต่ถ้า tag page ของคุณ optimize มาดีและมีทราฟฟิก — อาจเก็บไว้)

4. เว็บที่เปิดเต็มที่ (ส่วนใหญ่ควรเป็นแบบนี้)

User-agent: *
Disallow:

Sitemap: https://www.example.com/sitemap.xml

Disallow: ที่เว้นว่าง = อนุญาตให้ crawl ทุกอย่าง สำหรับเว็บเล็กที่ไม่มีหน้าต้องซ่อน นี่คือ robots.txt ที่ดีและปลอดภัยที่สุด

Robots.txt vs Noindex vs Meta Robots — ต่างกันยังไง (สำคัญมาก)

นี่คือหัวข้อที่ทำให้คนพลาด SEO มากที่สุด เพราะดูเผิน ๆ เหมือนทำสิ่งเดียวกัน แต่จริง ๆ ทำคนละหน้าที่

แนวคิดหลักที่ต้องจำให้ขึ้นใจ:

  • Robots.txt ควบคุมการ CRAWL (bot เข้ามาอ่านหน้าได้ไหม)
  • Noindex / Meta robots ควบคุมการ INDEX (หน้านี้จะปรากฏในผลค้นหาไหม)

ความแตกต่างแบบเห็นภาพ

ประเด็นRobots.txt DisallowMeta robots noindexX-Robots-Tag (HTTP header)
ควบคุมอะไรการ crawlการ indexการ index
อยู่ที่ไหนไฟล์ /robots.txtใน <head> ของหน้า HTMLHTTP response header
bot ต้องเข้าหน้าก่อนไหมไม่ต้องต้องเข้าถึงหน้าได้ต้องเข้าถึงได้
เหมาะกับไฟล์ที่ไม่ใช่ HTML✅ (PDF, รูป)
รับประกันไม่โผล่ใน Google

กับดักที่อันตรายที่สุด: ใช้ Disallow เพื่อหวังไม่ให้ขึ้น Google

หลายคนคิดว่า “ถ้าอยากให้หน้านี้ไม่ขึ้น Google ก็ใส่ Disallow ใน robots.txt สิ” — นี่คือความเข้าใจผิดที่อันตราย

เหตุผล: ถ้าคุณ Disallow หน้าหนึ่ง แต่หน้านั้นมีลิงก์จากเว็บอื่นชี้มา Google ยังสามารถ index URL นั้นได้ (เพราะรู้ว่ามันมีอยู่) เพียงแต่ไม่เห็นเนื้อหาข้างใน ผลลัพธ์คือใน Google จะขึ้นข้อความ:

“ไม่มีข้อมูลสำหรับหน้านี้ เนื่องจากไฟล์ robots.txt ของเว็บไซต์นี้”

ซึ่งดูแย่กว่าไม่ขึ้นเลยเสียอีก

ที่ร้ายไปกว่านั้น: ถ้าคุณ Disallow หน้าที่ใส่ noindex ไว้ — Google จะ เข้าไปอ่านหน้านั้นไม่ได้ จึงไม่เห็น noindex ทำให้คำสั่ง noindex ไม่ทำงาน! สองอย่างนี้ตีกันเอง

กฎทอง: ถ้าต้องการให้หน้า “ไม่ขึ้นใน Google จริง ๆ” ให้ใช้ noindex (และต้อง เปิด ให้ bot crawl หน้านั้นได้ เพื่อให้เห็น noindex) — อย่า ใช้ robots.txt บล็อก ใช้ robots.txt เฉพาะตอนต้องการประหยัด crawl budget หรือกันหน้าที่ไม่อยากให้ bot เสียเวลาเข้า

ข้อผิดพลาดอันตราย — บทเรียนที่ทำให้เว็บพังได้

1. บล็อกทั้งเว็บโดยไม่ตั้งใจ

User-agent: *
Disallow: /

นี่คือ robots.txt ของเว็บ staging ที่ไม่ควรหลุดขึ้น production เด็ดขาด สามตัวอักษร Disallow: / สั่งห้าม bot ทุกตัวเข้าทั้งเว็บ ผลคือทราฟฟิก organic หายเกลี้ยงใน 2–4 สัปดาห์ เช็คบรรทัดนี้ทุกครั้งหลังเว็บขึ้น production

2. บล็อก CSS และ JavaScript

Disallow: /wp-includes/
Disallow: /wp-content/themes/
Disallow: /assets/js/

เมื่อก่อนเคยนิยม แต่ในปี 2026 นี่คือ ความผิดพลาดร้ายแรง เพราะ Google ต้อง render หน้าเว็บเหมือนที่ผู้ใช้เห็น (ดู CSS/JS) เพื่อประเมิน mobile-friendliness, layout, และ Core Web Vitals ถ้าบล็อก CSS/JS Google จะเห็นหน้าพัง ประเมินคุณภาพผิด และอันดับตก เปิดให้ Google เข้าถึง resource ทั้งหมดที่ใช้ render หน้าเสมอ

3. ใช้ robots.txt ปกปิดข้อมูลลับ

อย่าเขียน Disallow: /secret-admin-panel/ เพราะ robots.txt เป็นไฟล์สาธารณะ (ใครก็เปิดดูได้ที่ yourdomain.com/robots.txt) — เท่ากับคุณ ประกาศตำแหน่งห้องลับให้แฮกเกอร์ ข้อมูลลับต้องป้องกันด้วย authentication ไม่ใช่ robots.txt

4. สับสนเรื่อง case-sensitive

path ใน robots.txt เป็น case-sensitiveDisallow: /Folder/ ไม่เหมือน /folder/ ตรวจให้ตรงตัวพิมพ์เล็ก/ใหญ่กับ URL จริง

5. ลืมว่า subdomain ต้องมี robots.txt ของตัวเอง

blog.example.com กับ example.com ใช้ robots.txt คนละไฟล์ — robots.txt ของ root domain ไม่ครอบคลุม subdomain

Robots.txt กับ AI Crawler ปี 2026 — เปิดหรือบล็อก?

นี่คือมิติใหม่ที่บทความเก่า ๆ ไม่ครอบคลุม ในปี 2026 มี AI crawler หลายสิบตัวที่เข้ามาดูดเนื้อหาเพื่อเทรนโมเดลและตอบคำถามใน chatbot คุณควบคุมพวกมันได้ผ่าน robots.txt

AI Crawler ที่ควรรู้จัก

User-agentเจ้าของใช้ทำอะไร
GPTBotOpenAIเก็บข้อมูลเทรนโมเดล
OAI-SearchBotOpenAIสำหรับ ChatGPT Search
ChatGPT-UserOpenAIดึงข้อมูลแบบ real-time ตอนผู้ใช้ถาม
ClaudeBotAnthropicเก็บข้อมูลเทรน Claude
Google-ExtendedGoogleควบคุมการใช้ข้อมูลเทรน Gemini (แยกจาก Googlebot)
PerplexityBotPerplexityanswer engine
BytespiderByteDanceเก็บข้อมูล (มักเข้าหนักมาก)
CCBotCommon Crawldataset สาธารณะที่หลายโมเดลใช้

ตัวอย่าง: บล็อก AI crawler ทั้งหมด (แต่เปิดให้ Google ปกติ)

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow:

Sitemap: https://www.example.com/sitemap.xml

ข้อควรพิจารณาเชิงกลยุทธ์: การบล็อก AI crawler มีทั้งข้อดีและข้อเสีย — ถ้าเนื้อหาคุณคือทรัพย์สินที่มีค่า การบล็อกป้องกันไม่ให้ถูกนำไปใช้ฟรี แต่ในทางกลับกัน การ เปิด ให้ AI engine เข้าถึง ช่วยให้แบรนด์คุณถูกอ้างอิงในคำตอบของ ChatGPT/Perplexity ซึ่งเป็นช่องทางการมองเห็นใหม่ที่กำลังโต ที่ Southern Whale เรามักแนะนำให้ธุรกิจ เปิด AI crawler ที่ใช้ตอบ real-time (เช่น OAI-SearchBot, PerplexityBot) เพื่อชิงพื้นที่ใน AI answer แต่อาจพิจารณาบล็อกตัวที่เก็บข้อมูลเทรนล้วน ๆ ตามนโยบายของแต่ละธุรกิจ

หากต้องการให้ AI เข้าใจและอ้างอิงเว็บคุณได้ดีขึ้น ควรทำควบคู่กับ การทำ llms.txt ซึ่งเป็นมาตรฐานใหม่สำหรับ AI โดยเฉพาะ

วาง Robots.txt ไว้ที่ไหน?

robots.txt ต้องวางไว้ที่ root ของโดเมนเท่านั้น และต้องเข้าถึงได้ที่:

https://www.example.com/robots.txt

กฎเหล็ก:

  • ชื่อไฟล์ต้องเป็น robots.txt ตัวพิมพ์เล็กทั้งหมด (ห้าม Robots.txt หรือ ROBOTS.TXT)
  • ต้องอยู่ที่ root — วางใน subfolder เช่น /blog/robots.txt ไม่มีผล bot จะไม่มอง
  • แต่ละ subdomain และแต่ละ protocol (http/https) ต้องมีไฟล์ของตัวเอง
  • ไฟล์ต้องเป็น UTF-8 encoding และตอบกลับด้วย HTTP 200

วิธีวางตาม platform:

  • WordPress: ใช้ปลั๊กอิน SEO (Yoast, Rank Math) แก้ไขได้จากหน้า admin หรือสร้างไฟล์จริงวางที่ root directory ผ่าน FTP/File Manager
  • Astro / Next.js: วางไฟล์ robots.txt ในโฟลเดอร์ public/ มันจะถูก serve ที่ root อัตโนมัติ
  • เซิร์ฟเวอร์ทั่วไป: อัปโหลดไฟล์ไปที่ root directory (เช่น public_html/)

วิธีทดสอบ Robots.txt ใน Google Search Console

หลังตั้งค่าเสร็จ อย่าเดา — ต้องทดสอบ วิธีตรวจสอบ:

  1. เปิดดูไฟล์โดยตรง — เข้า yourdomain.com/robots.txt ในเบราว์เซอร์ ดูว่าไฟล์ขึ้นถูกต้องและไม่มี error
  2. ใช้ robots.txt report ใน Search Console — เข้า Google Search Console → Settings → robots.txt เพื่อดูว่า Google อ่านไฟล์เวอร์ชันล่าสุดได้ถูกต้อง และเช็คว่ามี syntax error หรือไม่ ถ้าแก้ไฟล์แล้วอยากให้ Google อ่านใหม่ทันที สามารถกด “Request a recrawl” ได้
  3. ใช้ URL Inspection Tool — วาง URL ที่สงสัยลงในช่องค้นหาด้านบนของ Search Console มันจะบอกว่า URL นั้น “ถูกบล็อกโดย robots.txt” หรือไม่ และ Google มองเห็นหน้านั้นอย่างไร
  4. ตรวจรายงาน Pages (Indexing) — ดูว่ามี URL ติดสถานะ “Blocked by robots.txt” ที่ไม่ควรถูกบล็อกหรือเปล่า

การเรียนรู้เครื่องมือนี้ให้คล่องเป็นทักษะพื้นฐานสำคัญ ซึ่งเป็นส่วนหนึ่งของ Technical SEO Checklist ฉบับเต็ม ที่ทุกเว็บควรทำตาม

คำถามที่พบบ่อย (FAQ)

Q: เว็บเล็ก ๆ จำเป็นต้องมี robots.txt ไหม? ไม่บังคับ ถ้าไม่มี robots.txt bot จะถือว่า crawl ได้ทุกอย่าง แต่การมีไฟล์ที่ระบุ Sitemap ก็เป็น best practice ที่ดี

Q: robots.txt ทำให้ SEO ดีขึ้นไหม? ทางอ้อม — มันไม่ได้เพิ่มอันดับโดยตรง แต่ช่วยจัดการ crawl budget และป้องกันปัญหา ซึ่งส่งผลดีต่อ SEO โดยรวม การตั้งผิดต่างหากที่ทำให้ SEO แย่ลง ได้มาก

Q: ถ้าใส่ Disallow แล้ว Google จะลบหน้าออกจาก index เลยไหม? ไม่จำเป็น — ถ้าหน้านั้น index ไปแล้ว การ Disallow อาจทำให้มันค้างใน index แบบไม่มีเนื้อหา ถ้าต้องการลบจริง ใช้ noindex (แล้วเปิดให้ crawl) หรือเครื่องมือ Removal ใน Search Console

Q: Crawl-delay ใช้กับ Google ได้ไหม? ไม่ได้ Google ไม่รองรับ ให้ปรับ crawl rate ผ่าน Search Console แทน

Q: แก้ robots.txt แล้วมีผลทันทีไหม? Google แคชไฟล์ robots.txt ไว้ราว 24 ชั่วโมง การแก้อาจไม่มีผลทันที แต่กด request recrawl ใน Search Console ช่วยเร่งได้

สรุป

robots.txt เป็นไฟล์ที่เรียบง่ายที่สุด แต่ทรงพลังที่สุดไฟล์หนึ่งในเว็บคุณ — เขียนถูกช่วยให้ Google โฟกัสหน้าสำคัญ จัดการ crawl budget และคุม AI crawler ได้ตามต้องการ แต่เขียนผิดเพียงบรรทัดเดียวอาจลบเว็บคุณออกจาก Google ทั้งหมด

หลักสำคัญที่ต้องจำ:

  • robots.txt คุม การ crawl ไม่ใช่ การ index — ถ้าอยากให้หน้าไม่ขึ้น Google ใช้ noindex ไม่ใช่ Disallow
  • ห้ามบล็อก CSS/JS และ ห้ามใช้ปกปิดข้อมูลลับ
  • เช็ค Disallow: / ทุกครั้งหลังเว็บขึ้น production
  • ในปี 2026 ใช้ robots.txt เป็นเครื่องมือเชิงกลยุทธ์ในการจัดการ AI crawler
  • ทดสอบเสมอ ใน Google Search Console ก่อนวางใจ

ที่ Southern Whale เราดูแล Technical SEO ให้ธุรกิจในภาคใต้และทั่วไทย ตั้งแต่การตั้งค่า robots.txt, Sitemap, ไปจนถึงกลยุทธ์ AI SEO ครบวงจร — ถ้าคุณไม่แน่ใจว่า robots.txt ของเว็บคุณตั้งถูกหรือกำลังบล็อกอะไรที่ไม่ควรอยู่ ทีมเราช่วยตรวจและวางระบบให้ได้ ดูรายละเอียดบริการ SEO ของเรา แล้วเริ่มต้นวางรากฐานที่ถูกต้องตั้งแต่วันนี้

คีย์เวิร์ดที่เกี่ยวข้อง

robots.txt คือ, robots txt, user-agent disallow, robots.txt wordpress, บล็อก gptbot, robots.txt vs noindex, ทดสอบ robots.txt, วาง robots.txt ที่ไหน