Robots.txt คืออะไร? คู่มือ Syntax + ตัวอย่างจริง + AI Crawler ปี 2026

ลองนึกภาพเว็บไซต์ของคุณเป็นห้างสรรพสินค้า แล้ว Googlebot กับ bot ตัวอื่น ๆ คือลูกค้าที่เดินเข้ามาสำรวจ — robots.txt ก็คือ ป้ายที่ติดไว้หน้าประตู บอกว่า “โซนนี้เข้าได้ โซนนี้พนักงานเท่านั้น ห้องเก็บของห้ามเข้า” มันเป็นไฟล์ข้อความเล็ก ๆ ธรรมดาที่สุด แต่กลับมีอำนาจมากที่สุดไฟล์หนึ่งในเว็บคุณ

ที่ Southern Whale เราเจอเคสนี้บ่อยมาก: ลูกค้าโทรมาด้วยน้ำเสียงตื่นตระหนกว่า “เว็บหายจาก Google หมดเลย!” พอเปิดดู robots.txt — มีบรรทัด Disallow: / ค้างอยู่ตั้งแต่ตอนทำเว็บบน staging แล้วลืมเอาออกตอนขึ้น production ผลคือ Google ถูกสั่งห้ามเข้าทั้งเว็บ ทราฟฟิกหายเกลี้ยงภายในไม่กี่สัปดาห์ — จากบรรทัดเดียว

นั่นคือเหตุผลที่บทความนี้มีอยู่ เราจะอธิบาย robots.txt ตั้งแต่ระดับ “มันคืออะไร” ไปจนถึง syntax ทุกคำสั่ง ตัวอย่างจริงหลายแบบ ความแตกต่างที่คนเข้าใจผิดมากที่สุด (robots.txt vs noindex) การจัดการ AI crawler ในปี 2026 และวิธีทดสอบไม่ให้พลาด — ครบกว่า ลึกกว่า และนำไปใช้ได้จริงกว่าคู่มือทั่วไป

Robots.txt คืออะไร?

Robots.txt คือไฟล์ข้อความ (plain text) ที่วางไว้ที่ root ของโดเมน เพื่อบอก web crawler หรือ “bot” ว่าส่วนไหนของเว็บไซต์ที่ อนุญาตให้เข้าไปรวบรวมข้อมูล (crawl) ได้ และส่วนไหน ขอให้เว้นไว้ ไฟล์นี้ทำงานตามมาตรฐานที่เรียกว่า Robots Exclusion Protocol (REP) ซึ่งในปี 2022 ถูกยกระดับเป็นมาตรฐานทางการของ IETF (RFC 9309) แล้ว

หัวใจที่ต้องเข้าใจตั้งแต่แรกคือ — robots.txt เป็นเหมือน “คำขอความร่วมมือ” ไม่ใช่ “กำแพงรักษาความปลอดภัย” bot ที่ดีอย่าง Googlebot, Bingbot จะเคารพกฎนี้เสมอ แต่ bot ที่ไม่ดี (เช่น scraper หรือ bot ดูดข้อมูล) สามารถเพิกเฉยได้ ถ้าคุณต้องการ “ห้ามเข้าจริง ๆ” ต้องใช้การ authentication หรือป้องกันที่ระดับ server ไม่ใช่ robots.txt

สิ่งสำคัญอีกอย่าง: robots.txt ควบคุมแค่การ “crawl” ไม่ได้ควบคุมการ “index” — สองคำนี้ต่างกันมาก และเป็นจุดที่คนพลาดบ่อยที่สุด (เราจะเจาะลึกในหัวข้อ robots.txt vs noindex ด้านล่าง)

หน้าที่ของ Robots.txt — ทำไมเว็บคุณถึงต้องมี

robots.txt ทำหน้าที่หลัก 4 อย่าง:

จัดการ Crawl Budget — บอก bot ไม่ให้เสียเวลา crawl หน้าที่ไม่มีค่า SEO (เช่น หน้าผลการค้นหาภายใน, หน้า filter สินค้าที่มีพารามิเตอร์เยอะ ๆ, หน้า admin) เพื่อให้ bot เอางบประมาณการ crawl ไปทุ่มกับหน้าสำคัญแทน เรื่องนี้สำคัญมากสำหรับเว็บใหญ่ อ่านเพิ่มได้ที่บทความ การจัดการ Crawl Budget
ป้องกัน server โหลดหนัก — สำหรับเว็บที่ทรัพยากร server จำกัด การจำกัด bot บางตัวช่วยลดภาระได้
ชี้ตำแหน่ง Sitemap — robots.txt เป็นจุดมาตรฐานที่ bot มองหา Sitemap ของคุณ
กันหน้าที่ไม่อยากให้ปรากฏใน Google จากการถูก crawl — เช่น หน้า cart, หน้า checkout, หน้า thank-you (แต่ระวัง: นี่คือการกัน crawl ไม่ใช่กัน index — อ่านต่อด้านล่าง)

ในความเป็นจริง เว็บขนาดเล็ก (ต่ำกว่า ~50 หน้า) อาจไม่จำเป็นต้องมี robots.txt ที่ซับซ้อน — แต่ในปี 2026 ที่มี AI crawler เพิ่มขึ้นมหาศาล การมี robots.txt ที่ตั้งใจออกแบบกลายเป็น เครื่องมือเชิงกลยุทธ์ ไม่ใช่แค่ไฟล์เทคนิคพื้นฐานอีกต่อไป

Syntax ของ Robots.txt — ทุกคำสั่งที่ต้องรู้

robots.txt ประกอบด้วย “บล็อก” ของกฎ แต่ละบล็อกเริ่มด้วย User-agent แล้วตามด้วยคำสั่ง มาดูทีละคำสั่ง

User-agent — ระบุว่ากฎนี้ใช้กับ bot ตัวไหน

User-agent คือบรรทัดที่บอกว่ากฎที่ตามมา ใช้กับ bot ตัวใด

User-agent: Googlebot      # กฎนี้ใช้กับ Googlebot เท่านั้น
User-agent: *              # เครื่องหมาย * = ใช้กับ bot ทุกตัว

bot ที่พบบ่อย: Googlebot (Google), Bingbot (Bing), Googlebot-Image (Google ค้นรูป), GPTBot (OpenAI), ClaudeBot (Anthropic)

Disallow — ห้าม crawl path นี้

Disallow: /admin/          # ห้าม crawl ทุกอย่างใต้ /admin/
Disallow: /private-page    # ห้าม crawl path ที่ขึ้นต้นด้วย /private-page
Disallow: /                # ห้าม crawl ทั้งเว็บ (ระวัง! อันตรายมาก)
Disallow:                  # เว้นว่าง = อนุญาตทุกอย่าง

Allow — อนุญาตเฉพาะ path นี้ (ใช้ซ้อนกับ Disallow)

Allow ใช้สร้าง “ข้อยกเว้น” ภายใน path ที่ถูก Disallow

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php    # ห้ามทั้งโฟลเดอร์ ยกเว้นไฟล์นี้

Sitemap — ชี้ตำแหน่ง Sitemap

Sitemap: https://www.example.com/sitemap.xml

ใส่เป็น URL เต็ม (absolute) เสมอ และวางที่ไหนของไฟล์ก็ได้ ไม่ผูกกับ User-agent block ใส่ได้หลายบรรทัดถ้ามีหลาย Sitemap หากยังไม่มี Sitemap ควรทำก่อน อ่านวิธีได้ที่ คู่มือ XML Sitemap

Crawl-delay — หน่วงเวลาระหว่างการ crawl

User-agent: Bingbot
Crawl-delay: 10      # ให้รออย่างน้อย 10 วินาทีระหว่างแต่ละ request

ข้อควรรู้สำคัญ: Google ไม่รองรับ Crawl-delay มานานแล้ว — ถ้าต้องการลดความถี่ Googlebot ให้ปรับใน Search Console แทน แต่ Bing และ Yandex ยังรองรับอยู่ ดังนั้น Crawl-delay จึงมีประโยชน์เฉพาะกับ bot บางตัว

Wildcard และ Pattern matching

Disallow: /*?            # บล็อกทุก URL ที่มี query string (?)
Disallow: /*.pdf$        # บล็อกทุกไฟล์ที่ลงท้ายด้วย .pdf ($ = สิ้นสุด URL)
Disallow: /products/*/print   # * แทนอะไรก็ได้ตรงกลาง

* = แทนตัวอักษรกี่ตัวก็ได้
$ = ระบุจุดสิ้นสุดของ URL
# = comment (bot จะข้ามทั้งบรรทัด)

ตารางสรุป Syntax

คำสั่ง	หน้าที่	Google รองรับ?	หมายเหตุ
`User-agent`	ระบุ bot เป้าหมาย	✅	ใช้ `*` สำหรับทุก bot
`Disallow`	ห้าม crawl path	✅	เว้นว่าง = อนุญาตทั้งหมด
`Allow`	ยกเว้น path ภายใน Disallow	✅	กฎที่เจาะจงกว่าชนะ
`Sitemap`	ชี้ตำแหน่ง sitemap	✅	ต้องเป็น URL เต็ม
`Crawl-delay`	หน่วงเวลา crawl	❌	Bing/Yandex รองรับ
`Host`	ระบุ domain หลัก	❌	เลิกใช้แล้ว
`Noindex` (ใน robots.txt)	สั่งไม่ให้ index	❌	Google เลิกรองรับตั้งแต่ 2019

ตัวอย่าง Robots.txt จริง — หลายแบบตามประเภทเว็บ

ทฤษฎีอย่างเดียวไม่พอ มาดูตัวอย่างที่ใช้ได้จริงตามประเภทเว็บกัน

1. เว็บ WordPress ทั่วไป

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?s=
Disallow: /search/
Disallow: /*?replytocom

Sitemap: https://www.example.com/sitemap_index.xml

จุดสำคัญ: บล็อก /wp-admin/ แต่ เปิด admin-ajax.php ไว้ เพราะ theme/plugin หลายตัวเรียกใช้ไฟล์นี้ในการ render หน้าเว็บ — ถ้าบล็อกอาจทำให้ Google เห็นหน้าเพี้ยน และบล็อกหน้าผลค้นหาภายใน (/?s=) ที่สร้าง URL ขยะจำนวนมาก

2. เว็บอีคอมเมิร์ซ (E-commerce)

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?orderby=
Disallow: /*?filter_
Disallow: /*?add-to-cart=
Allow: /wp-content/uploads/

Sitemap: https://www.shop.com/product-sitemap.xml
Sitemap: https://www.shop.com/category-sitemap.xml

จุดสำคัญ: อีคอมเมิร์ซมักมี URL จาก filter และ sorting จำนวนมหาศาล (?orderby=, ?filter_color=...) ซึ่งเป็น duplicate content และกิน crawl budget — การบล็อกพารามิเตอร์เหล่านี้ช่วยให้ bot โฟกัสที่หน้าสินค้าจริง แต่ อย่าบล็อก /wp-content/uploads/ เพราะรูปสินค้าอยู่ตรงนั้น

3. บล็อก / เว็บคอนเทนต์

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /tag/
Disallow: /author/
Disallow: /page/

Sitemap: https://www.blog.com/sitemap.xml

จุดสำคัญ: บล็อกมักมีหน้า archive ของ tag และ author ที่เป็น thin content / duplicate การกันออกช่วยให้ Google โฟกัสที่บทความจริง (แต่ถ้า tag page ของคุณ optimize มาดีและมีทราฟฟิก — อาจเก็บไว้)

4. เว็บที่เปิดเต็มที่ (ส่วนใหญ่ควรเป็นแบบนี้)

User-agent: *
Disallow:

Sitemap: https://www.example.com/sitemap.xml

Disallow: ที่เว้นว่าง = อนุญาตให้ crawl ทุกอย่าง สำหรับเว็บเล็กที่ไม่มีหน้าต้องซ่อน นี่คือ robots.txt ที่ดีและปลอดภัยที่สุด

Robots.txt vs Noindex vs Meta Robots — ต่างกันยังไง (สำคัญมาก)

นี่คือหัวข้อที่ทำให้คนพลาด SEO มากที่สุด เพราะดูเผิน ๆ เหมือนทำสิ่งเดียวกัน แต่จริง ๆ ทำคนละหน้าที่

แนวคิดหลักที่ต้องจำให้ขึ้นใจ:

Robots.txt ควบคุมการ CRAWL (bot เข้ามาอ่านหน้าได้ไหม)
Noindex / Meta robots ควบคุมการ INDEX (หน้านี้จะปรากฏในผลค้นหาไหม)

ความแตกต่างแบบเห็นภาพ

ประเด็น	Robots.txt `Disallow`	Meta robots `noindex`	X-Robots-Tag (HTTP header)
ควบคุมอะไร	การ crawl	การ index	การ index
อยู่ที่ไหน	ไฟล์ /robots.txt	ใน `<head>` ของหน้า HTML	HTTP response header
bot ต้องเข้าหน้าก่อนไหม	ไม่ต้อง	ต้องเข้าถึงหน้าได้	ต้องเข้าถึงได้
เหมาะกับไฟล์ที่ไม่ใช่ HTML	✅	❌	✅ (PDF, รูป)
รับประกันไม่โผล่ใน Google	❌	✅	✅

กับดักที่อันตรายที่สุด: ใช้ Disallow เพื่อหวังไม่ให้ขึ้น Google

หลายคนคิดว่า “ถ้าอยากให้หน้านี้ไม่ขึ้น Google ก็ใส่ Disallow ใน robots.txt สิ” — นี่คือความเข้าใจผิดที่อันตราย

เหตุผล: ถ้าคุณ Disallow หน้าหนึ่ง แต่หน้านั้นมีลิงก์จากเว็บอื่นชี้มา Google ยังสามารถ index URL นั้นได้ (เพราะรู้ว่ามันมีอยู่) เพียงแต่ไม่เห็นเนื้อหาข้างใน ผลลัพธ์คือใน Google จะขึ้นข้อความ:

“ไม่มีข้อมูลสำหรับหน้านี้ เนื่องจากไฟล์ robots.txt ของเว็บไซต์นี้”

ซึ่งดูแย่กว่าไม่ขึ้นเลยเสียอีก

ที่ร้ายไปกว่านั้น: ถ้าคุณ Disallow หน้าที่ใส่ noindex ไว้ — Google จะ เข้าไปอ่านหน้านั้นไม่ได้ จึงไม่เห็น noindex ทำให้คำสั่ง noindex ไม่ทำงาน! สองอย่างนี้ตีกันเอง

กฎทอง: ถ้าต้องการให้หน้า “ไม่ขึ้นใน Google จริง ๆ” ให้ใช้ noindex (และต้อง เปิด ให้ bot crawl หน้านั้นได้ เพื่อให้เห็น noindex) — อย่า ใช้ robots.txt บล็อก ใช้ robots.txt เฉพาะตอนต้องการประหยัด crawl budget หรือกันหน้าที่ไม่อยากให้ bot เสียเวลาเข้า

ข้อผิดพลาดอันตราย — บทเรียนที่ทำให้เว็บพังได้

1. บล็อกทั้งเว็บโดยไม่ตั้งใจ

User-agent: *
Disallow: /

นี่คือ robots.txt ของเว็บ staging ที่ไม่ควรหลุดขึ้น production เด็ดขาด สามตัวอักษร Disallow: / สั่งห้าม bot ทุกตัวเข้าทั้งเว็บ ผลคือทราฟฟิก organic หายเกลี้ยงใน 2–4 สัปดาห์ เช็คบรรทัดนี้ทุกครั้งหลังเว็บขึ้น production

2. บล็อก CSS และ JavaScript

Disallow: /wp-includes/
Disallow: /wp-content/themes/
Disallow: /assets/js/

เมื่อก่อนเคยนิยม แต่ในปี 2026 นี่คือ ความผิดพลาดร้ายแรง เพราะ Google ต้อง render หน้าเว็บเหมือนที่ผู้ใช้เห็น (ดู CSS/JS) เพื่อประเมิน mobile-friendliness, layout, และ Core Web Vitals ถ้าบล็อก CSS/JS Google จะเห็นหน้าพัง ประเมินคุณภาพผิด และอันดับตก เปิดให้ Google เข้าถึง resource ทั้งหมดที่ใช้ render หน้าเสมอ

3. ใช้ robots.txt ปกปิดข้อมูลลับ

อย่าเขียน Disallow: /secret-admin-panel/ เพราะ robots.txt เป็นไฟล์สาธารณะ (ใครก็เปิดดูได้ที่ yourdomain.com/robots.txt) — เท่ากับคุณ ประกาศตำแหน่งห้องลับให้แฮกเกอร์ ข้อมูลลับต้องป้องกันด้วย authentication ไม่ใช่ robots.txt

4. สับสนเรื่อง case-sensitive

path ใน robots.txt เป็น case-sensitive — Disallow: /Folder/ ไม่เหมือน /folder/ ตรวจให้ตรงตัวพิมพ์เล็ก/ใหญ่กับ URL จริง

5. ลืมว่า subdomain ต้องมี robots.txt ของตัวเอง

blog.example.com กับ example.com ใช้ robots.txt คนละไฟล์ — robots.txt ของ root domain ไม่ครอบคลุม subdomain

Robots.txt กับ AI Crawler ปี 2026 — เปิดหรือบล็อก?

นี่คือมิติใหม่ที่บทความเก่า ๆ ไม่ครอบคลุม ในปี 2026 มี AI crawler หลายสิบตัวที่เข้ามาดูดเนื้อหาเพื่อเทรนโมเดลและตอบคำถามใน chatbot คุณควบคุมพวกมันได้ผ่าน robots.txt

AI Crawler ที่ควรรู้จัก

User-agent	เจ้าของ	ใช้ทำอะไร
`GPTBot`	OpenAI	เก็บข้อมูลเทรนโมเดล
`OAI-SearchBot`	OpenAI	สำหรับ ChatGPT Search
`ChatGPT-User`	OpenAI	ดึงข้อมูลแบบ real-time ตอนผู้ใช้ถาม
`ClaudeBot`	Anthropic	เก็บข้อมูลเทรน Claude
`Google-Extended`	Google	ควบคุมการใช้ข้อมูลเทรน Gemini (แยกจาก Googlebot)
`PerplexityBot`	Perplexity	answer engine
`Bytespider`	ByteDance	เก็บข้อมูล (มักเข้าหนักมาก)
`CCBot`	Common Crawl	dataset สาธารณะที่หลายโมเดลใช้

ตัวอย่าง: บล็อก AI crawler ทั้งหมด (แต่เปิดให้ Google ปกติ)

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow:

Sitemap: https://www.example.com/sitemap.xml

ข้อควรพิจารณาเชิงกลยุทธ์: การบล็อก AI crawler มีทั้งข้อดีและข้อเสีย — ถ้าเนื้อหาคุณคือทรัพย์สินที่มีค่า การบล็อกป้องกันไม่ให้ถูกนำไปใช้ฟรี แต่ในทางกลับกัน การ เปิด ให้ AI engine เข้าถึง ช่วยให้แบรนด์คุณถูกอ้างอิงในคำตอบของ ChatGPT/Perplexity ซึ่งเป็นช่องทางการมองเห็นใหม่ที่กำลังโต ที่ Southern Whale เรามักแนะนำให้ธุรกิจ เปิด AI crawler ที่ใช้ตอบ real-time (เช่น OAI-SearchBot, PerplexityBot) เพื่อชิงพื้นที่ใน AI answer แต่อาจพิจารณาบล็อกตัวที่เก็บข้อมูลเทรนล้วน ๆ ตามนโยบายของแต่ละธุรกิจ

หากต้องการให้ AI เข้าใจและอ้างอิงเว็บคุณได้ดีขึ้น ควรทำควบคู่กับ การทำ llms.txt ซึ่งเป็นมาตรฐานใหม่สำหรับ AI โดยเฉพาะ

วาง Robots.txt ไว้ที่ไหน?

robots.txt ต้องวางไว้ที่ root ของโดเมนเท่านั้น และต้องเข้าถึงได้ที่:

https://www.example.com/robots.txt

กฎเหล็ก:

ชื่อไฟล์ต้องเป็น robots.txt ตัวพิมพ์เล็กทั้งหมด (ห้าม Robots.txt หรือ ROBOTS.TXT)
ต้องอยู่ที่ root — วางใน subfolder เช่น /blog/robots.txt ไม่มีผล bot จะไม่มอง
แต่ละ subdomain และแต่ละ protocol (http/https) ต้องมีไฟล์ของตัวเอง
ไฟล์ต้องเป็น UTF-8 encoding และตอบกลับด้วย HTTP 200

วิธีวางตาม platform:

WordPress: ใช้ปลั๊กอิน SEO (Yoast, Rank Math) แก้ไขได้จากหน้า admin หรือสร้างไฟล์จริงวางที่ root directory ผ่าน FTP/File Manager
Astro / Next.js: วางไฟล์ robots.txt ในโฟลเดอร์ public/ มันจะถูก serve ที่ root อัตโนมัติ
เซิร์ฟเวอร์ทั่วไป: อัปโหลดไฟล์ไปที่ root directory (เช่น public_html/)

วิธีทดสอบ Robots.txt ใน Google Search Console

หลังตั้งค่าเสร็จ อย่าเดา — ต้องทดสอบ วิธีตรวจสอบ:

เปิดดูไฟล์โดยตรง — เข้า yourdomain.com/robots.txt ในเบราว์เซอร์ ดูว่าไฟล์ขึ้นถูกต้องและไม่มี error
ใช้ robots.txt report ใน Search Console — เข้า Google Search Console → Settings → robots.txt เพื่อดูว่า Google อ่านไฟล์เวอร์ชันล่าสุดได้ถูกต้อง และเช็คว่ามี syntax error หรือไม่ ถ้าแก้ไฟล์แล้วอยากให้ Google อ่านใหม่ทันที สามารถกด “Request a recrawl” ได้
ใช้ URL Inspection Tool — วาง URL ที่สงสัยลงในช่องค้นหาด้านบนของ Search Console มันจะบอกว่า URL นั้น “ถูกบล็อกโดย robots.txt” หรือไม่ และ Google มองเห็นหน้านั้นอย่างไร
ตรวจรายงาน Pages (Indexing) — ดูว่ามี URL ติดสถานะ “Blocked by robots.txt” ที่ไม่ควรถูกบล็อกหรือเปล่า

การเรียนรู้เครื่องมือนี้ให้คล่องเป็นทักษะพื้นฐานสำคัญ ซึ่งเป็นส่วนหนึ่งของ Technical SEO Checklist ฉบับเต็ม ที่ทุกเว็บควรทำตาม

คำถามที่พบบ่อย (FAQ)

Q: เว็บเล็ก ๆ จำเป็นต้องมี robots.txt ไหม? ไม่บังคับ ถ้าไม่มี robots.txt bot จะถือว่า crawl ได้ทุกอย่าง แต่การมีไฟล์ที่ระบุ Sitemap ก็เป็น best practice ที่ดี

Q: robots.txt ทำให้ SEO ดีขึ้นไหม? ทางอ้อม — มันไม่ได้เพิ่มอันดับโดยตรง แต่ช่วยจัดการ crawl budget และป้องกันปัญหา ซึ่งส่งผลดีต่อ SEO โดยรวม การตั้งผิดต่างหากที่ทำให้ SEO แย่ลง ได้มาก

Q: ถ้าใส่ Disallow แล้ว Google จะลบหน้าออกจาก index เลยไหม? ไม่จำเป็น — ถ้าหน้านั้น index ไปแล้ว การ Disallow อาจทำให้มันค้างใน index แบบไม่มีเนื้อหา ถ้าต้องการลบจริง ใช้ noindex (แล้วเปิดให้ crawl) หรือเครื่องมือ Removal ใน Search Console

Q: Crawl-delay ใช้กับ Google ได้ไหม? ไม่ได้ Google ไม่รองรับ ให้ปรับ crawl rate ผ่าน Search Console แทน

Q: แก้ robots.txt แล้วมีผลทันทีไหม? Google แคชไฟล์ robots.txt ไว้ราว 24 ชั่วโมง การแก้อาจไม่มีผลทันที แต่กด request recrawl ใน Search Console ช่วยเร่งได้

สรุป

robots.txt เป็นไฟล์ที่เรียบง่ายที่สุด แต่ทรงพลังที่สุดไฟล์หนึ่งในเว็บคุณ — เขียนถูกช่วยให้ Google โฟกัสหน้าสำคัญ จัดการ crawl budget และคุม AI crawler ได้ตามต้องการ แต่เขียนผิดเพียงบรรทัดเดียวอาจลบเว็บคุณออกจาก Google ทั้งหมด

หลักสำคัญที่ต้องจำ:

robots.txt คุม การ crawl ไม่ใช่ การ index — ถ้าอยากให้หน้าไม่ขึ้น Google ใช้ noindex ไม่ใช่ Disallow
ห้ามบล็อก CSS/JS และ ห้ามใช้ปกปิดข้อมูลลับ
เช็ค Disallow: / ทุกครั้งหลังเว็บขึ้น production
ในปี 2026 ใช้ robots.txt เป็นเครื่องมือเชิงกลยุทธ์ในการจัดการ AI crawler
ทดสอบเสมอ ใน Google Search Console ก่อนวางใจ

ที่ Southern Whale เราดูแล Technical SEO ให้ธุรกิจในภาคใต้และทั่วไทย ตั้งแต่การตั้งค่า robots.txt, Sitemap, ไปจนถึงกลยุทธ์ AI SEO ครบวงจร — ถ้าคุณไม่แน่ใจว่า robots.txt ของเว็บคุณตั้งถูกหรือกำลังบล็อกอะไรที่ไม่ควรอยู่ ทีมเราช่วยตรวจและวางระบบให้ได้ ดูรายละเอียดบริการ SEO ของเรา แล้วเริ่มต้นวางรากฐานที่ถูกต้องตั้งแต่วันนี้

Robots.txt คืออะไร? คู่มือ Syntax + ตัวอย่างจริง + AI Crawler ปี 2026 | Southern Whale