Skip to main content

กำลังโหลด...

Southern Whale
รับ SEO Audit ฟรี
Technical SEO 20 นาทีอ่าน

Crawl Budget คืออะไร? วิธี Optimize Crawl Budget สำหรับเว็บใหญ่ปี 2026 | Southern Whale

คู่มือ Crawl Budget Optimization ปี 2026 — Crawl Rate Limit + Crawl Demand, 10 ปัจจัยที่ลด Crawl Budget, 12 วิธี Optimize, GSC Crawl Stats, Log File Analysis — สำหรับเว็บ e-commerce / news ที่มี 10K+ pages

Crawl Budget diagram — Googlebot crawl rate และ crawl demand

บทนำ: ทำไม Crawl Budget ถึงกลายเป็นเรื่องสำคัญในปี 2026

ถ้าคุณดูแลเว็บไซต์ขนาดใหญ่ที่มีหน้า (page) มากกว่า 10,000 URL ขึ้นไป — ไม่ว่าจะเป็น e-commerce ที่มีสินค้านับแสน, เว็บข่าวที่ปล่อยบทความใหม่วันละหลายร้อยชิ้น, marketplace, classifieds, หรือ enterprise content hub — คุณอาจเคยเจอปัญหานี้: คุณปล่อยหน้าใหม่ออกไปแล้ว แต่ Google กลับใช้เวลาหลายวันหรือหลายสัปดาห์กว่าจะมา crawl และ index หน้านั้น บางหน้าก็ไม่ถูก index เลยทั้งที่อยู่ในเว็บมาเป็นเดือนแล้ว

สาเหตุที่แท้จริงคือเรื่องที่หลายคนมองข้าม: Crawl Budget — งบประมาณการ crawl ที่ Googlebot จัดสรรให้กับเว็บไซต์ของคุณในแต่ละช่วงเวลา ซึ่งมีจำกัดเสมอ และถ้าคุณใช้งบนี้ไปกับหน้าที่ไม่สำคัญหรือหน้าซ้ำ ๆ ที่ไม่ควรถูก crawl ตั้งแต่แรก หน้าที่สำคัญจริง ๆ ของคุณก็จะไม่ได้รับการ crawl อย่างที่ควรจะเป็น

ในปี 2026 เรื่อง crawl budget ยิ่งทวีความสำคัญขึ้นมาก เพราะ:

  • เว็บส่วนใหญ่โตเร็วกว่าที่ Google crawl ได้ทัน — โดยเฉพาะเว็บที่มี faceted navigation, product variants, dynamic filters
  • Googlebot ตอบสนองต่อสัญญาณ server มากขึ้น — TTFB ช้าทำให้ crawl rate ลดทันที
  • AI-generated content ทำให้ Google เข้มงวดเรื่องคุณภาพมากขึ้น — หน้าคุณภาพต่ำจะถูก deprioritize อย่างรวดเร็ว
  • JavaScript-rendered sites ใช้ crawl budget สูงกว่าเว็บ static ถึง 3-5 เท่า เพราะต้องผ่าน rendering pipeline เพิ่ม

บทความนี้ Southern Whale จะพาคุณเข้าใจ crawl budget แบบลึกถึงโครงสร้าง — ตั้งแต่ทฤษฎี 2 องค์ประกอบหลัก, 10 ปัจจัยที่ดูดงบประมาณคุณ, ไปจนถึง 12 วิธี optimize ที่ใช้ได้จริง พร้อมเคสจริงของเว็บ e-commerce 50,000 pages ที่เพิ่ม crawl rate ขึ้น 5 เท่าในเวลา 3 เดือน

หากคุณต้องการให้ทีมผู้เชี่ยวชาญช่วยวิเคราะห์ crawl budget ของเว็บคุณโดยตรง สามารถปรึกษาเราได้ที่ บริการ SEO หรือ ติดต่อทีมงาน ได้เลย


Crawl Budget คืออะไร และเมื่อไหร่ที่คุณต้องสนใจ

Crawl Budget คือจำนวน URL ที่ Googlebot (หรือ search engine crawler อื่น ๆ เช่น Bingbot, Yandexbot, Baiduspider, AppleBot, Bytespider) จะ crawl บนเว็บไซต์ของคุณภายในระยะเวลาหนึ่ง โดย Google เองนิยามไว้ว่าเป็นผลคูณระหว่าง 2 สิ่งคือ Crawl Capacity Limit (ความสามารถสูงสุดที่ crawl ได้โดยไม่กระทบ server) และ Crawl Demand (ความต้องการ crawl ของ Google ต่อเว็บคุณ)

เมื่อไหร่ที่ Crawl Budget สำคัญ?

ตาม Google Search Central documentation อย่างเป็นทางการ crawl budget เป็นเรื่องที่คุณต้องให้ความสำคัญเมื่อ:

ขนาดเว็บความสำคัญของ Crawl Budgetสิ่งที่ต้องทำ
< 1,000 URLต่ำมากไม่ต้องสนใจ — Google crawl ได้ทันแน่นอน
1,000 – 10,000 URLต่ำดูแล sitemap + robots.txt พื้นฐานก็พอ
10,000 – 100,000 URLสำคัญเริ่ม audit crawl behavior + ใช้ log analysis
100,000 – 1,000,000 URLสำคัญมากต้องมี crawl strategy ชัดเจน + monitor weekly
> 1,000,000 URLวิกฤตต้องมีทีม technical SEO ดูแลโดยเฉพาะ

นอกจากขนาดแล้ว ปัจจัยอื่นที่ทำให้ crawl budget สำคัญแม้เว็บไม่ใหญ่มาก ได้แก่:

  • เว็บอัพเดตบ่อย — เช่น news site ที่ปล่อยบทความวันละ 50+ ชิ้น, e-commerce ที่เปลี่ยนราคา/สต็อกตลอดเวลา
  • เว็บมี faceted navigation — เช่น filters ของ color/size/price ที่สร้าง URL combinations มหาศาล
  • เว็บใช้ JavaScript framework (React, Vue, Angular) แบบ CSR — Google ต้องเสีย crawl budget เพิ่มสำหรับ rendering
  • เว็บมีหน้า dynamic generated มาก เช่น search results pages, calendar pages, tag pages

ถ้าเว็บคุณเข้าเกณฑ์ใดเกณฑ์หนึ่งใน 4 ข้อข้างต้น ต่อให้มีไม่ถึง 10,000 URL คุณก็ควรเริ่ม audit crawl budget แล้ว


2 องค์ประกอบหลักของ Crawl Budget: Crawl Rate Limit + Crawl Demand

ก่อนจะเข้าเรื่อง optimization คุณต้องเข้าใจกลไกที่ Google ใช้คำนวณ crawl budget ก่อน เพราะวิธี optimize ทั้ง 12 ข้อที่จะกล่าวถึงในส่วนถัดไป ล้วนถูกออกแบบมาเพื่อปรับ 2 องค์ประกอบนี้

1. Crawl Rate Limit (Crawl Capacity)

Crawl Rate Limit คือจำนวน parallel connections สูงสุดที่ Googlebot จะ crawl เว็บคุณพร้อมกัน และช่วงเวลาหน่วง (delay) ระหว่างแต่ละ request เป้าหมายของ Google คือ crawl ให้มากที่สุดเท่าที่จะเป็นไปได้ โดยไม่ทำให้ server คุณช้าลงหรือล่ม

ปัจจัยที่ส่งผลต่อ crawl rate limit:

  • Server health — ถ้า server ตอบสนองเร็ว (TTFB < 200ms) Google จะเพิ่ม crawl rate
  • HTTP error rate — ถ้าเจอ 5xx errors บ่อย Google จะลด crawl rate ทันที
  • Manual setting ใน Search Console — เคยมีให้ตั้งได้ แต่ตอนนี้ Google ถอดออกแล้ว (deprecated ปี 2024)
  • Server capacity จริง — Google เรียนรู้ว่า server คุณรับได้แค่ไหน

ตัวอย่าง Nginx log ที่แสดง crawl rate ปกติ:

66.249.66.1 - - [20/Jun/2026:08:00:00 +0700] "GET /products/widget-001 HTTP/2.0" 200 12345 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.1 - - [20/Jun/2026:08:00:01 +0700] "GET /products/widget-002 HTTP/2.0" 200 12567 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.1 - - [20/Jun/2026:08:00:01 +0700] "GET /products/widget-003 HTTP/2.0" 200 12890 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.66.1 - - [20/Jun/2026:08:00:02 +0700] "GET /products/widget-004 HTTP/2.0" 200 11234 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

จากตัวอย่าง Googlebot ส่ง request ประมาณ 2-3 ครั้งต่อวินาที — เป็น crawl rate ที่ปกติสำหรับเว็บขนาดกลาง ถ้า server คุณตอบสนองช้า log จะเป็นแบบนี้แทน:

66.249.66.1 - - [20/Jun/2026:08:00:00 +0700] "GET /products/widget-001 HTTP/2.0" 200 12345 "-" "Googlebot/2.1" rt=2.345
66.249.66.1 - - [20/Jun/2026:08:00:05 +0700] "GET /products/widget-002 HTTP/2.0" 200 12567 "-" "Googlebot/2.1" rt=2.890
66.249.66.1 - - [20/Jun/2026:08:00:10 +0700] "GET /products/widget-003 HTTP/2.0" 503 245   "-" "Googlebot/2.1" rt=0.012
66.249.66.1 - - [20/Jun/2026:08:00:30 +0700] "GET /products/widget-004 HTTP/2.0" 200 11234 "-" "Googlebot/2.1" rt=3.123

สังเกตว่า request time (rt) สูงถึง 2-3 วินาที และมี 503 ปนมา Google จะลด crawl rate ทันทีและกลับมาลองใหม่ในจำนวนที่น้อยลง

2. Crawl Demand

Crawl Demand คือความต้องการของ Google ที่จะ crawl URL บนเว็บคุณ ซึ่งขึ้นอยู่กับ:

  • Popularity — URL ที่ popular (มี backlinks เยอะ, traffic สูง) จะถูก crawl บ่อยกว่า
  • Staleness — URL ที่ Google มองว่าน่าจะอัพเดต ก็จะถูก recrawl บ่อย
  • Inventory size — จำนวน URL ทั้งหมดที่ Google รู้จักบนเว็บคุณ (จาก sitemap, internal links, external links)
  • Site-wide changes — เช่น เปลี่ยน domain, redesign ครั้งใหญ่ จะเพิ่ม crawl demand ชั่วคราว
  • Content quality signals — เว็บคุณภาพสูงจะมี demand สูงกว่า

Crawl Budget สุทธิ = min(Crawl Rate Limit, Crawl Demand)

ถ้าคุณ optimize ฝั่งเดียวอย่างไม่สมดุล ก็ไม่ได้ผล ตัวอย่างเช่น ถ้า server เร็วมาก (rate limit สูง) แต่ Google ไม่เห็นว่า content คุณน่า crawl (demand ต่ำ) ก็ไร้ประโยชน์ ในทางกลับกัน ถ้า demand สูงมาก แต่ server ช้า Google ก็จะ crawl ได้แค่ตามที่ server รับได้


10 ปัจจัยที่ลด Crawl Budget ของคุณ

ก่อนจะ optimize คุณต้องรู้ว่าอะไรกำลังกินงบประมาณ crawl คุณอยู่ ตารางนี้คือ 10 ปัจจัยหลักที่พบบ่อยที่สุดในเว็บไทยและต่างประเทศ

#ปัจจัยผลกระทบพบบ่อยที่สุดในเว็บประเภท
1Soft 404สูง — Google เสียเวลา crawl หน้าที่ไม่มี content จริงE-commerce, classifieds
2Duplicate Contentสูงมาก — กิน budget ได้ 30-50%E-commerce, news (republish)
3Faceted Navigationวิกฤต — สร้าง URL infinitelyE-commerce, marketplace
4Session ID in URLสูง — ทุก session ใหม่ = URL ใหม่Legacy CMS, old shopping carts
5Infinite Spaces (calendar, search)วิกฤตBooking sites, internal search
6Low-Quality URLsกลาง-สูงUGC sites, auto-generated pages
7Hacked Pages / Spamสูงมากเว็บที่ถูก hack ไม่รู้ตัว
8HTTP 5xx Errorsวิกฤต — ทำให้ crawl rate ลดทันทีServer ที่ overload
9Slow TTFBสูง — TTFB > 1s ลด crawl 50%+Shared hosting, unoptimized DB
10Redirect Chainsกลาง — ทุก redirect = ใช้ budget เพิ่มเว็บที่ migrate มาหลายรอบ

1. Soft 404

หน้า soft 404 คือหน้าที่ตอบ HTTP 200 OK แต่ content ภายในบอกว่า “ไม่พบสินค้านี้” หรือ “หน้านี้ไม่มีอยู่แล้ว” Google ต้อง crawl และ render ก่อนถึงจะรู้ว่าเป็นหน้าว่าง — เสีย budget โดยไม่จำเป็น

ตัวอย่างหน้าที่มักเป็น soft 404:

  • หน้าสินค้าที่ขายหมดแล้ว แต่ template ยังแสดง “Out of Stock” แทน 404
  • หน้า category ที่ไม่มีสินค้า (filter ที่ไม่มีผลลัพธ์)
  • หน้า user profile ที่ user ลบ account แล้ว

วิธีแก้: ตอบ HTTP 404 หรือ 410 จริง ๆ ในกรณีที่ content ไม่มีอยู่จริง หรือใช้ 301 redirect ไปยังหน้าที่เกี่ยวข้อง

2. Duplicate Content

เว็บ e-commerce ที่ขายสินค้าเดียวกันแต่มี URL หลาย ๆ แบบ เช่น ?color=red&size=m, ?size=m&color=red, ?utm_source=... — แต่ละ URL ที่ต่างกันแต่ content เดียวกัน Google จะมอง URL พวกนี้แยกกัน และพยายาม crawl ทั้งหมด

3. Faceted Navigation

นี่คือผู้ร้ายอันดับหนึ่งของเว็บ e-commerce ลองคิดดูว่าถ้าคุณมี 10 filters ที่แต่ละ filter มี 5 options + sort 4 แบบ + pagination 20 หน้า:

5^10 × 4 × 20 = 781,250,000 URLs

จาก 1 หน้า category ปลายทาง คุณอาจสร้าง URL ได้เกือบพันล้านที่ Google ต้อง crawl

4. Session ID in URL

https://example.com/product/widget?sessionid=abc123xyz
https://example.com/product/widget?sessionid=def456uvw
https://example.com/product/widget?sessionid=ghi789rst

ทุก session ใหม่ = URL ใหม่ที่ Google ต้อง crawl ใหม่หมด — ทั้งที่ content เดียวกัน

5. Infinite Spaces

  • หน้า calendar ที่ “next month” ไม่มีวันจบ (สามารถคลิกไปได้ถึงปี 9999)
  • หน้า internal search ที่ Google ไป crawl query แปลก ๆ
  • หน้า user-generated tag pages ที่สร้าง tag ใหม่ทุกครั้ง

6-10. ปัจจัยอื่น ๆ

  • Low-Quality URLs: หน้าที่ content น้อยมาก เช่น author archive ที่มีบทความเดียว, empty category
  • Hacked Pages: ถ้าเว็บคุณถูก hack แล้วเขาสร้างหน้าสแปมเป็นพันหน้า Google จะ crawl หน้าพวกนั้นด้วย
  • HTTP 5xx Errors: ทำให้ Google ลด crawl rate ทันที — เรื่องนี้ critical ที่สุด
  • Slow TTFB: ถ้า server ช้า Google จะลด crawl rate เพื่อไม่ให้ server ล่ม อ่านเพิ่มเติมที่ Core Web Vitals Guide 2026
  • Redirect Chains: A → B → C → D ใช้ crawl budget 4 ครั้งสำหรับ 1 URL สุดท้าย

12 วิธี Optimize Crawl Budget — ฉบับใช้ได้จริงปี 2026

ตารางสรุป 12 วิธี optimize ก่อนเข้ารายละเอียด:

#วิธีความยากผลลัพธ์ที่ได้เวลาที่ใช้
1Robots.txt disallow useless pathsง่ายกลาง-สูง1-2 วัน
2Noindex thin pagesง่ายกลาง1 สัปดาห์
3Canonical tagกลางสูง2-4 สัปดาห์
4Sitemap + lastmodง่ายกลาง-สูง2-3 วัน
5Fix 404 / Redirect chainsกลางสูง1-2 สัปดาห์
6Reduce URL parametersยากสูงมาก1-2 เดือน
7Use Indexing APIง่ายกลาง1 สัปดาห์
8Improve TTFBยากสูงมาก1-3 เดือน
9Internal Link auditกลางสูง2-4 สัปดาห์
10Remove duplicate contentยากสูงมาก1-3 เดือน
11Use HTTP 304 Not Modifiedกลางกลาง-สูง1-2 สัปดาห์
12Configure Crawl rate (Bing)ง่ายกลาง1 วัน

วิธีที่ 1: Robots.txt — Disallow ทุกอย่างที่ไม่ควร crawl

นี่คือวิธีที่ได้ผลเร็วที่สุด เพราะ robots.txt ทำงานก่อน Google จะ crawl URL ตัวอย่าง robots.txt ที่ดีสำหรับเว็บ e-commerce ขนาดใหญ่:

# robots.txt for example.com - optimized for crawl budget
User-agent: *

# Block faceted navigation parameters
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*?sort=
Disallow: /*?price=
Disallow: /*?brand=
Disallow: /*?rating=

# Block session and tracking parameters
Disallow: /*?sessionid=
Disallow: /*?sid=
Disallow: /*?utm_
Disallow: /*?fbclid=
Disallow: /*?gclid=
Disallow: /*?ref=

# Block internal search
Disallow: /search?
Disallow: /search/

# Block user-specific pages
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /my-account/
Disallow: /wishlist/

# Block admin and system
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /api/

# Block calendar infinite spaces
Disallow: /calendar/*/next
Disallow: /events/*/page/

# Block printer-friendly versions
Disallow: /*?print=
Disallow: /print/

# Allow specific bots more
User-agent: Googlebot
Crawl-delay: 0

User-agent: Bingbot
Crawl-delay: 1

# Sitemap
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-products.xml
Sitemap: https://example.com/sitemap-categories.xml
Sitemap: https://example.com/sitemap-blog.xml

ข้อควรระวัง:

  • Disallow ไม่ได้ป้องกัน Google จาก index URL — มันแค่ป้องกัน crawl content
  • ถ้าต้องการเอา URL ออกจาก index ใช้ noindex tag (ในวิธีที่ 2) แทน
  • ทดสอบ robots.txt ด้วย Google Search Console > Settings > robots.txt report เสมอ

วิธีที่ 2: Noindex Thin Pages

สำหรับหน้าที่คุณอยากให้ user เข้าได้แต่ไม่อยากให้ Google index — ใช้ meta robots tag:

<!-- For pages you want to keep out of index but allow crawling for link discovery -->
<meta name="robots" content="noindex, follow">

<!-- For pages you want completely out -->
<meta name="robots" content="noindex, nofollow">

<!-- HTTP header alternative (better for non-HTML files) -->
X-Robots-Tag: noindex, follow

ตัวอย่างหน้าที่ควร noindex:

  • Internal search results pages
  • Tag pages ที่มีบทความเดียว
  • Author archives ที่ content น้อย
  • Pagination หน้าลึก ๆ (page 10+) ของ category
  • Filter combinations ที่ไม่ค่อยมีคน search

สำคัญ: อย่า disallow URL ใน robots.txt ที่คุณใส่ noindex ไว้ เพราะ Google จะอ่าน noindex tag ไม่ได้ ทำให้หน้านั้น index ต่อไป

วิธีที่ 3: Canonical Tag

Canonical tag บอก Google ว่า URL ไหนคือ “ตัวจริง” ของ content ชิ้นนี้:

<!-- บนหน้า https://example.com/products/widget?color=red&size=m -->
<link rel="canonical" href="https://example.com/products/widget">

สำหรับ pagination:

<!-- Page 1 -->
<link rel="canonical" href="https://example.com/blog/page/1">

<!-- Page 2, 3, ... -->
<link rel="canonical" href="https://example.com/blog/page/2">
<link rel="canonical" href="https://example.com/blog/page/3">

ข้อควรระวังเรื่อง canonical:

  • Canonical คือ “hint” ไม่ใช่ “directive” — Google อาจไม่เคารพ canonical ถ้าหน้า canonical กับ URL จริงต่างกันมาก
  • อย่าใช้ canonical แบบ chain (A canonical → B canonical → C)
  • อย่า canonical หน้าที่ disallow ใน robots.txt

วิธีที่ 4: Sitemap.xml + lastmod ที่ถูกต้อง

Sitemap คือสัญญาณที่ตรงที่สุดที่บอก Google ว่า “หน้าไหนสำคัญ” และ “หน้าไหนเพิ่งอัพเดต”

ตัวอย่าง sitemap.xml ที่ดี:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2026-06-20T08:00:00+07:00</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/products/widget-001</loc>
    <lastmod>2026-06-19T14:30:00+07:00</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://example.com/blog/seo-guide-2026</loc>
    <lastmod>2026-06-15T10:00:00+07:00</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.7</priority>
  </url>
</urlset>

สำหรับเว็บใหญ่ใช้ sitemap index file:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap-products-001.xml</loc>
    <lastmod>2026-06-20T08:00:00+07:00</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-products-002.xml</loc>
    <lastmod>2026-06-20T08:00:00+07:00</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-blog.xml</loc>
    <lastmod>2026-06-19T14:00:00+07:00</lastmod>
  </sitemap>
</sitemapindex>

กฎทอง: lastmod ต้อง accurate — Google จะหยุดเชื่อ sitemap ของคุณถ้า lastmod เปลี่ยนทุกวันแต่ content ไม่ได้เปลี่ยน

วิธีที่ 5: Fix 404 และ Redirect Chains

ใช้คำสั่ง curl เพื่อตรวจ redirect chain:

curl -ILso /dev/null -w "%{http_code} → %{url_effective}\n" \
  -A "Googlebot/2.1" \
  https://example.com/old-product

ถ้าผลลัพธ์เป็นแบบนี้คือ redirect chain ที่ต้องแก้:

301 → https://example.com/old-products
301 → https://example.com/products
301 → https://www.example.com/products/
200 → https://www.example.com/products/

แก้เป็น single redirect:

# nginx configuration
location = /old-product {
    return 301 https://www.example.com/products/;
}

วิธีที่ 6: Reduce URL Parameters

ใช้ URL clean แทน parameter:

❌ https://example.com/products?category=shoes&brand=nike&color=red
✅ https://example.com/products/shoes/nike/red

ถ้าจำเป็นต้องใช้ parameter ให้ใช้แค่ที่จำเป็น และจัดเรียงตามลำดับเดียวกันเสมอ:

// Always sort params alphabetically before generating URL
function buildUrl(base, params) {
  const sortedParams = Object.keys(params)
    .sort()
    .reduce((acc, key) => {
      acc[key] = params[key];
      return acc;
    }, {});

  const queryString = new URLSearchParams(sortedParams).toString();
  return `${base}?${queryString}`;
}

// Always produces same URL regardless of input order
buildUrl('/products', { color: 'red', brand: 'nike' });
// → /products?brand=nike&color=red

buildUrl('/products', { brand: 'nike', color: 'red' });
// → /products?brand=nike&color=red

วิธีที่ 7: ใช้ Indexing API

Google มี Indexing API สำหรับ job posting และ live broadcast แต่ Bing มี IndexNow API ที่ใช้ได้กับทุกประเภท:

# IndexNow API - notify Bing instantly when content changes
curl -X POST "https://api.indexnow.org/indexnow" \
  -H "Content-Type: application/json" \
  -d '{
    "host": "example.com",
    "key": "your-api-key-here",
    "keyLocation": "https://example.com/your-api-key-here.txt",
    "urlList": [
      "https://example.com/products/new-product-1",
      "https://example.com/products/new-product-2",
      "https://example.com/blog/new-post"
    ]
  }'

วิธีที่ 8: Improve TTFB

TTFB (Time to First Byte) คือเวลาที่ server ใช้ตอบ request แรก — เป็นปัจจัยที่ส่งผลต่อ crawl rate มากที่สุด

Excellent: < 200ms
Good:      200-500ms
Needs work: 500-1000ms
Poor:      > 1000ms

วิธีปรับ TTFB:

  • ใช้ CDN เช่น Cloudflare — อ่านเพิ่มที่ Cloudflare Complete Guide 2026
  • เปิด HTTP/2 หรือ HTTP/3
  • เปิด server-side caching (Redis, Memcached)
  • Optimize database queries (index, query plan)
  • อัพเกรด PHP/Python/Node เป็นเวอร์ชันใหม่
  • ใช้ static site generator ถ้าเป็นไปได้

Google ใช้ internal links เป็นสัญญาณบอกว่าหน้าไหนสำคัญ — หน้าที่มี internal link มาเยอะจะถูก crawl บ่อยกว่า

                  Homepage
                      |
        +-------------+-------------+
        |             |             |
   Category A   Category B   Category C
        |             |             |
   +----+----+   +----+----+   +----+----+
   |    |    |   |    |    |   |    |    |
  P1   P2   P3  P4   P5   P6  P7   P8   P9

ปัญหาที่พบบ่อย:

  • Orphan pages: หน้าที่ไม่มี internal link ชี้มา — Google จะ crawl น้อยมากหรือไม่ crawl เลย
  • Deep pages: หน้าที่ user ต้องคลิก 6+ ครั้งจาก homepage ถึงจะถึง
  • Broken internal links: ลิงก์เสียที่ทำให้ link equity รั่วไหล

ใช้ Screaming Frog หรือ Sitebulb crawl เว็บคุณเอง แล้วดู:

Click Depth Report:
Depth 0: 1 URL (homepage)
Depth 1: 25 URLs
Depth 2: 180 URLs
Depth 3: 1,200 URLs
Depth 4: 5,500 URLs
Depth 5: 12,000 URLs  ← พิจารณาลดความลึก
Depth 6+: 25,000 URLs ← หน้าพวกนี้แทบไม่ถูก crawl

วิธีที่ 10: Remove Duplicate Content

ใช้ command line ตรวจสอบ duplicate title/h1:

# Extract all titles from sitemap URLs
while read url; do
  title=$(curl -s "$url" | grep -oP '(?<=<title>)[^<]+')
  echo "$url|$title"
done < urls.txt | sort -t'|' -k2 | uniq -d -f1

วิธีจัดการ duplicate:

  • ใช้ canonical tag (วิธีที่ 3) สำหรับ near-duplicate
  • ใช้ 301 redirect สำหรับ exact duplicate
  • Merge content และเขียนใหม่ให้ unique สำหรับ thin duplicate
  • noindex สำหรับ duplicate ที่จำเป็นต้องมีอยู่

วิธีที่ 11: HTTP 304 Not Modified

นี่คือเทคนิคขั้น advanced ที่ช่วยประหยัด bandwidth และทำให้ Googlebot crawl ได้เร็วขึ้นมาก

Googlebot จะส่ง header If-Modified-Since หรือ If-None-Match มาตรวจสอบว่า content เปลี่ยนหรือยัง — ถ้าไม่เปลี่ยน server ควรตอบ 304 แทน 200 + full content

ตัวอย่าง nginx config:

location / {
    # Enable ETag
    etag on;

    # Enable If-Modified-Since handling
    add_header Last-Modified $date_gmt;
    if_modified_since exact;

    # ... other config
}

ตัวอย่าง response ที่ดี:

# Request from Googlebot
GET /products/widget-001 HTTP/2
Host: example.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
If-Modified-Since: Wed, 15 Jun 2026 14:30:00 GMT
If-None-Match: "abc123def456"

# Response (content hasn't changed)
HTTP/2 304 Not Modified
Date: Sat, 20 Jun 2026 08:00:00 GMT
ETag: "abc123def456"
Cache-Control: public, max-age=3600

Server ตอบกลับเพียง header (ไม่กี่ร้อย byte) แทนที่จะส่ง HTML ทั้งหน้า (อาจหลายร้อย KB) — Google รับรู้ว่าหน้านี้ไม่เปลี่ยนและจะไม่ re-index

ตัวอย่าง implementation ใน Express.js:

app.get('/products/:id', async (req, res) => {
  const product = await db.products.findById(req.params.id);

  // Calculate ETag based on content
  const etag = require('crypto')
    .createHash('md5')
    .update(JSON.stringify(product))
    .digest('hex');

  // Set headers
  res.set({
    'ETag': `"${etag}"`,
    'Last-Modified': product.updatedAt.toUTCString(),
    'Cache-Control': 'public, max-age=3600'
  });

  // Check if client has fresh version
  if (req.headers['if-none-match'] === `"${etag}"`) {
    return res.status(304).end();
  }

  if (req.headers['if-modified-since']) {
    const ifModifiedSince = new Date(req.headers['if-modified-since']);
    if (product.updatedAt <= ifModifiedSince) {
      return res.status(304).end();
    }
  }

  // Render full page
  res.render('product', { product });
});

วิธีที่ 12: Configure Crawl Rate (Bing/Yandex)

Google เลิกให้ตั้ง crawl rate manual แล้ว แต่ Bing และ Yandex ยังให้ตั้งได้:

Bing Webmaster Tools:

  • เข้า Bing Webmaster Tools > Settings > Configure My Site > Crawl Control
  • ตั้งค่า crawl pattern ตามช่วงเวลาที่ server ว่าง

Yandex Webmaster:

  • ใช้ Crawl-delay ใน robots.txt:
User-agent: Yandexbot
Crawl-delay: 2

User-agent: Bingbot
Crawl-delay: 1

User-agent: *
Crawl-delay: 5

วิเคราะห์ GSC Crawl Stats Report

Google Search Console > Settings > Crawl stats เป็นแหล่งข้อมูลที่สำคัญที่สุด — คุณจะเห็น:

Total crawl requests

กราฟแสดงจำนวน request ที่ Googlebot ส่งมาในช่วง 90 วันล่าสุด

สิ่งที่ต้องดู:
- มี spike กะทันหันไหม? (อาจมีปัญหา infinite spaces)
- มี drop กะทันหันไหม? (อาจมี server issue หรือ robots.txt blockตัวเอง)
- Trend ระยะยาวเป็นยังไง? (เพิ่ม = ดี, ลด = มีปัญหา)

Total download size

ปริมาณข้อมูลที่ Google download

ถ้าตัวเลขสูงผิดปกติ:
- อาจมีหน้าใหญ่เกินจำเป็น (uncompressed images, large JS bundle)
- อาจไม่ได้ใช้ HTTP 304 Not Modified
- อาจไม่มี compression (gzip, brotli)

Average response time

< 200ms: ดีเยี่ยม
200-500ms: ปกติ
500-1000ms: ควรปรับ
> 1000ms: ต้องปรับด่วน — Google จะลด crawl rate

Host status

ตรวจสอบว่า:

  • robots.txt accessible
  • DNS resolution OK
  • Server connectivity OK

Crawl requests breakdown

แยกตาม:

By response code:

  • 200 OK
  • 301/302 redirects
  • 404 not found
  • 5xx server errors
ตัวเลขที่ต้องระวัง:
- 404 > 5% → มี broken links เยอะ
- 5xx > 1% → server มีปัญหา critical
- 301/302 > 20% → มี redirect chains เยอะ

By file type:

  • HTML
  • JavaScript
  • CSS
  • Images
  • PDF
  • Other
ถ้า JS/CSS เยอะกว่า HTML มาก:
- อาจไม่ได้ cache assets ดีพอ
- อาจไม่ได้ใช้ versioning ของ assets

By purpose:

  • Discovery (หา URL ใหม่)
  • Refresh (re-crawl URL เดิม)
อัตราส่วนที่ดี:
Refresh : Discovery ≈ 80 : 20

ถ้า Refresh สูงเกินไป = Google มอง URL คุณว่าเปลี่ยนบ่อย (อาจไม่จริง)
ถ้า Discovery สูงเกินไป = มี URL ใหม่เกิดเยอะมาก (อาจมี infinite spaces)

By Googlebot type:

  • Smartphone
  • Desktop
  • Image
  • Video
  • Other (AdsBot, etc.)

Log File Analysis — เจาะลึกพฤติกรรม Googlebot

Server log คือข้อมูลที่ accurate ที่สุด เพราะคุณเห็น request จริง ๆ ที่ Googlebot ส่งมา GSC แสดงข้อมูลรวม แต่ log file ให้คุณวิเคราะห์ระดับ URL ได้

ตัวอย่าง Nginx log format

log_format crawl_format '$remote_addr - $remote_user [$time_local] '
                        '"$request" $status $body_bytes_sent '
                        '"$http_referer" "$http_user_agent" '
                        'rt=$request_time uct="$upstream_connect_time" '
                        'uht="$upstream_header_time" urt="$upstream_response_time"';

access_log /var/log/nginx/access.log crawl_format;

ตัวอย่าง raw log entry

66.249.66.1 - - [20/Jun/2026:08:00:00 +0700] "GET /products/widget-001 HTTP/2.0" 200 12345 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" rt=0.234 uct="0.001" uht="0.123" urt="0.230"
66.249.66.1 - - [20/Jun/2026:08:00:01 +0700] "GET /products/widget-002 HTTP/2.0" 200 12567 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" rt=0.189
66.249.64.1 - - [20/Jun/2026:08:00:02 +0700] "GET /sitemap.xml HTTP/2.0" 200 245678 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" rt=0.567
66.249.66.1 - - [20/Jun/2026:08:00:03 +0700] "GET /category/shoes?color=red&size=m&sort=price HTTP/2.0" 200 45678 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" rt=1.234

ตัวอย่าง Apache log format

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %T" combined_with_time
CustomLog logs/access_log combined_with_time

Verify Googlebot จริงหรือ Fake

# Reverse DNS lookup
host 66.249.66.1
# Should return: 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

# Forward DNS lookup to verify
host crawl-66-249-66-1.googlebot.com
# Should return: crawl-66-249-66-1.googlebot.com has address 66.249.66.1

ถ้า reverse + forward DNS ตรงกัน = Googlebot จริง ถ้าไม่ตรง = bot ปลอม

วิเคราะห์ log ด้วย command line

นับ request ต่อวันจาก Googlebot:

grep "Googlebot" /var/log/nginx/access.log | \
  awk '{print $4}' | \
  cut -d: -f1 | \
  sort | uniq -c

หา URL ที่ Googlebot crawl บ่อยที่สุด:

grep "Googlebot" /var/log/nginx/access.log | \
  awk '{print $7}' | \
  sort | uniq -c | \
  sort -rn | head -50

หา URL ที่ตอบ 5xx error:

grep "Googlebot" /var/log/nginx/access.log | \
  awk '$9 ~ /^5/ {print $7, $9}' | \
  sort | uniq -c | sort -rn

หา URL ที่ตอบช้า (> 1 วินาที):

grep "Googlebot" /var/log/nginx/access.log | \
  awk '$NF > 1 {print $7, $NF}' | \
  sort -k2 -rn | head -50

Tools สำหรับ log analysis

  • Screaming Frog Log File Analyser — desktop app, ง่ายที่สุด
  • Splunk — enterprise solution
  • GoAccess — open source real-time log analyzer
  • ELK Stack (Elasticsearch + Logstash + Kibana) — สำหรับ scale ใหญ่
  • JetOctopus / OnCrawl — cloud-based, มี crawl + log analysis รวมกัน

เคสจริง: เว็บ E-commerce 50,000 Pages เพิ่ม Crawl Rate 5 เท่า

ลูกค้า Southern Whale รายหนึ่ง — เว็บ e-commerce ไทยที่ขายสินค้าแฟชั่น มีสินค้า 50,000 รายการ + category 200 + blog 1,500 บทความ รวมเป็น URL ที่ควรถูก index ประมาณ 52,000 URL

ก่อน Optimization (ม.ค. 2026)

จาก GSC Crawl Stats:

  • Average crawl requests/day: 8,500
  • Average response time: 1,234 ms
  • 5xx error rate: 3.2%
  • 404 rate: 8.7%
  • Indexed pages: 18,000 / 52,000 (35%)
  • Fresh content discovery time: 5-7 วัน

จาก log analysis พบว่า:

  • 65% ของ crawl budget ถูกใช้กับ faceted navigation URLs
  • 12% ถูกใช้กับ session ID URLs (legacy system)
  • 8% ถูกใช้กับ internal search results
  • เหลือเพียง 15% สำหรับหน้าสินค้า/หมวด/บทความจริง ๆ

สิ่งที่ทำ (ก.พ. - เม.ย. 2026)

เดือนที่ 1: Quick wins

  1. เพิ่ม robots.txt disallow rules สำหรับ faceted parameters, session IDs, internal search
  2. แก้ session ID — เปลี่ยนไปใช้ cookie-based session
  3. แก้ 5xx errors — เพิ่ม server capacity + optimize database queries
  4. เปิด HTTP/2 + Brotli compression
  5. เพิ่ม CDN (Cloudflare) — ลด TTFB จาก 1,234ms เหลือ 320ms

เดือนที่ 2: Structural fixes 6. ปรับ canonical tag ให้ครอบคลุมทุกหน้า 7. สร้าง sitemap แยก: products, categories, blog, brands 8. ใส่ accurate lastmod ใน sitemap (sync กับ database update timestamp) 9. แก้ redirect chains 4-5 hop ให้เป็น single redirect 10. ลบ orphan pages และเพิ่ม internal links ไปยังหน้าสำคัญ

เดือนที่ 3: Advanced optimization 11. Implement HTTP 304 Not Modified สำหรับทุกหน้า 12. เริ่มใช้ IndexNow API กับ Bing สำหรับ products ใหม่ 13. ลด JS bundle size 60% ด้วย code splitting (อ่านเรื่อง JavaScript SEO 2026) 14. ปรับ pagination ให้ใช้ rel=prev/next + canonical ที่ถูกต้อง

หลัง Optimization (พ.ค. 2026)

  • Average crawl requests/day: 42,000 (เพิ่ม 5x)
  • Average response time: 245 ms (ลด 80%)
  • 5xx error rate: 0.1%
  • 404 rate: 1.2%
  • Indexed pages: 48,500 / 52,000 (93%)
  • Fresh content discovery time: 6-12 ชั่วโมง
  • Organic traffic: +167% (วัดจาก GSC)
  • Revenue from organic search: +213%

บทเรียนสำคัญ

  1. TTFB คือ multiplier — ลด TTFB ก่อนทำอย่างอื่น ผลกระทบจะคูณกับทุกอย่างที่ทำต่อ
  2. Robots.txt ให้ผลเร็วที่สุด — เห็นผลภายใน 1-2 สัปดาห์
  3. Sitemap lastmod ที่ accurate สำคัญมาก — Google เรียนรู้ได้ว่าใครซื่อสัตย์
  4. HTTP 304 ลด bandwidth 70% — Googlebot crawl ได้มากขึ้นใน budget เท่าเดิม
  5. อย่ามองข้าม internal linking — เปลี่ยน orphan pages เป็น linked pages เพิ่ม indexing ได้ 30%

5 ข้อผิดพลาดที่พบบ่อยใน Crawl Budget Optimization

1. Disallow ทุกอย่างใน robots.txt เพื่อ “ประหยัด” crawl budget

ผิด! การ disallow ไม่ได้ลด crawl budget โดยตรง แต่อาจทำให้ Google มอง URL พวกนั้นเป็น orphan และเดาเอาเองว่าควร index ดีไหม

# ❌ ผิด — disallow แต่ปล่อย internal link ชี้มา
Disallow: /products/category-a/

# ✅ ถูก — disallow + ลบ internal link + noindex
# (ในหน้า) <meta name="robots" content="noindex">

2. ใส่ noindex ใน robots.txt แล้ว disallow ด้วย

# ❌ ผิด — Google อ่าน noindex tag ไม่ได้
Disallow: /tag/

# ในหน้า /tag/seo
<meta name="robots" content="noindex">

ผลลัพธ์: Google ไม่เคย crawl หน้า แต่อาจ index ตาม internal/external links — noindex tag ไม่มีผล

วิธีที่ถูก: noindex อย่างเดียว (ไม่ disallow):

<meta name="robots" content="noindex, follow">

3. ลืม sitemap ทุก locale/ภาษา

ถ้าเว็บคุณรองรับหลายภาษา (เช่น th, en, zh) ต้องมี sitemap ที่ครอบคลุมทุกภาษา + ใช้ hreflang tag:

<url>
  <loc>https://example.com/th/products/widget</loc>
  <xhtml:link rel="alternate" hreflang="th" href="https://example.com/th/products/widget"/>
  <xhtml:link rel="alternate" hreflang="en" href="https://example.com/en/products/widget"/>
  <xhtml:link rel="alternate" hreflang="zh" href="https://example.com/zh/products/widget"/>
  <xhtml:link rel="alternate" hreflang="x-default" href="https://example.com/en/products/widget"/>
</url>

4. ไม่ตรวจสอบ robots.txt หลังเปลี่ยน

หลายเว็บ deploy code ใหม่แล้วเผลอ deploy robots.txt ที่ block ทุกอย่าง:

User-agent: *
Disallow: /

ผลลัพธ์: Google หยุด crawl ภายในไม่กี่ชั่วโมง ranking ตกภายในไม่กี่วัน

Best practice:

  • ตั้ง monitoring (Pingdom, UptimeRobot) ให้ alert ถ้า robots.txt เปลี่ยน
  • มี staging robots.txt vs production robots.txt แยกชัดเจน
  • ใช้ Google Search Console > Settings > robots.txt report ตรวจสอบทันทีหลัง deploy

5. เชื่อ priority/changefreq ใน sitemap ว่า Google เคารพ

Google ignore <priority> และ <changefreq> ใน sitemap มานานแล้ว — ยังคงให้ใส่ได้เพราะ standard แต่ไม่มีผลกับ crawl

สิ่งที่ Google ใช้จริง ๆ จาก sitemap:

  • <loc> — URL ที่ต้อง crawl
  • <lastmod> — เวลาอัพเดตล่าสุด (เป็นปัจจัยสำคัญ!)

อยากบอกว่าหน้าไหนสำคัญกว่า? ใช้ internal linking + sitemap separation แทน


FAQ: คำถามที่พบบ่อยเกี่ยวกับ Crawl Budget

Q1: เว็บผมมีแค่ 500 หน้า ต้องสนใจ crawl budget ไหม?

A: ไม่จำเป็น Google สามารถ crawl เว็บขนาดเล็กได้ครบทุกหน้าโดยไม่มีปัญหา ให้โฟกัสที่ content quality, internal linking, และ technical SEO พื้นฐาน (robots.txt + sitemap) ก็พอ — เว้นแต่เว็บคุณมี faceted navigation หรือ infinite spaces ที่สร้าง URL จำนวนมหาศาลจาก base 500 URL

Q2: ใช้ Crawl-delay ใน robots.txt บล็อก Googlebot ได้ไหม?

A: ไม่ได้ — Google ignore Crawl-delay directive มาตั้งแต่ปี 2019 ถ้าคุณต้องการลด crawl rate ของ Google ต้องส่ง 503 response ชั่วคราว (ไม่ใช่ระยะยาว) หรือ contact Google Search Central support สำหรับเคสพิเศษ ส่วน Bing/Yandex ยังเคารพ Crawl-delay อยู่

Q3: ถ้า Google crawl เว็บผมไม่ทัน ผมควรเพิ่ม sitemap หลายอันไหม?

A: การมี sitemap หลาย sub-sitemap (แยกตาม content type หรือ section) เป็น best practice สำหรับเว็บใหญ่ — ทำให้ Google เลือก crawl ส่วนที่อัพเดตได้แม่นยำขึ้น แต่ละ sitemap ไม่ควรเกิน 50,000 URL หรือ 50MB (uncompressed) ตาม spec ของ Google

Q4: HTTP/2 หรือ HTTP/3 ช่วย crawl budget ไหม?

A: ช่วย — Googlebot รองรับทั้ง HTTP/2 และ HTTP/3 (ตั้งแต่ปี 2025) เนื่องจาก HTTP/2+ ใช้ multiplexing ทำให้ส่งหลาย request ใน connection เดียวได้ ลด overhead และ Google จะ crawl ได้เร็วขึ้นต่อ unit time การเปิด HTTP/2 อย่างเดียวเพิ่ม effective crawl rate ได้ 20-40%

Q5: ใช้ JavaScript framework (React/Next.js/Vue) กระทบ crawl budget มากแค่ไหน?

A: ขึ้นอยู่กับว่าใช้แบบไหน:

  • SSR/SSG (Next.js + getServerSideProps, Astro static): กระทบน้อยมาก เพราะ Google ได้ HTML ตรง ๆ
  • CSR (pure React/Vue SPA): กระทบมาก — Google ต้องใช้ rendering pipeline ซึ่งใช้ resource มากกว่า HTML 3-10 เท่า

ถ้าคุณใช้ CSR แนะนำให้ migrate ไป SSR/SSG หรืออย่างน้อยทำ dynamic rendering สำหรับ bots อ่านรายละเอียดที่ JavaScript SEO 2026

Q6: Cloudflare ช่วย crawl budget ไหม?

A: ช่วยมาก! Cloudflare:

  • ลด TTFB ได้ 30-70% (depending on origin location)
  • Cache static assets ลด origin requests
  • มี Bot Management ที่ช่วยกรอง fake bots ที่กิน server resources
  • HTTP/3 + Brotli + image optimization ฟรี

อ่านวิธี setup ที่ Cloudflare Complete Guide 2026

Q7: ถ้าผม block Googlebot ทั้งหมดผ่าน robots.txt ชั่วคราว (เช่น 1 วัน) จะกระทบ ranking ไหม?

A: กระทบ! แม้แค่ไม่กี่ชั่วโมงที่ block — Google จะเห็น robots.txt เป็น Disallow: / แล้วหยุด crawl ทันที ranking อาจตกภายใน 2-3 วัน และใช้เวลา 2-4 สัปดาห์ในการฟื้น ถ้าจำเป็นต้องลด load ชั่วคราว ให้ส่ง HTTP 503 (Service Unavailable) แทน Google จะรู้ว่าเป็นปัญหาชั่วคราวและจะกลับมา crawl ใหม่

Q8: เว็บผม index pages เยอะ (50,000) แต่ traffic น้อย เป็นเพราะ crawl budget หรือเปล่า?

A: อาจไม่ใช่ — ปัญหาน่าจะเป็น content quality มากกว่า ถ้า Google index หน้าได้ครบแล้ว แสดงว่า crawl budget เพียงพอ ปัญหา traffic น้อยน่าจะมาจาก:

  • Content คุณภาพต่ำหรือ duplicate
  • ไม่ตอบ search intent ของ keyword ที่ target
  • Title/meta description ไม่ดึงดูด
  • ขาด backlinks
  • Page experience ไม่ดี (Core Web Vitals)

อยาก audit ทั้งหมดเลย? ปรึกษาทีม Southern Whale ผ่าน หน้าบริการ SEO หรือ ติดต่อทีมงาน เราจะวิเคราะห์ crawl budget + content + technical SEO ครบทุกมุม


สรุป: Crawl Budget Optimization คือ Foundation ของ Technical SEO

Crawl budget ไม่ใช่เรื่องที่ทุกเว็บต้องสนใจ — แต่ถ้าเว็บคุณเข้าเกณฑ์เว็บใหญ่ (10K+ pages), อัพเดตบ่อย, มี faceted navigation, หรือใช้ JavaScript framework การ optimize crawl budget จะให้ผลลัพธ์มหาศาลที่ technique อื่นทำไม่ได้

สิ่งที่ต้องจำ:

  1. Crawl Budget = min(Crawl Rate Limit, Crawl Demand) — ต้อง optimize ทั้งสองด้าน
  2. TTFB เป็น multiplier ที่สำคัญที่สุด — ลดได้ ทุกอย่างดีขึ้น
  3. Robots.txt + Sitemap + Canonical เป็น 3 เครื่องมือหลัก — ใช้ให้ถูกต้องและสอดคล้องกัน
  4. GSC Crawl Stats + Log Analysis — ต้องใช้ทั้งคู่ ข้อมูลคนละมุม
  5. อย่าเชื่อ shortcut — Indexing API ก็ดี แต่ไม่ทดแทนการ optimize fundamental
  6. Monitor อย่างต่อเนื่อง — Crawl budget ไม่ใช่ project ที่ทำครั้งเดียวจบ

ปี 2026 เป็นปีที่ Google ใช้ AI signals วิเคราะห์ crawl behavior ละเอียดขึ้นมาก เว็บที่ optimize crawl budget ดีจะได้เปรียบในการแข่งขัน — ทั้งในการ index หน้าใหม่เร็ว, การ refresh content updates, และโอกาสติดอันดับใน featured snippets

ถ้าคุณรู้สึกว่า crawl budget ของเว็บคุณยังไม่ได้รับการดูแลอย่างเหมาะสม หรืออยาก audit แบบเจาะลึกพร้อม action plan ทีม Southern Whale พร้อมช่วย — เรามีประสบการณ์ดูแลเว็บ enterprise scale (100K-1M+ pages) ทั้งในไทยและต่างประเทศ

ขั้นตอนต่อไป:

คีย์เวิร์ดที่เกี่ยวข้อง

crawl budget, crawl budget seo, googlebot crawl, crawl rate limit, crawl demand, log file analysis, robots.txt, crawl stats