Log server giúp nhìn thấy bot thực sự crawl gì, không chỉ những gì crawler giả lập nhìn thấy.
Câu hỏi nên trả lời
- Googlebot đang dành nhiều request cho nhóm URL nào?
- Có crawl nhiều URL parameter, filter, search page, sort page hoặc trang 404 không?
- Trang quan trọng được crawl bao lâu một lần?
- Sau deploy, Googlebot có gặp 5xx/timeout tăng không?
Dữ liệu cần tách
- User-agent Googlebot/Bingbot và IP xác thực nếu cần.
- Status code, path, query string, response time, bytes, referrer nếu có.
- Nhóm URL theo pattern thay vì nhìn từng dòng.
Hướng xử lý
Nếu crawl waste cao, hãy xem lại internal link, sitemap, canonical, robots, parameter handling và cách platform sinh URL. Log không tự đưa câu trả lời, nhưng giúp loại bỏ nhiều giả thuyết sai.