Chào các bạn.
Tôi đang crawl 1 website HTML bằng HTTracker. Giờ có 1 file json mà website chặn k crawl nội dung được.
Khi tôi truy cập vào đường dẫn file json thì hiện lỗi
HUH.. WAIT A SECOND!
NOSEY LITTLE MOUSE, AREN'T YOU?
There is nothing interesting here, no point waisting your time.
Tôi muốn hỏi cách để bypass và lấy được file json.
Dù chỉ là search keyword để tự tìm được trên Google tôi cũng rất cảm ơn!
Để cào một trang mà không bị block thì phải xem làm thế nào để cào một trang như con người, nó nhất định không chặn người vì hoạt động truy cập của một user rất là không khuôn mẫu.
Nói chung để chống chặn cào thì mình phải xem người ta chặn cào như thế nào. Chặn cào bằng User Agents, random class, chặn bằng json... vậy vậy.
Từ khóa: How to Crawl a Website Without Getting Blocked