爬 Meta 平台的反爬整理 — 帳號要養,JSON 比 DOM 穩
Meta 的反爬機制是社群公認最麻煩的,整理幾個踩過雷後的心得:
帳號管理:要有真實活動軌跡,定期發文按讚,不要用全新帳號直接爬,20 分鐘就 bye。爬蟲帳號要養,休息時間要模擬人類節奏,機械化滾動捲沒 30 分鐘就被暫時禁登入。
網路設定:不要掛 Proxy、不要買 SOCKS5,反而是普通的 IP 最不容易被抓。同一帳號出現在不同地區會直接觸發 ban。
資料擷取:parse response 的 JSON 比解析 DOM 穩定很多,meta 常改 CSS/JS,但 JSON 結構相對穩定(大約一個月需要調整一次)。
每個帳號每次只爬少量目標,捲三次拿到 12 篇就閃人,分散風險。
[Links]