前一段時間,我曾經鉆研了一段時間的post數據流,其實很希望可以通過軟件代替手工做一些seo的事情,但是過程也遇到了很多技術難題,比如高級的正則表達式就是其中一個門檻之一,因為我們需要“標記”或“提取”數據特征的時候,必須使用正則匹配的模式的。
而且我們看國內很流行的軟件,火車頭采集器來說,其實我們平時使用的時候可能更多的時候,采用的代碼截取,都是最簡單的前后截取,直接用有規律的div就可以解決了。但是對于高級的采集這個問題就不能發展了,比如你需要去掉某些字符、比如你想替換某些網址等都需要最簡單的正則了;但是還有更難的,比如你需要cookies登錄采集,同時也需要你過一些驗證碼或者需要提取動態的生成的time值等,非正則不可了。