先用 BeautifulSoup,发现对很多不严格按规范写的 HTML 无法解析或解析出错,且性能似乎有点堪忧(那时候好像还是 2 还是 3 ) 然后用 pyquery,类似 jQuery 的选择器,在对不按规范写的 HTML 似乎会好一点 后面发现这几个都会依赖 lxml,然后这个东西在 Windows 下有时候会安装不成功,为了保证代码四处可用,尽可能减少依赖,能用原生 re 就用 re 了
codeli
2020-05-13 20:30:15 +08:00
太消耗资源
llsquaer
2020-05-14 11:40:22 +08:00
前段时间刚好将 xpath 改为 re....发现效率突然提升不少呢...原来不用 re 就是写不好啊..后来熟练点了.发现原来是没理解到 re 所以没用..现在发现普通的就直接 re,速度又快..混合使用提高效率