- 查找如上h1标签下面的两个同级tab标签
1 | div_h1 = et.xpath(u'//div/h1[contains(text(), "社保信息")]/following-sibling::table') |
- 补全清理标签
有时候会遇到xpath获取不到的情况,这种情况很可能是html标签不规范等因素引起的,此时可以使用bs4的一个方法来清理标签,然后在xpath解析
1 | import sys |
啦啦啦,搭这个博客快累死了~
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true