type
Post
status
Published
date
Nov 1, 2023
slug
scripts/python04
summary
一些爬虫脚本和re使用,最基础的东西没太多解释
tags
脚本编程
category
网络安全
icon
password
re使用
几个小爬虫
- 抓取便民查询网的身份证和姓名
通过verify=False忽视证书问题

- 常用电话网的信息爬取
此处是以
[\s\S]*?匹配很多的换行符,.*无法匹配<td>(.*?)</td>括号中的就是我们需要的数据简单的pattern是:
<tr bgcolor="#EFF7F0">\s+<td>(.*?)</td>\s+<td>(.*?)</td>\s+也可以用于匹配空格