← 返回首页
使用准备
- 下载影刀 RPA 应用:https://www.yingdao.com/product/
- 下载并安装好 Chrome 浏览器的影刀插件:https://www.yingdao.com/yddoc/rpa/zh-CN/710821364073103360
使用说明
- 打开影刀 RPA;
- 点击新建 PC 自动化应用;
- 参考后附流程一步步设置好;
- 登录裁判文书网,设置好检索条件后,不要再点击其他网页,直接回到影刀界面上点击"运行",等待桌面上生成文件即可。
请注意
- 由于裁判文书网有反爬虫措施,短时间内快速且匀速爬取容易导致 IP 地址被封,因此本流程里在第 6 步设置了"等待",否则爬取速度太快,很容易被封 IP。即便如此,按这个速度一下子爬取太多也容易被封,因此建议每爬取 30-40 个案例暂停一会儿,然后重新/继续运行。
- 重新/继续运行时请注意,清空影刀 RPA 自带的数据表格标签中的数据,网页选到你想继续开始爬取的那一页上。
- 如果被封 IP 也不用着急,目前看来不会永久,一般只封 1 天,等第 2 天可以继续用。
流程截图
图1:工作流总图
图2:第 1 步设置
图3:第 2 步设置
图4:第 3 步设置
图5:第 4 步设置
图6:第 5 步设置
图7:第 6 步设置
图8:第 7 步设置
图9:第 8 步设置
图10:第 9 步设置
图11:第 10 步设置
图12:第 11 步设置
图13:第 12 步设置
图14:第 13 步设置
图15:第 14 步设置
图16:第 15 步设置
图17:第 16 步设置
图18:第 17 步设置
图19:第 18 步设置
图20:第 19 步设置