构建一个简单的工具-网络数据抓取
需求
从特定网站抓取数据,存入exel文件! 因为有几万条,并且这些数据定期会更新,人工抓取显然效率太低了,所以有必要编写一些简单的工具自动抓取
目前这些网站数据免费,也不需要注册,处理器起来比较简单,有一些可能还需要验证码稍微复杂一些
但实现的基本思路都是一样的,只要人能做标准化流程的,机器就能自动化实现;人工重复操作的,有必要实现程序自动化
基本思路
- 使用selenium模拟浏览器操作
- OpenCV图形处理,验证码识别与匹配
- selenium控制浏览器,模拟鼠标、键盘操作
- 最后用PyQt6包装个GUI界面,让一般用户也比较好使用
- 最最后一步就是使用pyinstaller,将python脚本打造成可以独立运行的程序
python脚本好处是跨平台,同样的代码在Linux,Windows,Mac上都可以运行,同样用pyinstaller分别打包不同平台的独立可执行程序,分发给普通用户使用,非常便利
实现效果
只是普通的工具,所以也没有所谓漂亮的外表,简单易用就好,开始没想好,界面上多了一些无用的组件,暂时没有禁止;实际使用也就涉及2~3次点击,即可抓取需要的数据
编写类似小工具,稳定性、速度、普通用户使用便捷性是我主要考虑的三大要素
实现过程
为了生产率,就算这样简单的小工具,也不应该重零开始编写;最近ChatGPT非常火,我也一直在使用,所以自然第一次接收到这个需求,我就想到使用#AGI帮助我完成;结果是显而易见的,感觉至少10x生产力提升
- 首先,第一次接触网络数据抓取实际开发,虽然有所了解,但毕竟不是这方面的专家,透过和AGI聊天,我快速熟悉了selenium
- 其次,让ChatGPT使用PyQt帮助我构建了GUI的几乎全部代码,剩下的就是一些简单的微调
- 最后,透过ChatGPT聊天,熟悉了如何处理验证码,目前只处理了slider (滑动)验证码 - 移动拼图
涉及这三部分技术,如果靠传统的搜索,我也能搞定,但明显效率不会如此之高。 第一次给出的GUI代码,基本上就没有修改,直接能用,并且我只是使用很自然的语言,比如:
使用PyQt6构建这样一个GUI应用,包含两个combox,一个里面输入网址,‘xxxx1.com’, 'xxxx2.com'等等,一个combox输入设备类型,比如‘起重机’,‘吊车’ 等等,包含一个程序日志输出窗口,包含一个按钮...
对于selenium模块的使用,一开始并不知道这个东西的存在
selenium自动化操作浏览器
关于网络数据抓取,给ChatGPT的第一个问题是:
>我想编写python脚本,自动抓取某个特定网址的数据
balabal...
ChatGPT就给我输出一大堆相关的背景知识
我接下来是要求给一些代码,这样我可以快速 验证
模拟鼠标点击、选择的问题发出之后,很快selenium就进入了视野
比如我想定位网页上某个元素,比如‘查找按钮’、‘下一页’或者‘跳转’按钮等,这些AGI都能直接给出答案
opencv验证码处理
基本的思路是图形处理,轮廓识别与匹配
这部分可能是最花时间的,有一定的技术门槛,细节以后再深入探讨
PyQt6与pyinstaller
使用ChatGPT构建GUI确实非常方便,不过给出的一些例子代码可能有版本匹配的问题,不过如果出现类似错误,直接将错误作为问题继续对ChatGPT提问,往往很容易得到答案,如果经过几次尝试得不到答案,我一般还是选择人工google一下(这种情况有,不是很多)
小结:
这个工具断断续续利用周末的时间不断完善,也花了好几天,其实第一次使用ChatGPT基本构建了程序的原型,后面的工作主要作了一些优化:
- 增加程序的稳定性,出错的处理和重试机制
- 分块抓取,多线程抓取
另外还有一个坑,最开始使用PyQt5,使用pyinstaller打包始终不成功,大概率是opencv相关的版本冲突导致,果断切换到PyQt6,顺利解决问题
使用ChatGPT解决编写代码的问题,相关的prompt engineering 也是有一定的模式可遵循,多多练习就能让ChatGPT快速、精准提供可用的答案