Qunar_Selenium自动化爬虫
目标: 自动化爬取北京当天的酒店信息,并存为文本。
1. 自动输入地点和入住时间,点击搜索按钮
2. 获取一页完整数据,用Selenium操作javascript下拉窗口,完成数据加载。
3. 获取渲染后的结果,用BeautifulSoup提取酒店信息并存储
4. 解析完成后,自动点击下一页,继续抽取数据。
演示结果如下
首先找到搜索界面,用Chrome审查元素读取元素的位置,通过Selenium自动填充数据和点击搜索按钮。
1 | ele_toCity = driver.find_element_by_name("toCity") |
第二步使用Selenium执行javascirpt代码,把网页拖到底部,完成页面加载
1 | while True: |
第三步:使用BeautifulSoup解析酒店数据,清洗并存储。
1 | soup = BeautifulSoup(html_const, 'lxml') |
第四步,点击下一页,继续重复上述过程
1 | try: |
详细的过程请查看源码
感谢您的时间 (~.~)