直接放代码 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 from selenium import webdriver import time driver = webdriver.Chrome(r'C:\chromedriver.exe') urllist = [ 'https://www.bilibili.com/video/BV15f4y1m7xH?from=search&seid=9788956603997309480', 'https://www.bilibili.com/video/BV1WA411h76h?from=search&seid=9738279009337231611', 'https://www.bilibili.com/video/BV13c411h7k7?from=search&seid=9738279009337231611', 'https://www.bilibili.com/video/BV1x541147u8?from=search&seid=9738279009337231611', 'https://www.bilibili.com/video/BV17p4y1C78w?from=search&seid=9738279009337231611' ] #视频链接 timelist=[ 311, 598,
前言 re库的实用实例如下 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 import requests import re import os a = True while a: #创建一个文件夹,保存所有
前言 xpath解析原理: 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。 2.调用et ree对象中的xpath方法
前言 目的:在爬虫中使用异步实现高性能的数据爬取操作。 异步爬虫的方式: –多线程,多进程(不建议): 好处:可以为相关阻塞的操作单独开
原网页链接萌新论坛 requests 伪装 headers 发送请求 headers中空着的可能有也可能无,user-agent基本得有 在chrome中找到网页的请求头,图片如
前言 本篇鸣谢 清华——尹成 的整理收集 PyQuery文档https://www.osgeo.cn/pyquery/index.html PyQue
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 import requests from bs4 import BeautifulSoup a = True while a: headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36' } params = {
动态加载数据ajax 首页中对应企业数据通过ajax请求得到 详情页url只有id不同其余相同 id从json中获取,域名与id拼接新url 详情页
1. 前言 本markdown文档初版下载链接: (建议看初版文档理解书写格式,书写标准以本网站本页面为主) https://pan.baidu.com/s/1z_2IsuaRh8cYmtssepvIXQ 提取码:0a83 本篇鸣谢胡国磊学长整理
技术路线 1.requests-BeautifulSoup 2.scrapy(5+2结构) 3.scrapy + requests-Beautiful-re + PhantomJS —>表单提交、爬取周期、入库存储(js处理) 4.requests-xpath 5.requests-ccs 6.requests库可