前言
学习爬虫你完全可以理解为找辣条君借钱(借100万),首先如果想找辣条借钱那首先需要知道我的居住地址,然后想办法去到辣条的所在的(可以走路可以坐车),然后辣条身上的东西比较多,有100万,打火机,烟,手机衣服,需要从这些东西里面筛选出你需要的东西,拿到你想要的东西之后我们就可以去存钱,我们通过一个图片来理解爬虫的运行流程:
爬虫的流程至关重要,要是能把这个流程搞定那么爬虫的过程在你的脑海里就有基本的认知,可以说你的爬虫就已经学会20%了
一、获取数据地址信息
认识网址
首先我们先来认识所谓的网址,网址的高端叫法叫做‘统一资源定位符’,在互联网里面如果获取到数据都是通过网址来定位到的(就跟你找辣条借钱首先需要知道辣条目前所在的地址)那么每天都在用的网址到底是有什么特殊的含义呢?
网址有包含:协议部分、域名部分、文件名部分、参数部分
1、协议比较常见的就是http以及hettps
2、域名部分也就是我们说的服务器地址
3、文件名部分就是我们所需要的数据所在的地方
4、参数部分根据我们所查询的条件筛选数据
总而言之我们知道需要获取到互联网数据需要拿到网址
数据的区分
回过头思考一下找辣条借钱的案列,如果你想找到辣条是需要通过我的地址,那么我给的地址可能是我的工作地址,那要是我回家我的地址就更换了,那么我们所说的网址也是的,我们能在搜索页面看到的网址是静态网址,那我们有些网址的数据是在不断更新的(类似新闻网站),那这种不断加载的数据就叫做动态数据,那我要如何区分我们的数据是静态数据还是动态数据呢?
1、我们可以直接观察页面,静态数据加载的会更快一些,动态数据加载相对慢一些
2、我们可以在浏览器页面鼠标右击点击查看网页源代码,搜索你需要的数据如果有就是静态数据,如果没有就是动态数据
抓包
那我们的动态数据要如何获取呢?可以通过抓包的方式获取,何为抓包;众所周知我们在互联网里所获取的数据都是通过网络,那我们能不能把这些网络传递的数据从中进行拦截,举个例子我们现在外出上班都需要租房,按照正常的想法是租客找房东获取到房源信息,这个是理想状态,但是我们现在想租房好的房源信息都是在中介的手里,就会出现我想租房需要先找到中介,然后中介找房东获取优质房源,房东返回房源信息给中介,中介在给我,那么抓包也是这个意思,我可以从中拦截所有的数据信息
那这个抓包我们应该要怎么使用呢,每个浏览器都会自带抓包工具,在浏览器页面鼠标右击点击检查(这里推荐大家使用谷歌的浏览器,方便快捷更专业)
元素:网页加载之后的代码信息
控制台:可以用来调试网页代码
源代码:网页开发的源代码信息
网络:通过网络加载的全部数据
这4个是我们重点需要学习的内容,那我们想要的动态数据就在网络的XHR选项里,可以通过这种方式获取到我们想要的网络数据
二、发送网络请求
当我们获取到目标地址之后正常的第一想法是,在浏览器的搜索框复制看看这个网址是得到什么数据,那我们想通过爬虫取实现的话就需要通过代码,那怎么去实现呢,我们可以使用Python的第三方工具去进行,常见的第三方库urllib,requests,scrapy,…,在刚刚学习时requests就已经能够满足我们日常的需求,发送请求我们需求注意我们作为一个爬虫请求别人的网址是不受欢迎的,就好比你找辣条借钱,但是我跟你素不相识我是没有理由借给你的,同理爬虫在请求网址时有些网站也是不想给我们数据的,那我们怎么办呢? 你可以把自己进行伪装,伪装成辣条的亲朋好友我才可能借钱给你,我们爬虫的核心就在于伪装成浏览器发送网络请求
伪装成客户端(浏览器,APP)
那我们怎样伪装呢?我们在抓包的时候在标头里会有请求标头会看到入下的数据,那我们来重点认识一些关键的信息:
Accept:浏览器接受的数据
Accept-Encoding:接受的格式
Accept-Language:接受的语言
Connection:链接的类型
Cookie:实现状态保存,可以怎么去理解他呢,可以用来记录你的用户信息,就好比你之前找我借钱,我会给你写个借条,下次你过来借钱拿着这个借条我就知道是你
Host:链接的主机
Referer:来源、防盗链接, 类似想我们现在的行程码你是从来个地方来的
User-Agent:用户代理,浏览器的身份标识,可以理解为你的身份证
那么这些东西都是我们在发送请求需要带上证明自己身份的东西
请求头的东西并不是一成不变的有时候会有一些特殊的字段,那我们需要加什么请求头也是根据你的网址来的,那我们看到的请求字段可能是加密的如下图,那么我们要是遇见这种加密的我们又该如何进行参数的传递呢?就需要进行js逆向(js逆向就不在这里开展讲解)
请求方式是用来区分网址的请求规律,常见的有get和post,get一般是获取网页的数据,post需要提交数据给服务器(比方说你登录的时候需要把账户和密码进行传递)
提取数据
通过爬虫获取的数据分为结构化数据和非结构化数据
结构化数据:json、xml
非结构数据:html
针对我们获取的数据的不同提取数据的方式也不一样,要是我们获取的是json数据我们可以直接将其转换成字典类型进行获取数据,要是我们获取的是html的数据我们可以通过xpath、bs4、pyquery、正则等方式进行提取,这里我们重点学习xpath
XPath 术语
节点(Node)
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。
请看下面这个 XML 文档:
上面的XML文档中的节点例子:
基本值是无父或无子的节点。
基本值的例子:
项目是基本值或者节点。
每个元素以及属性都有一个父。
在下面的例子中,book 元素是 title、author、year 以及 price 元素的父:
元素节点可有零个、一个或多个子。
在下面的例子中,title、author、year 以及 price 元素都是 book 元素的子:
拥有相同的父的节点
在下面的例子中,title、author、year 以及 price 元素都是同胞:
某节点的父、父的父,等等。
在下面的例子中,title 元素的先辈是 book 元素和 bookstore 元素:
某个节点的子,子的子,等等。
在下面的例子中,bookstore 的后代是 book、title、author、year 以及 price 元素:
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
。。。。。
数据的保存一般根据企业的要求,基本都是保存在数据库的,数据库主要掌握mysql、mongdb
学习更多爬虫 点赞|+评论学习
「艾尔登法环」梅琳娜手办开订 立体手办▪
万代「艾尔登法环」白狼战鬼手办开订 立体手办▪
「夏目友人帐」猫咪老师粘土人开订 立体手办▪
「五等分的新娘∬」中野三玖·白无垢版手办开订 立体手办▪
「海贼王」乌索普Q版手办开订 立体手办▪
良笑社「初音未来」新手办开订 立体手办▪
「黑岩射手DAWN FALL」死亡主宰手办开订 立体手办▪
「盾之勇者成名录」菲洛手办登场 立体手办▪
「魔法少女小圆」美树沙耶香手办开订 立体手办▪
「咒术回战」七海建人粘土人登场 立体手办▪
「五等分的新娘」中野二乃白无垢手办开订 立体手办▪
「为美好的世界献上祝福!」芸芸粘土人开订 立体手办▪
「公主连结 与你重逢」六星可可萝手办开订 立体手办▪
「女神异闻录5」Joker雨宫莲手办开订 立体手办▪
「间谍过家家」约尔・福杰粘土人登场 立体手办▪
「街角魔族 2丁目」吉田优子手办开订 立体手办▪
「火影忍者 疾风传」旗木卡卡西·暗部版粘土人登场 立体手办▪
「佐佐木与宫野」宫野由美粘土人开订 立体手办▪
「盾之勇者成名录」第2季拉芙塔莉雅手办开订 立体手办▪
「咒术回战」两面宿傩Q版坐姿手办开订 立体手办▪
「DATE·A·BULLET」时崎狂三手办开订 立体手办▪
「狂赌之渊××」早乙女芽亚里粘土人开订 立体手办▪
「魔道祖师」魏无羨粘土人开订 立体手办▪
「新·奥特曼」奥特曼手办现已开订 立体手办▪