概述
不知从何时起,Python和爬虫就如初恋一般,情不知所起,一往而深,相信很多朋友学习Python,都是从爬虫开始,其实究其原因,不外两方面:其一Python对爬虫的支持度比较好,类库众多。其二Pyhton的语法简单,入门容易。所以两者形影相随,不离不弃,本文主要以一个简单的小例子,简述Python在爬虫方面的简单应用,仅供学习分享使用,如有不足之处,还请指正。
涉及知识点
本例主要爬取51job发布的工作职位,用到的知识点如下:
爬虫的基本步骤
爬虫的基本步骤,如下图所示:
爬取目标
如有要爬取相关内容,首先要对爬取的目标进行分析,了解其目录结构,才能进行解析。本例主要爬取51job中的工作列表,如下所示:
核心源码
1.获取数据
定义一个函数get_data,用于发起请求并获取数据,如下所示:
headers中的User-Agent主要用于模拟浏览器,不然会被反爬虫程序屏蔽,http状态码为418,意思是被网站的反爬程序返回的。
encoding是要爬取的网站的编码为gbk,如果不加,会产生乱码,默认为utf-8
def get_data(req_url): """获取数据""" headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko', 'Accept-Language': 'zh-Hans-CN, zh-Hans;q=0.5' } resp = requests.get(req_url, headers=headers) resp.encoding = 'gbk' # 不加会产生中文乱码 if resp.status_code == 200: return resp.text else: return None
2.解析数据
定义一个函数parse_data,用于解析获取到的内容,如下所示:
采用BeautifulSoup,将返回的文本,解析成html对象,并获取对应的内容。本例主要获取工作的列表
def parse_data(resp_html): """解析数据,并返回列表""" soup = BeautifulSoup(resp_html, features='html.parser') job_table = soup.find('div', attrs={'class': 'dw_table'}) # print(job_table) job_list = job_table.find_all('div', attrs={'class': 'el'}) # print(job_list) # 循环列表,去掉第一个title和最后一个 res_list = [] for job in job_list[1: -1]: job_name = job.find('p', attrs={'class': "t1"}).find('span').find('a').get_text() job_name = job_name.replace('\r\n', '').strip() job_company = job.find('span', attrs={'class': "t2"}).find('a').get_text() job_addr = job.find('span', attrs={'class': "t3"}).get_text() job_salary = job.find('span', attrs={'class': "t4"}).get_text() job_time = job.find('span', attrs={'class': "t5"}).get_text() # print('工作信息:', job_name, '---', job_company, '---', job_addr, '---', job_salary, '---', job_time) res_item = { '工作名称': job_name, '公司': job_company, '工作地址': job_addr, '薪资水平': job_salary, '发布时间': job_time } res_list.append(res_item) return res_list
3.保存数据
定义一个函数save_data,用于将获取到的内容保存到json文件中,如下所示:
with函数 可以自动进行释放。因包含中文,所以json文件的编码为utf-8,否则会出现乱码
def save_data(res_list): """保存数据""" with open('jobs.json', 'w', encoding='utf-8') as f: res_list_json = json.dumps(res_list, ensure_ascii=False) f.write(res_list_json)
4.整体调用步骤
依次调用定义的三个函数,如下所示:
if __name__ == '__main__': """如果是主程序自己调用""" req_url = 'https://search.51job.com/list/040000,000000,0000,00,9,99,java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=' # 获取数据 resp_html = get_data(req_url) # print(html) # 解析数据 res_list = parse_data(resp_html) # 保存数据 save_data(res_list)
爬取结果展示
爬取的结果保存在jobs.json文件中,如下所示:
[ { "工作名称": "Java架构师", "公司": "深圳市钻木信息技术有限公司", "工作地址": "深圳-福田区", "薪资水平": "1.8-3万/月", "发布时间": "06-13" }, { "工作名称": "Java实习生 6k起", "公司": "深圳市智玩创新科技有限公司", "工作地址": "深圳-福田区", "薪资水平": "6-8千/月", "发布时间": "06-13" }, { "工作名称": "Java实习生6k起", "公司": "深圳市康姆达科技有限公司", "工作地址": "深圳-南山区", "薪资水平": "6-8千/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳市网新新思软件有限公司", "工作地址": "深圳-南山区", "薪资水平": "1.5-1.7万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳市睿服科技有限公司", "工作地址": "深圳-福田区", "薪资水平": "1.3-1.7万/月", "发布时间": "06-13" }, { "工作名称": "Java开发经理", "公司": "深圳市聚惠企业登记代理有限公司", "工作地址": "深圳-龙华新区", "薪资水平": "1-3万/月", "发布时间": "06-13" }, { "工作名称": "高级JAVA", "公司": "深圳易加油信息科技有限公司", "工作地址": "深圳-南山区", "薪资水平": "1.5-2.1万/月", "发布时间": "06-13" }, { "工作名称": "Java高级开发工程师", "公司": "深圳市绿联科技有限公司", "工作地址": "深圳-龙华新区", "薪资水平": "2-3万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳市博悦科创科技有限公司", "工作地址": "深圳-南山区", "薪资水平": "1-1.5万/月", "发布时间": "06-13" }, { "工作名称": "Java高级开发工程师", "公司": "易普森智慧健康科技(深圳)有限公...", "工作地址": "深圳", "薪资水平": "1.5-2.5万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳易世通达科技有限公司", "工作地址": "深圳-南山区", "薪资水平": "1.2-1.8万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "苏州今融加科技有限公司", "工作地址": "深圳-福田区", "薪资水平": "1.5-2万/月", "发布时间": "06-13" }, { "工作名称": "Java后端开发工程师", "公司": "深圳市长隆科技有限公司", "工作地址": "深圳-龙岗区", "薪资水平": "1.5-2万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳市元诺智能系统有限公司", "工作地址": "深圳-龙华新区", "薪资水平": "1-1.5万/月", "发布时间": "06-13" }, { "工作名称": "java 有物流类经验", "公司": "深圳市欧恩德技术有限公司", "工作地址": "深圳-罗湖区", "薪资水平": "0.8-1.1万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师-2020校园招聘", "公司": "金蝶软件(中国)有限公司", "工作地址": "深圳-南山区", "薪资水平": "0.8-1.6万/月", "发布时间": "06-13" }, { "工作名称": "Java高级开发工程师", "公司": "丰疆智能科技股份有限公司", "工作地址": "深圳-南山区", "薪资水平": "2.5-3万/月", "发布时间": "06-13" }, { "工作名称": "JAVA软件开发工程师", "公司": "深圳市吉星时代科技有限公司", "工作地址": "深圳-龙岗区", "薪资水平": "2-3万/月", "发布时间": "06-13" }, { "工作名称": "JAVA 高级软件工程师", "公司": "相通网络技术有限公司", "工作地址": "深圳-福田区", "薪资水平": "1.5-3万/月", "发布时间": "06-13" }, { "工作名称": "JAVA开发工程师(接受应届生)", "公司": "深圳市智岩科技有限公司", "工作地址": "深圳-南山区", "薪资水平": "0.8-1万/月", "发布时间": "06-13" }, { "工作名称": "Java后台开发工程师", "公司": "深圳市炬驰科技发展有限公司", "工作地址": "深圳", "薪资水平": "1-1.5万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳市韶音科技有限公司", "工作地址": "深圳-宝安区", "薪资水平": "0.8-1万/月", "发布时间": "06-13" }, { "工作名称": "JAVA 开发工程师", "公司": "深圳市优博讯科技股份有限公司", "工作地址": "深圳-南山区", "薪资水平": "1-1.5万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳市有豆科技有限公司", "工作地址": "深圳-宝安区", "薪资水平": "1.8-3万/月", "发布时间": "06-13" }, { "工作名称": "Saas平台架构师(Java方向)", "公司": "深圳市智布互联纺织科技有限公司", "工作地址": "深圳-南山区", "薪资水平": "1.7-2.5万/月", "发布时间": "06-13" }, { "工作名称": "Java开发实习生", "公司": "云软科技", "工作地址": "深圳-宝安区", "薪资水平": "6-9千/月", "发布时间": "06-13" }, { "工作名称": "Java高级开发工程师", "公司": "深圳市阿尔法智汇科技有限公司", "工作地址": "深圳-宝安区", "薪资水平": "2-4万/月", "发布时间": "06-13" }, { "工作名称": "Java 全栈开发工程师", "公司": "深圳市杰纳斯科技有限公司", "工作地址": "深圳-宝安区", "薪资水平": "1-3.5万/月", "发布时间": "06-13" }, { "工作名称": "中高级java工程师", "公司": "北京联创智融信息技术有限公司", "工作地址": "深圳-福田区", "薪资水平": "1.3-1.8万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "得实信息科技(深圳)有限公司", "工作地址": "深圳-南山区", "薪资水平": "0.6-1万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳市联创科技集团有限公司", "工作地址": "深圳-龙岗区", "薪资水平": "1-1.5万/月", "发布时间": "06-13" }, { "工作名称": "中级JAVA(J13824)", "公司": "银雁科技服务集团股份有限公司", "工作地址": "深圳-福田区", "薪资水平": "1-1.5万/月", "发布时间": "06-13" }, { "工作名称": "java工程师", "公司": "深圳市安思疆科技有限公司", "工作地址": "深圳-南山区", "薪资水平": "0.8-1.6万/月", "发布时间": "06-13" }, { "工作名称": "JAVA 高级开发工程师", "公司": "汇才保险代理(深圳)有限公司", "工作地址": "深圳-罗湖区", "薪资水平": "1.5-2万/月", "发布时间": "06-13" }, { "工作名称": "Java高级开发工程师(直连)", "公司": "深圳市天泰国际航空旅行社有限公司...", "工作地址": "深圳", "薪资水平": "2-4万/月", "发布时间": "06-13" }, { "工作名称": "JAVA工程师", "公司": "深圳市开度贸易有限公司", "工作地址": "深圳-南山区", "薪资水平": "0.8-1.2万/月", "发布时间": "06-13" }, { "工作名称": "后台开发Leader(JAVA方向)", "公司": "深圳金世纪保险经纪有限公司", "工作地址": "深圳-福田区", "薪资水平": "3-4万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳市中深力人力资源管理有限公司...", "工作地址": "深圳-南山区", "薪资水平": "1-1.5万/月", "发布时间": "06-13" }, { "工作名称": "Java高级开发工程师", "公司": "研祥高科技控股集团有限公司", "工作地址": "深圳-光明新区", "薪资水平": "0.9-1.8万/月", "发布时间": "06-13" }, { "工作名称": "Java(证券不加班)", "公司": "上海华腾软件系统有限公司", "工作地址": "深圳-福田区", "薪资水平": "1.8-2.2万/月", "发布时间": "06-13" }, { "工作名称": "Java高级开发工程师", "公司": "深圳大美商业地产管理有限公司", "工作地址": "深圳-福田区", "薪资水平": "1.5-2万/月", "发布时间": "06-13" }, { "工作名称": "资深/高级Java工程师", "公司": "未来穿戴(深圳)有限公司", "工作地址": "深圳-南山区", "薪资水平": "3-4万/月", "发布时间": "06-13" }, { "工作名称": "Java高级开发工程师", "公司": "深圳市太阳星通信科技有限公司", "工作地址": "深圳-南山区", "薪资水平": "0.8-1.5万/月", "发布时间": "06-13" }, { "工作名称": "Java高级开发工程师", "公司": "深圳市蓝鹰立德软件咨询有限公司", "工作地址": "深圳-南山区", "薪资水平": "1.5-1.8万/月", "发布时间": "06-13" }, { "工作名称": "JAVA(高级、架构)", "公司": "深圳市几米物联有限公司", "工作地址": "深圳-宝安区", "薪资水平": "2.2-3.2万/月", "发布时间": "06-13" }, { "工作名称": "JAVA开发工程师", "公司": "江苏康尚生物医疗科技有限公司", "工作地址": "深圳-宝安区", "薪资水平": "1-1.5万/月", "发布时间": "06-13" }, { "工作名称": "java架构师", "公司": "深圳市泓齐网络科技有限公司", "工作地址": "深圳", "薪资水平": "1.5-1.8万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "深圳市智璟科技有限公司", "工作地址": "深圳-福田区", "薪资水平": "0.9-1.5万/月", "发布时间": "06-13" }, { "工作名称": "Java开发工程师", "公司": "上海舟恩信息技术有限公司", "工作地址": "深圳-南山区", "薪资水平": "1.4-1.9万/月", "发布时间": "06-13" } ]
进一步思考
本例可以进一步优化的空间,如下所示:
以上就是Python爬虫小例子——爬取51job发布的工作职位的详细内容,更多关于Python爬虫爬取工作职位的资料请关注小牛知识库其它相关文章!
本文向大家介绍Python爬虫爬取、解析数据操作示例,包括了Python爬虫爬取、解析数据操作示例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了Python爬虫爬取、解析数据操作。分享给大家供大家参考,具体如下: 爬虫 当当网 http://search.dangdang.com/?key=python&act=input&page_index=1 获取书籍相关信息 面向对象思想 利用不
本文向大家介绍node.js爬虫爬取拉勾网职位信息,包括了node.js爬虫爬取拉勾网职位信息的使用技巧和注意事项,需要的朋友参考一下 简介 用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京、上海、广州、深圳、杭州、西安、成都7个城市的数据,分别以前端、PHP、java、c++、python、Android、ios作为关键词进行爬取,爬到的数据以json格式储存到本地
本文向大家介绍python爬虫的工作原理,包括了python爬虫的工作原理的使用技巧和注意事项,需要的朋友参考一下 1.爬虫的工作原理 网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址
本文向大家介绍python爬取51job中hr的邮箱,包括了python爬取51job中hr的邮箱的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下 city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注呐喊教程更多精彩内容。
本文向大家介绍Python爬虫爬取新闻资讯案例详解,包括了Python爬虫爬取新闻资讯案例详解的使用技巧和注意事项,需要的朋友参考一下 前言 本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 一个简单的Python资讯采集案例,列表页到详情页,到数据保存,保存为txt文档,网站网页结构算是比较规整,简单清晰明了,资讯新闻内容的采
本文向大家介绍nodejs制作小爬虫功能示例,包括了nodejs制作小爬虫功能示例的使用技巧和注意事项,需要的朋友参考一下 本文实例讲述了nodejs制作小爬虫功能。分享给大家供大家参考,具体如下: 1 安装nodejs 2 安装需要模块 3 新建js文件 4 引入 5 利用request模块发送请求 一个小爬虫案例就完了 附上完整代码 下面的带数据库 希望本文所述对大家node.js程序设计有所
本文向大家介绍python爬虫爬取图片的简单代码,包括了python爬虫爬取图片的简单代码的使用技巧和注意事项,需要的朋友参考一下 Python是很好的爬虫工具不用再说了,它可以满足我们爬取网络内容的需求,那最简单的爬取网络上的图片,可以通过很简单的方法实现。只需导入正则表达式模块,并利用spider原理通过使用定义函数的方法可以轻松的实现爬取图片的需求。 1、spider原理 spider就是定
本文向大家介绍python爬虫爬取淘宝商品信息,包括了python爬虫爬取淘宝商品信息的使用技巧和注意事项,需要的朋友参考一下 本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下 效果图: 更多内容请参考专题《python爬取功能汇总》进行学习。 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持呐喊教程。