您的当前位置：首页正文

Python3编程实现网络图片爬虫

2020-01-01 来源：步旅网

软件研发与应用ｊ　…　Ｓ０ｌ１『ＷＡＲＥＤＥＶＥＬＯＰＭＥＮＴ＆ＡＰＰＬＩＣＡＴＩＯＮ　一　…　……　……　Ｐｙｔｈｏｎ３编程实现网络图片爬虫　涂辉。王锋，商庆伟　（徐州　业职业技术学院现代教育技小＝　Ｉ　心，汀苏徐州２２１　１４０）　摘　要：在大数据时代，网络数据的获取需要通过计算机自动实现，网络爬虫可实现对网页上的图片的抓　取　Ｐｙｔｈ（ｍ语言的易读、易学、可移植等优点使其成为人＿Ｙ－智能大潮下最炙手可热的语言之一　通过　Ｐｙｔｈｏｎ３实现网络爬虫，并将获取到的图片自动存储到本地，为后续的机器学习、人工智能奠定了数据基础　关键词：Ｉ）、，ｔｈｏｎ３语言；网络爬虫；图片抓取　ｌ概述　近年米，随肴信息技术的进步．　联网发展突琶猛　进，中国已有接近７亿万联　用户．互联网也　深入刽　各地区各行业，爆炸式的数据增长使传统的依靠信息管　理人员人Ｔ扶取数据变得不　能　网络爬虫Ｉ—ｌ是一种按　照特定的规则，对网络信息『ｊ动抓取的程序或者脚小，　也被称为网络机器人或网负蜘蛛。网络爬虫通过模仿浏　览器对网页的ＵＲＬ地址访问的方式进行，用户小需要　人¨１ｌ　操纵即可Ｆ１动地获取所需要的数据Ｉ：ＩＩ　ｌ　Ｐｙｔｈｏｎ语言自１９９１年诞生，现　发展到３．６．３版　本，因其功能强大、开源、语法简洁清晰，几乎存口　所有的操作系统上都能够运行　Ｉ，具有十富币Ｉｌ强大的库　被逐渐Ｊ　泛应』｝Ｊ于系统管婵任务的处婵和Ｗｅｈ编程Ｉｆ】．　２０１７年７月２０　Ｈ　ＩＥＥＥ发布２０１７年编　语言排行榜　．　Ｐｙｔｈｏｎ高居甬　位，超过ｃ语言与Ｊａｖａ　使用最新版本Ｐｙｔｈｏｎ编写爬虫模拟浏览器访问［ｊ　标页面获取目标陶片数据，并将这些【炱１片保存到本地丈　件夹，为进一步的图像数据挖掘与数据分析提供壤础　使刚爬虫程序能够让数据分析人员将更多的精力放　数　据分析上面，而不是　程序开发的细节Ｉ。肖耗大　时　『ＨＪ，同时爬虫还能够对海量数据起到过滤作用　、　２　Ｐｙｔｈｏｎ爬虫的设计　爬虫是抓取糗事百科ｊ－的ＪＰＧ及ＧＩＦ格式趣　，方　便离线观看。爬虫用的是Ｐｙｔｈｏｎ３．Ｘ版水肝发，主要Ｊ｝ｊ　到＿ｒ　ｕｒｌｌｉｂ的ｒｅｑｕｅｓｔ和　【，ｓ模块，模块是一个包禽变　皱、函数或类的定义的程序文件，　足Ｐｙｔｈｏｎ大　的　第一－９７库支持使得Ｐｙｔｈｍ　开发简单易学，使川模块　只需要通过ｉｍｐｏｒｔ导人模块即可。　ｕｒｌｌｉｂ模块提供了从万维网中扶取数据的高层接Ｉ１１６１．　用ｕｒｌｏｐｅｎ（）打开一个ＵＲＩ　时．就相　ｊ于用Ｐｖｔｈ（　ｎ内　缱的ｏｐｅｎ（）打丌一个文什。　１不同的足，前者接收一　个ｕ…　作为参数，并且没／ｆ　办法ｘ，ｊ￣ｊ　圩的文件流进仃　ｓｅｅｋ操作，而　接收的是一个本地义件　抓取到网贝　有包括动㈣、图片、义卡、Ｉｊ等各种格式　元素　这些义什｝Ｊ支爬虫抓取下来后．需要将其中的¨标　信息提取…来　Ｊ　则表达式足一种在义小【１１寻找特定　符ｆ　方法，能够准确地提取文档的特定价息。ｒｅ模块　（ｒｅｇｕｌａｒ　ｅｘｐｒｅｓｓｉｏｎ）是Ｐｙｔｈｏｎ巾支持ｌ　则表达式的库　ＰａｔｌｅｎＩ实例足ｒｅ处理文本　获得　配结果的必须步骤，　Ｒｅ厍必须先将Ｊ１ｊ户给定的』　则表达式：　符串编译为　Ｐａｔｔｍ，ｎ实例，Ｐａｔｔｅｒｎ实例也被称为Ｍａｔｃｈ　例，它是程　序扶得信息　作其他操作的旗础　ＯＳ模块足一个Ｐｙｔｈｏｎ的系统编　的操作模块，提　供ｒｔ－富的适川下Ｍａｃ・、ＮＴ、或Ｐｃ）ｓｉｘ的操作系统函　数，这个模块允许程序独　地　操作系统环境、义件系　统、川户数据库以及权限进　交互　２．１　爬虫准备　样导入所需的ｕｒｌｌｉｂ、ｒｅ、ｏｓ库　ｉｍｐｏｒｔ　ｕｒｌｌｉｂ．ｒｅｑｕｅｓｔ，ｒｅ　ＯＳ　＃定义抓取到的文件保存路径　Ｍｙ＿ｔａｒｇｅｔＰａｔｈ＝”Ｆ：＼ｋｐｙｔｈｏｎ３．５学习ｋｋ０１一ｓｐｉｄｅｒ＼＼ｑｉｕｂａｉ“　＃目标网址　Ｍｙ＿ｕｒｌ＝　ｈｔｔｐ：／／ｗｗｗ．ｑｉｕｓｈｉｂａｉｋｅ．ｃｏｍｆ　２．２伪装成浏览器　对于一　网站，｛ｃ¨果　足从浏览器发　的请求，则　得　剑响应　所以，需要将爬虫程序发　的请求伪装成　浏览｝朴｝　Ｕｓｅｒ　Ａｇｅｎｔ是Ｈｔｔｐ　议中的一部分，中文牟ｊ叫　作者简介：涂辉（１９８７一），　，硕士，研究方向：数　据挖掘。　收稿日期：２０１７－０９一ｌ３　奠＿翟２技０圬１７与．２娃３　２１　………………一……………　…………………………　实用第一　智慧密集　。　，　…　用户代理，属于头域的一部分。在访问网站时通过用户　ｆｏｒ　Ｉｔ　ｉｎ　ｓ：　ｒｅ代理向服务器提供月ｊ户使片】的操作系统及版本、浏览器　版本及类型、浏览器的内核等信息标识。通过改写ｕｓ　ｅＦ—Ａｇｅｎｔ将Ｐｙｔｈｏｎ爬虫伪装成浏览器。　Ｍｙｈｅａｄｅｒｓ＝｛　＿ｍ１＝ｒｅ．ｓｅａｒｃｈ（ｒ　ｓｒｃ：”（．　＿，．ｔ）　Ｍｙｉｔｕｒｌ＝ｒｅ＿ｍ１．ｇｒｏｕｐ（１）　ｐｒｉｎｔ（Ｍｙ＿ｉｔｕｒ１）　ｔｒ、，：　ｕｒｌｌｉｂ．ｒｅｑｕｅｓｔ　ｕｒｌｒｅｔｒｉｅｖｅ（Ｍｙ—ｉｔｕｒｌ，ｓａｖｅＦｉｌｅ（Ｍｙ＿ｉｔｕｒ１）｝　ｅｘｃｅｐｔ：　Ｕｓｅｒ—Ａｇｅｎｔ　：　Ｍｏｚｉｌｌａ／５．０《Ｗｉｎｄｏｗｓ　ＮＴ　１　Ｏ．Ｏ：Ｔｒｉｄｅｎ￣．Ｏ：ｒｖ：１　１．Ｏ：ＪｕｚｉＢｒｏｗｓｅｒ）ｌｉｋｅ　Ｇｅｃｋｏ　Ｃｈｒｏｍｅ／５１．０．２７ｏ４．６３　Ｓａｆａｒｉ／５３７．３６　ｐｒｉｎｔ（　失败　）　２．５多页面抓取　）　２．３存储图片函数　分析目标页面发现，多个连续的页面只是ｕｒｌ的某　通过之前导入的ＯＳ模块操作　片的存储路径，文　个值不同．通过设置抓取网页的起始页与终止页的页码　范围与ｕ　相同部分进行拼接，模拟浏览器的分页操作，　实现对相应的多个页码的所有数据的抓取。　＃ｍａｉｎ　．中主要用到ＯＳ．ｐａｔｈ．ｉｓｄｉｒ来判断指定对象目录是否存在，　如果不是指定文件日录使用ＯＳ．ｍｋｄｉｒ来创建目录，最后　使用ＯＳ．ｐａｔｈ．ｊｏｉｎ将目录与图片的存储名称连接。　ｄｅｆ　ｓａｖｅＦｉｌｅ（ｐａｔｈ）：　ｉｆ＿ｈａｍｅ＿；＝　．．　１．　＃对保存路径有效性的识别　．ｆ　ｎｏｔ　ｏｓ．ｐａｔｈ。ｉｓｄｉｒ（Ｍｙ＿ｔａｒｇｅｔＰａｔｈ）：　ＯＳ．ｍｋｄｉｒ（ＭＶｊａｒｇｅｔＰａｔｈ）　＃来判断本ｐｙ程序是直接运行还是被引用　ｓｔａ＿ｐａｇｅ＝１＃网站的起始页　ｅｎｄ＿ｐａｇｅ＝５００＃网站的终止页　ｗ　ｉｌｅ　ｓｔａｏａｇｅ＜ｅｎｄ＿ｐａｇｅ：　＿｝｝设置抓取到的图片的存储路径　Ｍｙｐｏｓ＝ｐａｔｈ．ｒｉｎｄｅｘ（／　）　＿ｎｔ（　现在爬取的是第　＋ｓｔｒ（ｓｔａ＿ｐａｇｅ）－Ｉ－“页。）　Ｍｙ　ｕｒｌ＝ｕｒｌ＋ｓｔｒ（ｓｔａ＿ｐａｇｅ）＋　．ｈｔ『　＿ｔ＝ＯＳ．ｐａｔｈ．ｊｏｉｎ（Ｍｙ＿ｔａｒｇｅｔＰａｔｈ，ｐａｔｈ［Ｍｙ＿ｐｏｓ＋ｌ：１）　ｒｅｔｕｒｎ　ｔ　ｓｐｉｄｅｒｑｉｕｂａｉ（Ｍｙ＿ｕｒ１）　＿ｓｔａｐａｇｅ尊＝，　＿２．４爬虫主体函数　３结语　通过Ｐｙｔｈｏｎ３编程实现了网络爬虫对指定网页的　ｊＰｇ和ｇｉｆ格式图片的抓取，通过实验对９１４个页面的　首先通过ｕｒｌｌｉｂ的ｒｅｑｕｅｓｔ和ｕｒｌｏｐｅｎ方法模拟浏览　器访问目标页面获取网页数据．然后对数据进行适当的　编码操作，其次通过空白符切割网页数据。使用正则表　７３１２张图片共计３．４１Ｇ进行抓取，在２Ｏ分钟之内完成　达式获取ｊｐｇ和ｇｉｆ格式的文件，最后将获取的图片文　件存储到本地指定的文件夹。　ｄｅｆ　ｓｐｉｄｅｒｑｉｕｂａｉ（ｕｒ１）：　＿所有图片保存到本地。实验表明本程序能有效实现相应　爬虫功能。而且这种爬虫编程简洁明了，对于初学者有　Ｍｙｒｅｑ＝ｕｒＩｔｉｂ，ｒｅｑｕｅｓｔ。Ｒｅｑｕｅｓｔ（ｕｒｌ罩Ｍｙ＝ｕｒ１　＿很好的指导作用。对于专注数据分析的研究者能够节省　编码时间，将更多精力投入数据挖掘中。　参考文献　ｈｅａｄｅｒｓ＝Ｍｙｈｅａｄｅｒｓ）　＿Ｍｙｒｅｓ＝ｕｒｌＩｉｂ　ｒｅｑｕｅｓｔ　ｕｒｌｏｐｅｎ（Ｍｙ＿ｒｅｑ）　＿Ｍｙｄａｔａ＝Ｍｙｒｅｓ．ｒｅａｄＯ　＿＿【１】刘金红，陆余良．主题网络爬虫研究综述『Ｊ］．计　算机应用研究，２００７，（１０）：２６—２９＋４７．　【２Ｊ李琳．基于Ｐｙｔｈｏｎ的网络爬虫系统的设计与实现　ｄａｔａ＝Ｍｙｄａｔａ．ｄｅｃｏｄｅ（　ＧＢＫ３　＃本网页不适合ｕｔｆ一８编码，只能用ＧＢＫ编码　样对母网页内容处理，　ｋ＝ｒｅ．ｓｐｌｉｔ（ｒ、ｓ＋　．ｄａｔａ）　『Ｊ１．信息通信，２０１７，（０９）：２６—２７．　【３】周德懋，李舟军．高性能网络爬虫：研究综述【Ｊ］．　计算机科学，２００９，３６（０８）：２６—２９＋５３．　［４】陈琳，任芳．基于Ｐｙｔｈｏｎ的新浪微博数据爬虫程序　设计【Ｊ】．信息系统工程，２０１６，（０９）：９７—９９．　Ｓ＝【】　ｓｉ＝【】　ｆｏｒ　ｉ　ｉｎ　ｋ：　．ｆ《ｒｅ．ｍａｔｃｈ（ｒ　．　？ｊＰｇ　，ｉ）ｏｒ　ｒｅ．ｍａｔｃｈ（ｒ＊？ｇｉｆ　ｉ））＝　Ｓ　ａｐｐｅｎｄ（ｉ）　【６］王弘博，孙传庆．Ｐｙｔｈｏｎ３程序开发指南．２版．北　京：人民邮电出版社　２０１　１．　样获取这些图片链接的内容，并保存成本地图片　、、　与曩　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文