目标

以国内微电影活跃度最高的社区，「新片场」为例，爬取站内所有的高清电影信息保存到 MongoDB数据库，并使用异步函数下载到本地。

准备工作

首先，需要下载并配置好 MongoDB 数据库，并安装「mongoengine」库。

由于下载文件是一个 IO 密集型操作，这里用到了协程搭配异部请求，需要安装「aiohttp」库。

首先我们打开新片场的影视作品首页，发现默认是按热门度排序的。

由于页面元素比较简单，使用「xpath」可以很快的定位到每一条影片的基本数据，包含「影片名称、类型、播放量、点赞量、封面图」等。

通过分析，可以发现影片的播放地址中的变量就是影片的 id，被放置在 li 标签的「data-articleid」属性下。

最后就是要获取到影片的下载地址。

当我们使用 Chrome 插件「Toggle JavaScript」禁用 JS 后，发现影片没法正常播放，说明影片播放页面关键数据是动态加载的。

打开 Network Tab，刷新当前页面。

通过观察，发现页面的部分关键数据是通过下面的一个地址发送的 GET 请求。

另外，请求地址中包含的一个动态字符串「5C4A8377173CE」，隐藏于源码中的JS 模块中。

这里可以通过正则表达式匹配到「vid」后面的字符串，就可以组装成我们需要的地址，通过这个地址就可以获取影片的下载地址。

获取到数据之后，定义好一个 Model，然后就可以插入到数据库中了。

待爬取到的影片数据之后，就可以使用「asyncio + aiohttp」异步函数下载影片数据到本地。

喝一杯咖啡回来，Python 君已经将几千部微电影下载到本地了。

打赏

所有权利归属于原作者，如文章来源标示错误或侵犯了您的权利请联系微信13520258486

更多>最近资讯中心

更多>最新资讯中心

0 条相关评论

• 威联通(NAS)应用篇：自建OwnCloud网盘(百度网盘	• 最新10大Python面试常问的问题，60%的人都不会
• Tkinter的Canvas组件	• asyncio异步编程【含视频教程】
• 手把手教你使用ADB卸载手机内置App软件	• python爬虫实战以及数据可视化