urlretrieve下载函数

from urllib import request request.urlretrieve(‘https://pic4.zhimg.com/80/v2-0abff609470f23e79b3b3d1f02b42b2f_hd.jpg’,’zhihu.jpg’) 这个函数可以方便的将网页上的一个文件保存到本地

遍历一个文件夹下所有的文件夹及文件的名称

import os path = ‘../pachong’ def get_file(path): # abspath获取目标文件夹的绝对路径 path = os.path.abspath(path) # listdir获取指定文件夹中的所有文件和文件夹组成的列表 files = os.listdir(path) for file in files: # join将2个路径合成一个路径 abs_path = os.path.join(path, file) if os.path.isfile(abs_path): print( abs_path ) else: get_file(abs_path) get_file(path)  

python+tqdm 实现图片音视频下载进度条显示

from tqdm import tqdm import time,requests def downloadFILE(url,name): res = requests.get(url=url,stream=True) #stream=True的作用是仅让响应头被下载,连接保持打开状态, content_size = int(res.headers[‘Content-Length’])/1024 with open(name, “wb”) as f: print(“文件包整个大小是:”,’%.2f’ %(content_size/1024),’mb’,’开始下载…’) for data in tqdm(iterable=res.iter_content(1024),total=content_size,unit=’k’,desc=name,ascii=True): #调用iter_c…

Read More

腾讯云,阿里云安装python环境

前段时间买了个腾讯云的学生套餐ECS服务器,价格120一年,很划算,但是一直也没有拿来使用,刚好最近在学习python,就打算利用起来做爬虫的服务器。 ECS服务器我安装的是centos7.4的系统 然后安装anaconda包。这个包自带了python环境和很多相关的组件包,使用起来特方便 (这个安装包可以直接在云服务器管理后台的的命令行里安装也可以putty) wget https://repo.anaconda.com/archive/Anaconda3-2019.07-Linux-x86_64.sh bash Anaconda3-2019.07-Linux-x86_64.sh 使用putty登录远程服务器 安装成功之后,在putty里 输入命令 python 可以看到python版本信息,代表python安装成功了 然后flashfxp 软件上传本地的python文件到根目录下 然后…

Read More

Python+scrapy实现自动爬取数据

在命令行输入scrapy命令新建项目   scrapy startproject mrle (mrle改成你需要的项目名字)     在spiders目录下新建一个deal.py 的文件来处理整个爬取内容的数据 import scrapy import bs4 import csv from ..items import mrleItem # 需要引用mrleItem,它在items里面。因为是items在deal.py的上一级目录,所以要用..items,这是一个固定用法。 class mrleSpider(scrapy.Spider): #定义一个爬虫类mrleSpider。 name = ‘mrle’ #定义爬虫的名字。 allowed_domains = [‘www.lovelifemrle.com’] #定义爬虫爬取网址的域名。 start_urls = [] #定义起始网址。 …

Read More

python——random.sample()的用法

写脚本过程中用到了需要随机一段字符串的操作,查了一下资料,对于random.sample的用法,多用于截取列表的指定长度的随机数,但是不会改变列表本身的排序: list = [0,1,2,3,4] rs = random.sample(list, 2) print(rs) print(list) 》》》[2, 4] #此数组随着不同的执行,里面的元素随机,但都是两个 》》》[0, 1, 2, 3, 4]   上面这种方法要求知道已知的数列,但是不能满足我在一定范围内,随机出一定长度数据的要求。下面这种方法,跟range相结合,在指定范围内获取一定长度的数据,这个用起来就比较灵活,代码如下: rs = random.sample(range(0, 9), 4) print(rs) 》》》[2, 6, 0, 4]  

Python 调取图灵机器人接口实现AI对话

import requests import json userid = str(‘iamdu’) # 1 可以替换成任何长度小于32的字符串哦 apikey = str(‘A’) # 这里的A,记得替换成你自己的apikey哦~ # 创建post函数 def robot(content): # 图灵api api = r’http://openapi.tuling123.com/openapi/api/v2′ # 创建post提交的数据 data = { “perception”: { “inputText”: { “text”: content } }, “userInfo”: { “apiKey”: apikey, “userId”: userid, } } # 转化为json格式 jsondata = json.dumps(data) # 发起post请求 response = r…

Read More

Python 调取有道翻译接口实现在线翻译功能

有道翻译有反爬虫机制,它使用了加密技术。如果你的程序报错,你可以通过搜索、查阅资料找到解决方案:尝试把访问的网址中“/translate_o”中的“_o”删除。服务器返回的内容,是json的格式。我们可以用处理列表、处理字典的手段来提取翻译。 import requests,json #调用了两个模块。requests负责上传和下载数据,json负责解析。 while True: word = input(‘你想翻译什么呀?’) url=’http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule’ #使用post需要一个链接。 data={‘i’: word, ‘from’: ‘AUTO’, ‘to’: ‘AUTO’, ‘smartresult’: ‘dict’, ‘client’: ‘fanyidesk…

Read More

Python 模拟登陆给wordpress博客文章发表评论

import requests #引入requests。 url = ‘ https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php’ #把请求登录的网址赋值给url。 headers = { ‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36′ } #加请求头,前面有说过加请求头是为了模拟浏览器正常的访问,避免被反爬虫。 data = { ‘log’: ‘spiderman’, #写入账户 ‘pwd’: ‘crawler334566’, #写入密码 ‘wp-submit’: ‘登录’, ‘redirect_…

Read More