selenium +PhantomJS自动发布带图文微博(涉及图片上传 autoit操作)

from selenium import webdriver from bs4 import BeautifulSoup import time import os from selenium.webdriver.common.desired_capabilities import DesiredCapabilities browser = webdriver.Chrome() # browser = webdriver.PhantomJS() # headers = { # ‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’, # ‘Accept-Language’: ‘zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3’, # ‘User-Agent’: ‘Mozil…

Read More

selenium +PhantomJS自动发布微博

from selenium import webdriver from bs4 import BeautifulSoup import time from selenium.webdriver.common.desired_capabilities import DesiredCapabilities browser = webdriver.PhantomJS() # headers = { # ‘Accept’: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’, # ‘Accept-Language’: ‘zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3’, # ‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5…

Read More

selenium 实现自动登录微博并发布内容

from selenium import webdriver from bs4 import BeautifulSoup import time # browser = webdriver.PhantomJS() browser = webdriver.Chrome() browser.get(‘https://weibo.com’) time.sleep(5) #给页面加载预留足够的时间 browser.find_element_by_css_selector(“#loginname”).send_keys(“这里写账号”) browser.find_element_by_css_selector(“.info_list.password input[node-type=’password’]”).send_keys(“这里写上密码”) browser.find_element_by_c…

Read More

python文本分析与可视化利器—wordcloud库使用

wordcloud是功能强大的词云展示第三方库。它不仅可根据文本中词语出现的频率等参数绘制词云,还可设定词云的字体,颜色,形状等。需要注意的是,wordcloud库在运行时,需要用到一些依赖库:包括matplotlib库以及图像处理库pillow库。因此,使用该库之前,务必先装好依赖库。和其他第三方库一样,wordcloud在使用前需在cmd中输入如下命令安装: pip install wordcloud from wordcloud import WordCloud import numpy as np import PIL.Image as Image fi = open(“book.txt”, “r”, encoding = ‘utf-8′) txt = fi.read() fi.close() font=’font.ttf’ wc = WordCloud(width=800, he…

Read More

Python 利用you-get 库下载B站视频

import sys from you_get import common as you_get #导入you-get库 directory = r’F:\pydemo’ #设置下载目录 url = ‘https://www.bilibili.com/video/av36631527/?spm_id_from=trigger_reload’ #需要下载的视频地址 sys.argv = [‘you-get’,’-o’,directory,url] #sys传递参数执行下载,就像在命令行一样 you_get.main()   CMD下 you-get -i 视频url 可以查看视频信息 超清 高清 标清那些

一行Python代码过滤标点符号等特殊字符

原文地址:https://www.jb51.net/article/167471.htm 很多时候我们需要过滤掉标点符号等特殊字符,网上虽然有一堆的方法,但是都没有找到一个非常满意的,有些过滤不了中文的标点符号,有些过滤不了英文的标点符号,有些过滤不全。 最后通过查看正则表达式文档,发现一个高效的办法,一行代码就能搞定:? 12345678910 def replace_all_blank(value):”””去除value中的所有非字母内容,包括标点符号、空格、换行、下划线等:param value: 需要处理的内容:return: 返回处理后的内容”””# \W 表示匹配非数字字母下划线result = re.sub(‘\W+’, ”, value).replace(“_”, ”)print(result)return result 其中用到了 Python 的 re 模块, re…

Read More

scrapy 利用fiddler抓包批量下载【掌通家园】APP图片

关键点,利用fiddler抓取手机app里的数据接口参数 抓取后的数据 爬虫处理文件deal.py import scrapy import bs4 import random import csv import requests import json from ..items import newsfoto2Item # 需要引用mrleItem,它在items里面。因为是items在deal.py的上一级目录,所以要用..items,这是一个固定用法。 class newsfoto2Spider(scrapy.Spider): #定义一个爬虫类newsfotoSpider。 name = ‘newsfoto2’ allowed_domains = [‘api.szy.cn’] start_urls = [‘https://api.szy.cn/growthproxy/schoolfe…

Read More

scrapy 域名过滤。DEBUG: Filtered offsite request to 解决方案

在做爬虫项目时,出现了一个问题,解析一个网站二次爬取时没有获取到数据,就写了一个测试程序试了下,测试程序如下 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class ZhenaiSpider(CrawlSpider):     name = ‘zhenai’     allowed_domains = [‘www.zhenai.com’]     start_urls = [‘http://www.zhenai.com/zhenghun/beijing/1’]     ru…

Read More

scrapy 抓取app 掌通家园 图文页面

接口需要通过fiddler来抓包获取,下载下来的图片是原始高清大图无水印 爬虫处理页面deal.py import scrapy import bs4 import csv from ..items import newsfoto2Item # 需要引用mrleItem,它在items里面。因为是items在deal.py的上一级目录,所以要用..items,这是一个固定用法。 class newsfoto2Spider(scrapy.Spider): #定义一个爬虫类newsfotoSpider。 name = ‘newsfoto2’ #定义爬虫的名字。 allowed_domains = [‘web.szy.cn’] #定义爬虫爬取网址的域名。 start_urls = [] #定义起始网址。 for x in range(1): url = ‘https://web.szy.cn/c…

Read More

Selenium+PhantomJS使用时报错原因及解决方案

UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead warnings.warn(‘Selenium support for PhantomJS has been deprecated, please use headless ‘ 翻译过来就是: 解决方案 selenium版本降级 通过pip show selenium显示,默认安装版本为3.8.1。 将其卸载pip uninstall selenium,重新安装并指定版本号pip install selenium==2.48.0。 再次运行,发现没有报错,搞定! 使用无界面浏览器 Selenium+Headless Fire…

Read More