自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

彭世瑜的博客

记录我的code历程 个人主页:www.pengshiyu.com

原创 Python实现一个最简单的MapReduce编程模型WordCount

MapReduce编程模型: Map:映射过程 Reduce:合并过程 import operator from functools import reduce # 需要处理的数据 lst = [ "Tom", "Jack", ...

2018-11-29 22:25:19 1067 0

原创 中文计数法亿兆京垓秭穰沟涧正载

个、十、百、千、万、 亿yì、兆zhào、京jīng、垓gāi、秭zǐ、 穰rǎng、沟gōu、涧jiàn、正zhèng、载zǎi 读音各异,不做深入探究了, wiki上是这样的 https://zh-classical.wikipedia.org/wiki/表數法 从小到大表示: 个 十 百 ...

2018-11-29 18:43:34 4650 0

原创 Python编程:zope.interface实现接口

pypi : https://pypi.org/project/zope.interface/ 文档:https://zopeinterface.readthedocs.io/en/latest/index.html 面向对象中接口负责定义规则,具体实现类来实现规则 安装 pip install ...

2018-11-28 16:47:25 406 2

原创 配置Pycharm的Scrapy爬虫Spider子类通用模板

# -*- encoding: utf-8 -*- """ @Date : ${YEAR}-${MONTH}-${DAY} @Author : xxx """ from sc...

2018-11-27 13:54:57 355 0

原创 使用MapReduce计算用户流量使用情况

mapreduce任务调度 理解map和reduce的数据流的数据结构 项目地址:https://github.com/mouday/MapReduceDemo 参考 使用Intellij Idea打包java为可执行jar包 Idea打包Jar文件 idea创建普通java工程,添加ja...

2018-11-27 00:43:59 207 0

原创 java:MapReduce原理及入门实例:wordcount

MapReduce原理 MapperTask -> Shuffle(分区排序分组) -> ReducerTask MapReduce执行步骤 Map处理任务 读取文件每一行,解析成<key、value&...

2018-11-26 00:14:18 195 0

原创 程序员如何选择编程语言

很多人关心这个问题,其实一张图足以说明每个语言的位置 没有最好的语言,只有最适合的应用场景 参考: c#,c++,Java,Python选择哪个好?

2018-11-24 13:57:53 341 0

原创 Java: Hadoop文件系统的读写操作

所需jar包路径: hadoop-2.8.5/share/hadoop/common hadoop-2.8.5/share/hadoop/common/bin hadoop-2.8.5/share/hadoop/hdfs hadoop-2.8.5/share/hadoop/hdfs/bin j...

2018-11-24 00:04:32 615 0

原创 TypeError: 'encoding' is an invalid keyword argument for this function

python 2.7版本 data_file = open("data.txt", "r", encoding='utf-8') 运行的时候报错: TypeError: 'encoding' is an invali...

2018-11-23 18:03:27 4811 0

原创 一图看懂ADSL拨号服务器

基本原理就是: 拨号主机(多台)负责切换ip 固定主机(一台)负责收集ip 爬虫主机(多台)负责使用ip 参考 使用Tornado+Redis维护ADSL拨号服务器代理池 ...

2018-11-22 19:23:59 3821 2

原创 linux直接下载java

网上的教程好多是下载到本地,再拷贝到服务器上 因为Oracle官网下载java需要点击接受按钮,如果不接受就会被跳转 参考了一些文章之后,发现: 只要把点击确定后的的cookie复制下来,加到下载请求头里边就行,例如: wget --no-cookies --no-check-certificat...

2018-11-19 23:01:40 4968 0

原创 PyCharm文件删除后提示文件找不到:递归删除目录下pyc文件

PyCharm代码删除后,会提示文件找不到,这是由于.pyc 字节码文件没有删除,运行的是之前的代码编译好的*.pyc 字节码文件 解决办法: 删除*.pyc 文件 删除当前目录下.pyc文件 $ rm -rf "*.pyc" 递归删除目录下.pyc文件 $ find ....

2018-11-19 21:31:33 568 0

原创 Python编程:itemgetter获取字典元素和groupby分组

itemgetter获取字典元素 groupby分组 代码示例 from itertools import groupby from operator import itemgetter d1 = {"name": "Tom", "age&quo...

2018-11-18 22:00:48 660 0

原创 Windows平台Hadoop环境安装配置

下载3个所需软件 JDK安装与环境变量配置 下载hadoop,建议使用国内源下载 ,比如:清华大学源 下载hadooponwindows-master.zip【**能支持在windows运行hadoop的工具】 安装配置 这篇文章写的比较好,简单几步就配置成功了 Windows平台安装配置Ha...

2018-11-18 18:40:11 163 0

原创 callback回调函数和hook钩子函数的简单理解

回调函数callback:所调用函数执行完,之后调用的函数 钩子函数hook:消息到达目的地之前,进行拦截,处理消息 简单理解: Scrapy中就有使用: 回调函数,Request执行完下载流程之后,调用parse函数来解析页面 Request(url, callback=self.parse) ...

2018-11-16 19:44:45 2319 0

原创 Django CSRF跨站请求伪造的禁用和使用

CSRF (Cross-site request forgery) Django后台设置 全局和局部设置 # 全站使用 'django.middleware.csrf.CsrfViewMiddleware', # 局部禁用 from django.views.de...

2018-11-16 18:12:04 220 0

原创 Django中使用POST提交和接收数据

POST表单数据 请求头参数 "Content-type","application/x-www-form-urlencoded" Django接收数据 request.POST POST ...

2018-11-16 17:52:47 5376 0

原创 Linux环境下安装phantomjs

新建文件夹 mkdir PhantomJS cd PhantomJS 下载解压 wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2 tar -xjvf phanto...

2018-11-16 17:16:35 981 0

原创 Scrapyd API 中文翻译版本

原文地址:https://scrapyd.readthedocs.io/en/stable/api.html 以下是 Scrapyd 提供的 JSON API. 实现了对Scrapy 项目管理 # 服务器查询 daemonstatus.json 服务器状态 # 项目操作 addversion.j...

2018-11-16 12:41:26 792 0

原创 Python编程:pkgutil获取包中的资源文件

文件结构 ./ |--main.py |--clazz |--demo.txt 获取clazz包下面的demo.txt文件 main.py import pkgutil ret = pkgutil.get_data("clazz", &a...

2018-11-14 19:59:34 753 0

原创 Python编程:tempfile创建临时文件

tempfile需要的时候创建零时文件,关闭之后就被删除了 import tempfile import os # 创建文件 file = tempfile.TemporaryFile(mode="w+") print(file.name) # 4 pri...

2018-11-14 19:54:47 984 0

原创 Python爬虫:Scrapy与__file__引发的异常

报错问题 项目代码中使用了__file__, 项目部署之后,想部署单个爬虫,读取spider-list出错 查看 https://pypi.org/project/scrapyd-client/#id5 作者说,要尽量避免使用__file__ 删除之后确实正常了。。。 ...

2018-11-14 19:02:36 167 0

原创 Python编程:pkgutil获取包里面的所有模块列表

准备工作 环境: python 3.6 文件结构 ├── clazz │ ├── __init__.py │ ├── a.py │ └── b.py └── main.py a.py 的代码 def show(): print("show A&quo...

2018-11-14 11:03:01 8052 0

原创 Python编程:importlib.import_module动态导入模块

环境:python 3.6 文件结构 ├── clazz │ ├── __init__.py │ ├── a.py │ └── b.py └── main.py a.py 的代码 def show(): print("show A") b.py 的代码 ...

2018-11-14 10:30:40 9922 0

原创 Python爬虫:Scrapy的Crawler对象及扩展Extensions和信号Signals

先了解Scrapy中的Crawler对象体系 Crawler对象 settings crawler的配置管理器 set(name, value, priority=‘project’) setdict(values, priority=‘project’) setmodule(module...

2018-11-13 10:33:00 942 0

原创 Python爬虫:Scrapy中间件Middleware和Pipeline

Scrapy提供了可自定义2种中间件,1个数据处理器 名称 作用 用户设置 数据收集器(Item-Pipeline) 处理item 覆盖 下载中间件(Downloader-Middleware) 处理request/response 合并 爬虫中间件(Spider-Mid...

2018-11-12 18:02:16 1364 0

原创 curl常用命令

curl 一款很强大的http命令行工具 语法: $ curl [option] [url] 1、基本用法 curl http://www.linux.com 2、保存网页 curl -o baidu.html http://www.baidu.com 3、使用代理 curl -x 192....

2018-11-10 14:36:30 647 0

原创 make[1]: Nothing to be done for `all-am'.

1.这句提示是说明你已经编译好了,而且没有对代码进行任何改动。 若想重新编译,可以先删除以前编译产生的目标文件: make clean make 2.也可以 make clean all make install 参考 make: Nothing to be done for `all’ 解...

2018-11-10 14:24:49 4701 0

原创 curl: (1) Protocol "https" not supported or disabled in libcurl

报错 curl: (1) Protocol "https" not supported or disabled in libcurl 解决 重装curl mac平台 sudo ./configure --with-darwinssl make make ins...

2018-11-10 13:53:19 2905 0

原创 curl: (4) A requested feature, protocol or option was not found

curl报错 curl: (4) A requested feature, protocol or option was not found built-in in this libcurl due to a build-time decision. 百度无果后谷歌 解决 重装curl 1、下载...

2018-11-10 11:56:12 1434 0

原创 用Hexo搭建本地静态博客

Hexo中文文档:https://hexo.io/zh-cn/docs/index.html 环境安装 nodejs http://nodejs.cn/ git https://git-scm.com/downloads Hexo $ npm install -g hexo-cli 启动服务...

2018-11-09 11:56:27 178 0

原创 mac下使用brew安装node.js环境

$ brew install node 安装了一堆东西…,不要紧张 报错 DownloadError: Failed to download resource "node" 解决: 打开文件~/.bash_profile, 添加: export SSL_CERT_DIR=&...

2018-11-08 19:11:52 2837 0

原创 Hexo、Jekyll、Sphinx、mkdocs、docsify等静态博文档汇总

框架 语言环境 参考文章 Jekyll Ruby 文档 、博文 Sphinx Python 文档 、博文 Hexo Node.js 文档 、博文

2018-11-08 18:21:08 1394 0

原创 Python编程:records批量插入数据到mysql

关于records 的基本使用: Python编程:records库操作SQL查询MySQL数据库 感谢Thrimbda 不厌其烦的解答,用英语聊了半天,发现他是chinese… 言归正传,records可以批量进行插入操作 import records db = records.Databa...

2018-11-08 17:46:37 776 0

原创 Python爬虫:Scrapy的get请求和post请求

scrapy 请求继承体系 Request |-- FormRequest get请求 from scrapy import Spider, Request, cmdline class SpiderRequest(Spider): name = "sp...

2018-11-08 12:09:19 4603 0

原创 Python爬虫:Scrapy调试运行单个爬虫

一般运行Scrapy项目的爬虫是在命令行输入指令运行的: $ scrapy crawl spider 每次都输入还是比较麻烦的,偶尔还会敲错,毕竟能少动就少动 Scrapy提供了一个命令行工具,可以在单个spider文件中加入以下代码: from scrapy import Spider, c...

2018-11-08 10:59:20 600 0

原创 Python爬虫:Request Payload和Form Data的简单区别

Request Payload 和 Form Data 请求头上的参数差别在于: Content-Type Form Data Post表单请求 代码示例 headers = { "Content-Type": "application/x-www-form-ur...

2018-11-02 18:32:50 1984 0

原创 pip、virtualenv、pyenv、pipenv等包管理工具简单区分

python的管理工具太多了,是谁说的python解决一个问题只用一个方式来着? 工具 介绍 pip 包管理工具 virtualenv 虚拟环境管理工具 virtualenvwrapper 虚拟环境管理工具加强版 pyenv python版本管理工具 pyenv-v...

2018-11-01 15:53:20 3106 0

原创 Python编程:pyenv管理多个python版本环境

pyenv 多版本的Python管理工具 https://github.com/pypa/pipenv pyenv-virtualenv 虚拟环境管理工具 https://github.com/pyenv/pyenv-virtualenv 安装 mac系统下 $ brew install pye...

2018-11-01 15:39:51 313 0

提示
确定要删除当前文章?
取消 删除