Scrapy-基础-url拼接 信息爬虫过程中,url拼接的问题几乎是100%会碰到的你当然可以使用字符串并接的方式删删拼拼达到目的,但那样做显得很麻瓜。而且,由于<a>的@href和<img>的@src呈现出来的内容的不同,可能每一个url都要区别对待实际上,倒是有一些函数能帮忙做这些事情 方法基本字符串拼接12url = 'https://www.a.com' + ' 2020-10-09 Scrapy
Python-单例模式 单例模式单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在当你希望在整个系统中,某个类只能出现一个实例时,单例对象就能派上用场 在那些需要“创建连接”的内容中使用能节约很多资源 Python实现方式模块方式其实,Python 的模块就是天然的单例模式因为模块在第一次导入时,会生成.pyc文件,当第二次导入时,就会直接加 2020-10-01 Python 设计模式 单例模式
Git-.gitignore-忽略指定文件的版本控制 .gitignore文件并不是所有的文件都需要版本控制,程序运行产生的编译的中间文件,日志文件,等等都是不需要版本控制的 编写在git的目录创建一个.ignore文件,编写指定的忽略规则就能让git忽略指定的文件或者文件夹,让管理更方便 流程 创建.gitignore文件如果此文件是在项目push之后创建,那么需要进行一些操作才能让这个文件正常工作 注意!!!在代码提交以后再进行此操作 2020-09-29 Git
Javascript-Hook-脚本 信息自行编写或者收集到的Hook脚本代码 脚本webpack hook 半自动扣12345678910111213// 在加载器后面下断点 执行下面代码// 这里的f 替换成需要导出的函数名window.zhiyuan = f;window.wbpk_ = "";window.isz = false;f = function(r){ if(window.isz) 2020-09-27 javascript Hook
Linux-Shell-后台运行脚本 信息前台运行脚本会占住你的控制台,控制台关闭以后,脚本也会跟着停下。后台运行会让你感到舒服/干净 虽然存在忘了脚本在运行和分不清是什么脚本的可能性 &后台运行脚本直接在运行的脚本后家&即可实现 例:后台运行test.sh脚本 1. test.sh & 虽然这样已经是后台运行了,但这样做会有一个问题关闭终端连接后,脚本会停止运行 nohup不挂断的 2020-09-27 Linux Shell
服务器部署-SSH 环境 Centos7.2 腾讯云服务器 信息SSH全称是Secure Shell,SSH协议是基于应用层的协议,为远程登录会话和其他网络服务提供安全性的协议。 SSH使用最多的是远程登录和传输文件,实现此功能的传统协议都不安全(ftp,telnet等),因为它们使用明文传输数据。而SSH在传输过程中的数据是加密的,安全性更高。 工作原理SSH协议传输是基于(非对称加密方法的)[https 2020-09-27 服务器 SSH
Hexo-abbrlink 问题Hexo文章链接默认的生成规则是::year/:month/:day/:title。即按照年、月、日、标题来生成如果文章标题是中文的话,URL链接是也会是中文,但链接不能是中文原文,需要转译,于是就变成了非常非常长的一串如果你需要弄博客内跳转的话,文件名一改,url会跟着改,想要正确跳转又要手动跟着改,非常麻烦 Hexo-abbrlink为了应对url又长又臭,文件更改又会更改的问题,有人 2020-09-27 Hexo
硬件-固态硬盘 信息固态硬盘(SSD)主要包括主控芯片、闪存颗粒和缓存单元三大组件 预算>主控>颗粒>无缓存>容量 主控一款主控芯片的好坏直接决定了固态硬盘的实际体验和使用寿命主要分为两种:原厂和主控厂商 主控的工作 同时连接多个闪存单元这意味着能获得更高的吞吐量 损耗均衡平均分配,延长寿命SSD闪存单元写入次数有限,如果SSD只往同一个闪存单元理读写东西,那么这个闪存单 2020-09-25 硬件
服务器部署-CentOS-Windows-文件传输 信息上传文件总是逃不过的借助第三方平台速度太慢,只能自己寻找协议/工具/代码来实现 Window端操作SCP命令scp是secure copy的简写,用于在Linux下进行远程拷贝文件的命令scp传输是加密的,速度相对于不加密的传输来说要慢(废话)scp还非常不占资源,不会提高多少系统负荷 在占资源这一点上,rsync就远远不及它了。虽然 rsync比scp会快一点,但当小文件众多的情况 2020-09-25 CentOS Windows 服务器部署
Blender-使用记录 安装官网下载:https://www.blender.org/download/清华源下载:https://mirror.tuna.tsinghua.edu.cn/blender/blender-release/ 个人设置模拟maya视图操作键位-3D视图旋转视图 Alt+鼠标左键平移视图 Alt+鼠标中间 插件Add Curve:Extra ObjectsAdd Mesh:Extra Objec 2020-09-19 Blender
Python-Pymongo-MongoDB 信息Pymongo 是 Python 阻塞操作 MongoDB 的模块 安装1pip install pymongo 使用创建连接12from pymongo import MongoClientclient = MongoClient("mongodb://mongodb0.example.net:27019") MongoClient(‘mongodb://用户名:用 2020-09-18 Python MongoDB Pymongo
Scrapy-基础-Shell 简介Scrapy``shell 是一个快速debug交互shell,一般被用于做数据抽取代码的测试工作,它得到的结果会和你在Python中跑出来的一样 使用命令行启动1scrapy shell "url" 这是最基本的启动方式 注意:双引号不要去除,也不要用单引号来替代 你也以用shell来加载本地文件 1scrapy shell /path/file.html 2020-09-16 Scrapy
MongoDB 信息MongoDB 是一个由C++编的 写基于分布式文件存储的数据库。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的 存储MongoDB 将数据存储为一个文档,数据结构由键值对组成MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组 特点 Mon 2020-09-11 MongoDB
Charles-抓包 信息Charles是一个Web代理(HTTP Proxy / HTTP Monitor)抓包工具Charles可以 接收/发送/记录 你的 请求/相应 网络数据 官网:https://www.charlesproxy.com/文档:https://www.charlesproxy.com/documentation/下载:https://www.charlesproxy.com/downloa 2020-09-11 Charles 抓包
Frida Frida官方文档的食用记录 文档/网址 信息 网址 Frida官网 https://frida.re/ Frida官方文档 https://frida.re/docs/home/ 信息什么是FridaFrida是一个动态代码检查工具它可以让你将JavaScript代码诸如到Windows,macOS,Android等系统的程序中Frida也为你提供了一些基于其API的小工具 2020-09-10 Frida
Python-JPype-运行java代码 信息官网:http://jpype.sourceforge.net/官方文档:http://jpype.sourceforge.net/documentation.html 安装 JPype请务必不要用pip直接安装,直接安装的话可能会在运行的时候出现一些错误,例如找不到getDefaultJVMPath函数 java环境安装JRE下载:链接JDK下载:链接下载完毕,直接安装即可完毕以后,配 2020-09-09 Python Java JPype
Javascript-Babel Babel是什么Javascript标准ECMA百度百科:https://baike.baidu.com/item/ECMAScript/1889420?fr=aladdinES6支持表格:https://kangax.github.io/compat-table/es6 Babel的作用如果你的浏览器不支持ES6,Babel可以将将代码转换ES4或者其它版本,让你的浏览器支持 什么是 2020-09-01 Babel Javascript
javascript-控制流平坦化 有用的链接在线开源混淆工具:https://obfuscator.io在线AST解析:https://astexplorer.net 概述通过引入状态机与循环,破坏代码上下文之间的阅读连续性和代码块之间的关联性将若干个分散的小整体整合成一个巨大的循环体 无法还原成原来具体的函数 无法以函数为单位的调试方法,大幅度增加调试难度 降低代码运行效率,提高爬虫运行时执行js的资源成本 2020-08-31 javascript 爬虫
Puppeteer-Pyppeteer 信息Puppeteer是一个Node 库,它提供了一个高级 API 来通过 DevTools 协议控制 Chromium 或 Chrome有开发者开源了支持Python的Puppeteer库,名为Pyppeteer 文档 内容 链接 Puppeteer Github地址 https://github.com/puppeteer/puppeteer Pyppeteer Github地址 2020-08-22 Puppeteer Pyppeteer
CSS-反爬 CSSCSS是什么层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML或XML等文件样式的计算机语言CSS不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化 CSS过程 基础语法伪类:实际上不是真正的类名,而是一个内置影式的有特殊功能的类 CSS反爬特点 成本低 只需要前端混淆样式(不需要后台配合) 不需要复杂的加密 2020-08-21 CSS 反爬虫