爬取代理ip

浅谈如何处理好网站与蜘蛛的关系

09-23
相信有很多人都有研究过蜘蛛,因为我们网站的内容都是需要靠蜘蛛来爬取,提供给搜索引擎,要是蜘蛛来爬取完网站回去时对我们网站充满怨气的话,那相信搜索引擎对网站也不会有什么好感,所以一般我们做网站时都会研究好蜘蛛的喜好和厌恶,对症下药,来迎合蜘蛛.让蜘蛛在我们网站勤快的爬,多来几次,多收录网站页面,从而提升排名.那么蜘蛛有什么喜好和厌恶呢? 首先来说说蜘蛛的喜好: 1.蜘蛛喜欢新事物,软文和原创文章都特别中意,每天定时.有规律的更新几篇原创或者去A5,SEOWHY上发发软文,绝对对蜘蛛胃口. 2.虽然

利用Python爬取可用的代理IP_python

08-18
前言 就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/.在使用的时候发现很多IP都用不了. 所以用Python写了个脚本,该脚本可以把能用的代理IP检测出来. 脚本如下: #encoding=utf8 import urllib2 from bs4 import BeautifulSoup import urllib import socket User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv

合格的SEO应该会真正的IIS日志分析

03-17
在我们的优化之路中有一些问题一直困扰着我们,例如:我们发的外链是否起到效果?我们买的空间是否能够稳定?蜘蛛对我们的那些页面比较喜欢而对哪些不喜欢?蜘蛛什么时候抓取我们的网站频繁,我们需要什么时候更新内容?而这些问题其实我们可以通过我们的服务器IIS日志可以简单的分析出来,作为一个合格的SEO,真正的会分析IIS日志才可以而不是简单的去看状态码,在这提醒一下大家买空间的时候一定要买能够下载IIS日志的,不能下载的买都不要买,下面给大家介绍几点通过IIS日志分析出的网站问题.​ 一.IIS日志的重要

IPv6是什么?IPv6的特点与优势

02-23
IPv6是Internet Protocol Version 6的缩写,其中Internet Protocol译为"互联网协议".IPv6是IETF(互联网工程任务组,Internet Engineering Task Force)设计的用于替代现行版本IP协议(IPv4)的下一代IP协议.目前IP协议的版本号是4(简称为IPv4),它的下一个版本就是IPv6. IPv6是"Internet Protocol Version 6"的缩写,它是IETF设计的用于替代现