采集原理---采集技术篇---XMLHTTP_小偷/采集

最近一段时间,采集很热门,从新闻小偷,到音乐小偷,到新闻采集,Flash采集,都有他的踪影,现在还有很多的人对采集都很感兴趣,为了服务大家,我也正在写一套采集程序,名字为 心意采集程序 ,现在我讲一下,采集用到的相关技术。

下面讲到的也不是很高深的XMLHTTP技术,我也是稍稍讲一下,一个采集需要用到的几块内容
如果你需要了解更多的问题,请去www.google.com 搜索 XMLHTTP 技术 你将会得到更多的帮助,如果大家有什么疑问的话,可以在论坛上回贴

下面只讲到如何在网上得到数据,并不涉及到数据处理 

第一 XMLHTTP 技术

http://www.0579.info/study/exploitation/net/58685.htm

上面那个地址,那篇文章讲的根本原理已经很详细了,但是我们一般采集的话,刚开始不太需要了解太多。只要实用就可以了,等以后不够用的时候,再去找相关文档也来得急

首先,我们需要建立一个XMLHTTP对象
微软发布的xmlhttp组件已经有很多的版本了,我知道的就有以下几种:

"MSXML2.ServerXMLHTTP.4.0"
"MSXML2.ServerXMLHTTP.3.0"
"MSXML2.ServerXMLHTTP"
"MSXML2.XMLHTTP.5.0"
"MSXML2.XMLHTTP.4.0"
"MSXML2.XMLHTTP.3.0"
"MSXML2.XMLHTTP"
"Microsoft.XMLHTTP 

以上有这么多种组件,我们当然是需要申请最高版本的对象喽,那有什么办法可以实现呢
下面我拿出一段代码,大家可以看看,他是按最高版本申请XMLHTTP对象的

Dim ArrProgId,Prog,Flag,XmlHttpCom

ArrProgId = array("MSXML2.ServerXMLHTTP.4.0", "MSXML2.ServerXMLHTTP.3.0", "MSXML2.ServerXMLHTTP", "MSXML2.XMLHTTP.5.0", "MSXML2.XMLHTTP.4.0", "MSXML2.XMLHTTP.3.0", "MSXML2.XMLHTTP","Microsoft.XMLHTTP")

For Each Prog In arrProgId
If (IsObjInstalled(Prog) = true) Then
XmlHttpCom = Prog
Exit For
End If
Next

'// <summary>
'// Rem 检查组件是否支持 是返回 True 否返回 False
'// </summary>
Public Function IsObjInstalled(strClassString)
On Error Resume Next

'//设置初始化值

IsObjInstalled = False
Err = 0

'//测试代码

Dim xTestObj
Set xTestObj = Server.createObject(strClassString)
If 0 = Err Then IsObjInstalled = True

'//清除所申请的对象

Set xTestObj = Nothing
Err = 0
End Function 

上面那段代码就是申请到当前服务器支持的最高版本的XMLHTTP对象了

下面我们讲一下采集功能函数

'GetFileText为采集功能函数
Public Function GetFileText(url) 
on error resume next '有错误时继续执行代码
Dim http '定义变量
'Set http=Server.createobject(XmlHttpCom) '申请对象 
Set http=Server.createobject("Microsoft.XMLHTTP") '保险起见,写出一个服务器一般都支持的版本 
Http.open "GET",url,False '打开对象 用GET方式 等待服务器响应
Http.Send() '发送
If Http.readystate<>4 Then '如果服务器没反应,则退出函数
Exit Function 
End If 

GetFileText=bytes2BSTR(Http.responseBody,"GB2312") '把得到的数据流二进制文件 转化成文本字符格式 (GB2312)

Set http=Nothing '删除对象
If err.number<>0 Then err.Clear '如果有错误,清除错误
End Function

'// <summary>
'// 采用 ADODB.Stream 处理采集到的数据,把二进制的文件转成文本字符
'// </summary>
Function Bytes2bStr(vin,cSet)
Dim BytesStream,StringReturn
Set BytesStream = Server.createObject("ADODB.Stream")
BytesStream.Type = 2
BytesStream.Open
BytesStream.WriteText vin
BytesStream.Position = 0
BytesStream.CharSet = cSet
BytesStream.Position = 2
StringReturn =BytesStream.ReadText
BytesStream.close
Set BytesStream = Nothing
Bytes2bStr = StringReturn
End Function

下面我定义一个 路径变量 URL

URL = "http://ent.sina.com.cn/star/mainland/more.html";

上面是一个网址,如果我们想把上面这个地址采集下来,并显示出来的话,我们可以这样操作

URL = "http://ent.sina.com.cn/star/mainland/more.html";

Response.Write GetFileText(URL)

这样就可以采集到上面网址的内容了
是不是很简单呢

那采集到数据之后应该怎么操作呢
怎么区分数据,如果得到你想要的数据,如果把得到的数据入库呢
这是以后需要分析讲解的问题了 入库要注意的地方,用正表达式处理数据

附上 上面代码的源文件,大家可以下载下去,运行起来试试,是不是真的能采集到数据库

时间: 2016-09-04

采集原理---采集技术篇---XMLHTTP_小偷/采集的相关文章

网站生成静态页面,及网站数据采集的攻、防原理和策略_小偷/采集

发布时间:2005年11月27日 晚 文章作者:翟振凯 (小琦) 交流方式: 个人站:http://www.xiaoqi.net     技术站:http://www.iisvs.net 商业站:http://www.iisvs.com QQ:53353866 22336848 关于本文:         本着互联网共享主义精神,特写此文献给建站新手,授人以鱼,不如授人以渔,本文所讲的只是方法和原理,希 望大家看完此文,能够从中得到些帮助和启发.         本文从一个ASP程序员的角度用大

如何采集静态文章系统_小偷/采集

目前网站基本上都生成静态的了,对于那些技术不是很高深的小偷来说,去偷一个文件名是以时间加随机数来命名的文章系统,有点困难,而目前的大多数静态的系统都是以这样的方式命名的,这个不像有asp?id=1 to asp?id=100这样好这个命名是没规律的,那么,这种文章系统怎么样采呢,以下就以自已的站www.asp315.com这例来写一篇关于采集静态文章系统的教程吧!  首先,我们打开www.asp315.com你会发现教程很多,我们随便点一个进去吧,就点JSP教程吧,里面还分了子类,这个不管我们就

非常不错的flash采集程序测试通过_小偷/采集

复制代码 代码如下: <% '--------------------------------------------------------------  Dbname = "../data/flash.mdb"          '更改数据库文件位置,强烈建议更改为.asp的文件!  Set Conn = Server.CreateObject("ADODB.Connection")  Connstr = "Provider = Microsof

浅谈自动采集程序及入库_小偷/采集

<%'声明取得目标信息的函数,通过XML组件进行实现.Function GetURL(url) Set Retrieval = CreateObject("Microsoft.XMLHTTP") With Retrieval .Open "GET", url, False.Send GetURL = bytes2bstr(.responsebody)'对取得信息进行验证,如果信息长度小于100则说明截取失败if len(.responsebody)<10

小偷,采集程序常用函数_小偷/采集

<script language="javascript" runat="server"> //连接数据库 function connOpen(DataBaseConnectStr){   var conn = Server.CreateObject("ADODB.Connection");   conn.Open(DataBaseConnectStr);   return conn; } //利用AdoDb.Stream对象来读取指

提供几个关于采集的函数(ASP)_小偷/采集

<%''''''''''''''''断剑注释'''''''''''''''''''''''''''''strText为要切取内容的那段打的内容''''''''''''''''strStarTag为要切取内容的开始的地方''''''''''''''strEndTag为要切取内容的结束的地方''''''''''''''GetText返回值为切取出来的内容'''''''''''''''''''''''''''''注释结束''''''''''''''''''''''''Function GetText(

采集原理---采集技术篇---XMLHTTP

最近一段时间,采集很热门,从新闻小偷,到音乐小偷,到新闻采集,Flash采集,都有他的踪影,现在还有很多的人对采集都很感兴趣,为了服务大家,我也正在写一套采集程序,名字为 心意采集程序 ,现在我讲一下,采集用到的相关技术. 下面讲到的也不是很高深的XMLHTTP技术,我也是稍稍讲一下,一个采集需要用到的几块内容 如果你需要了解更多的问题,请去www.google.com 搜索 XMLHTTP 技术 你将会得到更多的帮助,如果大家有什么疑问的话,可以在论坛上回贴 下面只讲到如何在网上得到数据,并不

网站数据采集器采集原理

中介交易 SEO诊断 淘宝客 云主机 技术大厅 网站采集器:是一种可以快速收集和发布网上信息的程序,一般分为两大功能:信息收集和处理功能,信息发布功能. 作为一种可以快速增加网站内容的程序,采集器一直以来都受到广大个人站长的重视.我们一方面想尽方法阻止别人采集自己的网站,另一方面也想用采集器采集一下别人的网站来丰富自己站点的内容.采集器是什么时候产生的我们已经无从知晓了,目前国内各大文章管理系统都已经集成了采集和防采集功能,即便国内的某些大网站也或多或少的使用了信息采集,可见人们对采集的热衷,毕

asp采集HTML内容常用代码,详讲正则采集_小偷/采集

先说一下采集原理: 采集程序的主要步骤如下: 一.获取被采集的页面的内容 二.从获取代码中提取所有用的数据 一.获取被采集的页面的内容 我目前所掌握的ASP常用获取被采集的页面的内容方法: 1.用serverXMLHTTP组件获取数据 复制代码 代码如下: Function GetBody(weburl) '创建对象 Dim ObjXMLHTTP Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP") '请求文件,以异步形式