设为首页 收藏本站
查看: 727|回复: 0

[经验分享] php+R语言分析网站响应时间

[复制链接]

尚未签到

发表于 2017-3-31 11:55:29 | 显示全部楼层 |阅读模式
要做一个网络爬虫,抓取网页上的特定内容。以前有高年级研究生学长写过一个,但是老师嫌弃时间太久,上千个数据而已,竟然要用一夜,这次要我来做,我想先进行一下可行性的研究,要用到R语言进行统计。

    这次试验的难点有两个,或者说实际上就只有一个,那就是数据的规范化表示。以前没用过php进行文件读写操作,这是头一次。需要考虑的是文件读写的频率,虽然只是一个实验,但是效率还是要考虑的。过于频繁的文件读写,对磁盘过于耗时的操作,是个大问题。所以这个要考虑。其实是数据的格式问题,以什么样的格式存储。要考虑后续R语言处理的问题,R语言可以处理纯文本,数据之间可以使用分隔符,比喻逗号、甚至是制表符。所以文件里面的数据打算用逗号分隔了。

     首先贴上PHP代码
<?php
include ("php_lib/LIB_http.php");
error_reporting(E_ALL^E_NOTICE);
$target   ="http://www.*****";
$ref = "http://www.*****";
$filename = 'sitevisitors.txt';


$first=microtime(get_as_float);
for($n=0;$n<5000;$n++){
    $betime=microtime(get_as_float);
    $return_arry = http_get_withheader($target,$ref);
    $finidown = microtime(get_as_float);
    $resulttime = $finidown - $betime;
    $count[$n] = $resulttime;
    //echo $count[$n]."\n";
    echo"\n".$n;
}
$fp = fopen("data.txt", "a");
//fputs ($fp, "$count[0]");
for($n=0;$n<5000;$n++){
    fputs($fp, "\r\n".$count[$n]);
}
$last=microtime(get_as_float);
$result=$last-$first;
fclose ($fp);
echo"\nend this test";
echo"\n the time is:".$result;
?>

    由于这个网站不便公布,所以上连接地址和主机地址用*号代替,还请谅解。程序会先设计一个5000个元素的数组,然后发5000次http请求,记录下每次的时间。http报文中好像会有这个时间,但自己记不真切了,所以用的是microtime()函数,注意要加上get_as_float才可以做减法,而且加上include ("php_lib/LIB_http.php");屏蔽掉所有的php notice.
   
    所有的数据全都写进data.txt文件,要注意的是,文件数据格式应该是矩阵,就算只有一个数据源,即只有一列,也要每个数据独占一行,不能连着写,比如不能1,2,3,4……,而应该是:
1
2
3
4
……
   
    之所以这么做是因为R语言的缘故,R语言是对矩阵进行读写,所以这么写最方便(也有可能有更好的办法,只是我不知道而已)。

    得到时间后,打开R语言环境,接着做统计:
    ①读取数据:
data<-read.table("data.txt",header=FALSE,sep=",",col.names=c('num'))
    ②求平均值:
mean(data[,1])
注意不能是 mean(data),否则会出现如下警告:
[1] NA
警告信息:
In mean.default(data) : 参数不是数值也不是逻辑值:回覆NA
data[,1]表示矩阵data的第一列(其实这里也就仅有一列,但也要这么写)。
    ③想画出散点图,但是坐标精度太小,分辨不出,这还要继续研究:
c<-data[,1]
mydata<-rbind(c,c)
mydata<-as.data.frame(mydata)
namse(mydata)<-c("x","y")
with(mydata,plot(x,y,pch=19,main="the result"))

图倒是画出来了,但是坐标精度只到小数点后2位,如何提高坐标精度,目前正在研究,options(digits)是不行了。接着想吧。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-358157-1-1.html 上篇帖子: PHP生成带头像的二维码 下篇帖子: php 重复提交 刷新 直接访问
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表