设为首页 收藏本站
查看: 417|回复: 0

[经验分享] PHP抓取网站页面、CSS文件、图片

[复制链接]

尚未签到

发表于 2017-4-4 12:19:11 | 显示全部楼层 |阅读模式
<?php


$url = array(
'index' => 'http://www.meilishuo.com/welcome',
'login' => 'http://www.meilishuo.com/user/login',
'register' => 'http://www.meilishuo.com/user/register'
);

getHtml($url);
/*
获取网站源代码
$url is array 需要抓取的页面
getCss() 获取网站CSS文件
getImgs() 获取网站图片
*/
function getHtml($url)
{
foreach($url as $key=>$value){
$result = file_get_contents($value);
file_put_contents($key.'.html', $result);
getCss($result, $key);
getImgs($result, $key);
}
}
/*
获取网站页面图片
$fileName 本地页面地址
$first is array 查找的条件
$two is array 替换的内容
$data is string 页面内容图片被替换成本地图片
*/
function getImgs($result,$fileName)
{
$imgRegex = '/<img.+?src=\"(.+?)\".*?>/';
preg_match_all($imgRegex, $result, $imgResult);
$result = file_get_contents($fileName.'.html');
foreach($imgResult[1] as $key=>$value){
$imgPath = $value;

$arr =explode('/',$value);
unset($arr[0]);
unset($arr[1]);
unset($arr[2]);
$arrStr = implode('/',$arr);
$imgResult[1][$key] = $arrStr;

$first[] = $value;
$two[] = $arrStr;

$fileArr = pathinfo($imgResult[1][$key]);
$imgArr = array('jpg', 'png');
if(in_array($fileArr['extension'], $imgArr)){
//var_dump($fileArr);
@makeDir($fileArr['dirname']);

if(!is_file($fileArr['dirname'].'/'.$fileArr['basename'])){
@copy($imgPath, $fileArr['dirname'].'/'.$fileArr['basename']);
}
}
}
$data = str_replace($first, $two, $result);
file_put_contents($fileName.'.html', $data);
}

/*
获取CSS代码
getImg($value) 获取CSS 文件中的图片 $value CSS 路径
$fileResult 本地保存文件名称
$dirPath 目录路径 不包含文件名称
*/
function getCss($result,$fileName)
{
//$regex = '/<link rel="stylesheet" type="text\/css" href="\S" \/>/';
$regex = '/<link.+?href=\"(.+?)\".*?>/';

preg_match_all($regex, $result, $cssResult);
foreach($cssResult[1] as $value){

$fileResult = file_get_contents($fileName.".html");

if(strpos($value,"?")){
$cssPath = substr($value, 0, strrpos($value, "?"));
}else{
$cssPath = $value;
}
$arr =explode('/',$value);
unset($arr[0]);
unset($arr[1]);
unset($arr[2]);
$arrStr = implode('/',$arr);
$arr1 = explode('?',$arrStr);
$dirPath = substr($arr1[0], 0, strrpos($arr1[0],'/'));

makeDir($dirPath);

$fileArr = pathinfo($cssPath);
$newContent = str_replace($value, $arrStr, $fileResult);
//echo htmlspecialchars($newContent);exit;
file_put_contents($fileName.'.html', $newContent);
if($fileArr['extension'] == 'css'){
$css = file_get_contents($value);
file_put_contents($arr1[0], $css);

getImg($value,$arr1[0]);
}
}
}
/*
获取CSS文件图片
makeDir() 递归创建文件夹
$filePath 图片路径
$dirPath 图片所在目录路径 不包含文件名
*/
function getImg($cssPath,$bCssPath)
{
$data = file_get_contents($cssPath);
$regex = '/url\(\'{0,1}\"{0,1}(.*?)\'{0,1}\"{0,1}\)/';
preg_match_all($regex,$data,$result);
//var_dump($result);
foreach($result[1] as $value){

$length = strlen("http://i.meilishuo.net");
$filePath = trim(substr($value, $length),'/');

$dirPath = substr($filePath, 0, strrpos($filePath, '/'));

$first[] = $value;
$two[] = $filePath;
makeDir($dirPath);
if(!is_file($filePath)){
@copy($value, $filePath);
}
//var_dump($fileArr);
}
$newContent = str_replace($first, $two, $data);
file_put_contents($bCssPath,$newContent);
}
/*
递归创建文件
$pathString 目录路径 不包含文件名
*/
function makeDir($pathString)
{
$pathArray = explode('/', $pathString);
$tmpPath = array_shift($pathArray);
if(!is_dir($tmpPath)){
@mkdir($tmpPath);
}
foreach ($pathArray as $val){
$tmpPath .= "/".$val;

if(is_dir($tmpPath)){
continue;
} else {
@mkdir($tmpPath, 0777);
}
}
if(is_dir($tmpPath)){
return $tmpPath;
} else{
return false;
}
}

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-360066-1-1.html 上篇帖子: PHP面向对象之旅:类的属性 下篇帖子: C,Delphi,PHP 基础语法对比
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表