用php爬取网页数据

生活如麻 发表于 2017-4-6 11:29:20

　　首先你得知道抓取网页数据的原理，其实你只需要一句话就能把别人的网页全拿过来
　　file_get_contents("http://www.baidu.com");//注意url一定要完整
　　但是怎样从这个网页中得到你想得到的某部分data呢？
　　其实道理很简单，就是把这个结果当做是一个很长的字符串，然后从字符串中反复的过滤和截取直到得到自己想要的结果集
　　所以这件事的核心其实是正则表达式。
　　做这件事你要对比着要抓取网页的html代码
　　比如你想得到table中的内容可以用$preg1 = '/<table[^>]*>(.*?) <\/table>/si'这句匹配正则，就可以把所有的table中的所有内容拿出来
　　匹配函数用preg_match_all ( $preg1, $res1, $res2 );
　　其中$preg1是匹配表达式, $res1是源, $res2是结果容器。
　　然后用同样的方法匹配出<th>中的内容
　　再匹配出<td>中的内容，如果是多条数据，这时你应该得到一个多维数组，
　　这样核心的处理就完了
　　

　　注意，不要以为这样很省事不要自己做数据，实际操作起来时相当烦琐了，如果
　　原网页的数据时规则的那还好办，可如果他都不规则，光是各种匹配数据就能把你
　　整得晕头转向，而且如果原网页稍作变化（结构的），你的程序必须也得跟着变。

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

　　

页: [1]

运维网's Archiver

用php爬取网页数据