|
近期忙于找一个暑期实习的公司,无奈个人水平实在太水,合适的公司也不是很多,笔试题目也积累了一些,整理一下好了。
公司 A
题目一:编写一个脚本main.py,使用方式如下:
main.py -u http://www.sohu.com -d 'a=1,b=2,c=3' -o /tmp/index.html
功能要求:打开-u指定的页面,将页面中所有的链接后面增加参数a=1&b=2&c=3(需要考虑链接中已经存在指定的参数的问题), 然后保存到-o指定的文件中。
题目二:编写一个 ab(Apache Benchmark)的替代程序,请尽可能的兼容 ab 你所认为重要的功能和参数。
题目三:
有配置文件有类似下面的配置:
http://m.sohu.com/c/5/|财经|200
http://m.sohu.com/|体育|200
http://m.sohu.com/n/346620805/|信号|200
编写一个脚本,要求如下:
1. 读取配置文件,对每一个url进行检查.
例如http://m.sohu.com/c/5/, 这个url返回的结果应该包含"财经"两个字,并且HTTP状态码是200, 否则报错。
2. 需支持并行的检查多个链接
Solutions:
我选做的是第一题和第三题。
第一题不难,主要解决的是打开某个url并遍历其中的所有链接,以前写爬虫的时候搞过这些东西就比较简单了,同时也涉及到了基本的I/O操作,考的还是比较基本的吧。比较生疏的是命令行参数问题,平时用的比较多但是自己貌似没实现过,趁这个机会也看了一下有关的问题,不过鉴于问题比较简单我就用了getopt解决了,其实有可以实现更加复杂的命令行参数的方法的。
有关的连接可以看一下这里: http://blog.iyunv.com/jiang1013nan/article/details/5854378
代码如下:
1 # _*_ coding: utf-8 _*_
2 '''
3 题目一:编写一个脚本main.py,使用方式如下:
4 main.py -u http://www.sohu.com -d 'a=1,b=2,c=3' -o /tmp/index.html
5 功能要求:打开-u指定的页面,将页面中所有的链接后面增加参数a=1&b=2&c=3
6 (需要考虑链接中已经存在指定的参数的问题), 然后保存到-o指定的文件中。
7 '''
8 import urllib2
9 import re
10 import sys,getopt
11 opts, args = getopt.getopt(sys.argv[1:],'hu:d:o:')
12
13 def Tryurlopen(url,d,o):
14 d = getd(d)
15 patterns = re.compile(' |
|
|