南开大学20春学期《网络爬虫与信息提取》在线作业

资源描述

《南开大学20春学期《网络爬虫与信息提取》在线作业》由会员分享，可在线阅读，更多相关《南开大学20春学期《网络爬虫与信息提取》在线作业（7页珍藏版）》请在金锄头文库上搜索。

1、南开大学20春学期（1709、1803、1809、1903、1909、2003）网络爬虫与信息提取在线作业试卷总分:100 得分:100一、单选题 (共 20 道试题,共 40 分)1.浏览器用来记录用户状态信息的数据叫A.sessionB.cookiesC.moonpiesD.selenium答案:B2.()是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body答案:A3.如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个()A.列表B.元组C.字典D.集合答案:A4.下列关于mitm

2、proxy的安装说法错误的是()A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python 3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装答案:C5.()是Scrapy官方开发的,用来部署、运行和管理Scrapy爬虫的工具A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_D

3、eploy答案:A6.PyMongo中逻辑查询表示大于的符号是()A.$gtB.$ltC.$gte$lte答案:A7.Python中把列表转换为集合需要使用#函数A.setB.listC.convertD.change答案:A8.Redis中往集合中添加数据,使用关键字()A.saddB.addC.appendD.sappend答案:A9.下面Python代码输出为(): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.for

4、mat(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100答案:B10.Python写CSV文件需要哪个方法()A.CSVWriterB.CsvWriterC.DictWriterD.FileWriter答案:C11.使用python定制mitmproxy,下面的语句请求的是()。req.headersUser-AgentA.headersB.文本内容C.目标网站D

5、.user-agent答案:D12.Python中若定义object=1, 2, 3, 4, 5,则print(object:3)输出()A.12B.123C.23D.234答案:B13.当需要把Python里面的数据发送给网页时,应先将其转换成()A.Json字符串B.GETC.POSTD.Request答案:A14.以下表示请求资源找不到的HTTP状态码为A.200B.301C.404D.500答案:C15.Redis若要进入交互环境,需要打开终端输入()A.redis-cliB.redisC.redis-cmdD.redis-start答案:A16.Scrapy_redis是Scrapy

6、的“()”,它已经封装了使用Scrapy操作Redis的各个方法A.组件B.模块C.控件D.单元答案:A17.xpath中extract方法返回值类型是()A.列表B.元组C.字典D.集合答案:A18.下列哪项不是HTTP的请求类型()A.GETB.POSTC.PUTD.SET答案:D19.请问按哪个键可以打开Chrome自带的开发者工具()A.F10B.F1C.F11D.F12答案:D20.以下哪个HTML标签表示定义 HTML 表格中的行()A.B.C.D.答案:C二、多选题 (共 10 道试题,共 20 分)21.Python中一个函数可以有()个return语句A.0B.1C.多个D.

7、2答案:ABCD22.最常见的HTTP请求类型有()A.GETB.POSTC.SENDD.RECEIVE答案:AB23.自动填充验证码的方式有A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别答案:BC24.下列关于在IOS上配置charles的说法正确的是()A.不同ios设备之间会有比较大的差别，所以配置的时候需要找到对应的安装证书的入口。B.手机和电脑需要在同一个局域网下。C.HTTP代理可以使用“自动”选项。D.安装好证书以后，打开iOS设备上的任何一个App，可以看到Charles中有数据包在流动答案:BD25.Python中()与元组由类似的数据读取方式A.字符串B.列表C

8、.字典D.集合答案:AB26.Python中有哪些实现多线程方法()A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB答案:AB27.要使用tesseract来进行图像识别,需要安装两个第三方库A.requestsB.beautifulsoupC.PillowD.pytesseract答案:CD28.BS4可以用来从()中提取数据A.HTMLB.XMLC.数据库D.JSON答案:AB29.Python中()容器有推导式A.列表B.元组C.字典D.集合答案:ACD30.Redis中的值可以支持()A.列表B.哈希C.集合D.有序集

9、合答案:ABCD三、判断题 (共 20 道试题,共 40 分)31.MongoDB在频繁读写方面优于Redis答案:错误32.Redis的集合与Python的集合一样,没有顺序,值不重复答案:正确33.插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1答案:错误34.Python中写CSV文件的writerow方法参数为包含字典的列表类型答案:错误35.在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server答案:错误36.Selenium必须加载对应的webdr

10、iver才能模拟浏览器访问答案:正确37.数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击答案:正确38.网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。答案:错误39.Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据;答案:正确40.charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。答案:正确41.如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司

11、股票并赚了一笔钱。这是合法的。答案:正确42.在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容答案:正确43.在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装答案:错误44.MongoDB是一个关系数据库产品答案:错误45.Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。答案:正确46.robots.txt是一种规范,在法律范畴内答案:错误47.当运行爬虫代码后,出现Forbidden by robots.txt提示后,说明当前时间段被爬取的网站无法访问。答案:错误48.process_spider_output(response, result, output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用答案:错误49.MongoDB支持对查询到的结果进行排序。排序的方法为sort()。它的格式为: handler.find().sort(列名, 1或-1或0)答案:错误50.当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了答案:错误

展开阅读全文