南开大学21秋《网络爬虫与信息提取》在线作业二答案参考60

上传人:ni****g 文档编号:469314674 上传时间:2022-11-22 格式:DOCX 页数:14 大小:14.62KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考60_第1页
第1页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考60_第2页
第2页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考60_第3页
第3页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考60_第4页
第4页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考60_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》在线作业二答案参考60》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》在线作业二答案参考60(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取在线作业二答案参考1. Python中把集合转换为列表需要使用( )函数。A.setB.listC.convertD.change参考答案:B2. device.sleep( )方法是使用UI Automatorr关闭屏幕的命令。( )A.正确B.错误参考答案:A3. 如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案:AB4. 在请求头中设置User-Agent即可正常请求网站。( )在请求头中设置User-Ag

2、ent即可正常请求网站。( )A.正确B.错误参考答案:B5. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B6. 当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案:B7. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;

3、2&39;,则Objcet.get(&39;boj_3&39;,&39;3&39;)是( )A.1B.2C.3D.无输出参考答案:C8. Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库。( )T.对F.错参考答案:T9. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案:A10. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取。(

4、 )T.对F.错参考答案:F11. 可以通过( )绕过网站登录。A.sessionB.cookiesC.moonpiesD.localstorage参考答案:B12. Python中一个函数可以有( )个return语句。Python中一个函数可以有( )个return语句。A.0B.1C.多个D.2参考答案:ABCD13. PyMongo中逻辑查询表示大于等于的符号是( )PyMongo中逻辑查询表示大于等于的符号是( )A.$gtB.$ltC.$gteD.$lte参考答案:C14. Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )

5、Python中条件语句在使用or连接的多个表达式中,只要有一个表达式为真,那么后面的表达式就不会执行。( )A.正确B.错误参考答案:A15. 如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程。( )T.对F.错参考答案:F16. Python中通过Key来从字典object中读取对应的Value的方法有( )Python中通过Key来从字典object中读取对应的Value的方法有( )A.objectkeyB.object.get(key)C.object.pop(key)D.object.pop( )参考答案:AB17. 如果

6、目标网站有反爬虫声明,那么对方在被爬虫爬取以后,可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案:ABCD18. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B19. Python中若定义object=12345,则print(object:-1)输出( )Python中若定义object=12345,则print(object:-1)输出( )A.1B

7、.5C.54321D.程序报错参考答案:C20. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案:B21. 下面Python代码输出为:( )def default_para_without_trap(para=,value=0):if not para:par下面Python代码输出为:( )def default_para_without_trap(para=,value=0

8、):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案:B22. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。

9、( )A.正确B.错误参考答案:B23. XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。( )T.对F.错参考答案:F24. Python中包含字典的列表页可以转换成JSON字符串。( )Python中包含字典的列表页可以转换成JSON字符串。( )A.正确B.错误参考答案:A25. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个大字典,大字典里面的每一个键值对都对应了一个集合,Key为集合的名字,Value就是一个( )。A.字典B.集合的名字C.集合D.文档参考答案:C26. 下列关于mitmproxy的安装说法错误的

10、是( )下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案:C27. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A28. 参数h

11、eaders=( ),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。A.HEADERB.HEADERSC.HEADD.BODY参考答案:B29. Redis若要进入交互环境,需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案:A30. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案:F31. 在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案:F32.

12、HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )。A.403B.404C.500D.503参考答案:AB33. cookies在http请求中是明文传输的。( )T.对F.错参考答案:T34. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案:D3

13、5. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案:C36. Python中若定义object=“12345”,则print(object:-1)输出( )。A.1B.5C.54321D.程序报错参考答案:C37. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。( )A.正确B.错误参考答案:A38. 使用xpath方法的返回类型是( )。A.列表B.元组C.字典D.集合参考答案:A39. 查看网站请求一般在Chrome开发者模式下的( )选项卡中查看查看网站请求一般在Chrome开发者模式下的( )选项卡中查看A.ConsoleB.SourcesC.NetworkD.Perance参考答案:C40. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T41. 要使用tesseract来进行图像识别,需要安装两个第三方库( )要使用tesseract来进行图像识别,需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案:CD42. 使用BeautifulSoup对象后可以使用( )来查找内

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号