南开大学22春《网络爬虫与信息提取》综合作业二答案参考19

上传人:壹****1 文档编号:499531167 上传时间:2022-11-26 格式:DOCX 页数:13 大小:14.12KB
返回 下载 相关 举报
南开大学22春《网络爬虫与信息提取》综合作业二答案参考19_第1页
第1页 / 共13页
南开大学22春《网络爬虫与信息提取》综合作业二答案参考19_第2页
第2页 / 共13页
南开大学22春《网络爬虫与信息提取》综合作业二答案参考19_第3页
第3页 / 共13页
南开大学22春《网络爬虫与信息提取》综合作业二答案参考19_第4页
第4页 / 共13页
南开大学22春《网络爬虫与信息提取》综合作业二答案参考19_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《南开大学22春《网络爬虫与信息提取》综合作业二答案参考19》由会员分享,可在线阅读,更多相关《南开大学22春《网络爬虫与信息提取》综合作业二答案参考19(13页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取综合作业二答案参考1. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案:B2. XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。( )T.对F.错参考答案:F3. 使用BeautifulSoup对象后可以使用( )来查找内容A.find_allB.findC.searchD.search_all参考答案:AB4. 当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无

2、法访问。( )当运行爬虫代码后,出现“Forbidden by robots.txt”提示后,说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案:B5. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案:T6. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案:A7. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案:F8. 如果使用Python的数据结构来做类比的话,MongoDB中库相当于一个( )。A.列表B.元组C.字典D.集合参考答案:C9. Python中Object=

3、(1,2,3,4,5),则Objcet是( )。A.列表B.元组C.字典D.集合参考答案:B10. 在使用多线程处理问题时,线程池设置越大越好。( )A.正确B.错误参考答案:B11. Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )A.正确B.错误参考答案:B12. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答

4、案:C13. Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。( )T.对F.错参考答案:T14. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )A.403B.404C.500D.503参考答案:AB15. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为:handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort

5、( )。它的格式为:handler.find( ).sort(列名, 1或-1或0)。( )A.正确B.错误参考答案:B16. MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )A.正确B.错误参考答案:B17. 为了在安卓手机上安装证书,需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令,可以将Charles的证书保存到计算机桌面。( )T.对F.错参考

6、答案:T18. HTTP常用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案:CD19. 下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.for

7、mat(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案:B20. 在Scrapy的目录下,哪个文件负责存放爬虫文件?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:A21. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案:B22. 当使用Scarpy创建爬虫时,当

8、爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案:B23. 以下HTTP状态码表示服务器没有正常返回结果的是( )。A.200B.301C.404D.500参考答案:BCD24. Python中若定义object=(1,2,3,4,5),则print(object:3)输出( )。A.345B.34C.45D.123参考答案:C25. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的sr

9、c文件夹中的redis-server文件启动redis服务 src/redis-server。( )在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )A.正确B.错误参考答案:B26. 使用异步加载技术的网站,被加载的内容可以在源代码中找到。( )T.对F.错参考答案:F27. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:B28. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D

10、.浏览器自动识别参考答案:BC29. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B30. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-Agent使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D31. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考

11、答案:AB32. robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B33. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求,可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案:C34. process_spider_output(response,result,output)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案:B35. 在Scrapy的目录下,哪个文件负责定义需要爬取的数据?( )A.spiders文件夹B.item.pyC.pi

12、peline.pyD.settings.py参考答案:B36. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案:AB37. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案:A38. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB39. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward( )。( )T.对F.错参考答案:F40. 在charles中

13、使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案:F41. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A42. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案:B43. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案:F44. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案:T45. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案:B46. 如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程。( )T.对F.错参考答案:F47. 通常使用( )工具来模拟浏览器进行爬虫请求A

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号