南开大学22春《网络爬虫与信息提取》综合作业二答案参考19

资源描述

《南开大学22春《网络爬虫与信息提取》综合作业二答案参考19》由会员分享，可在线阅读，更多相关《南开大学22春《网络爬虫与信息提取》综合作业二答案参考19（13页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取综合作业二答案参考1. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致，因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案：B2. XPath提取出来的内容是一个SelectorList对象，它的第0个元素就是网页的源代码。( )T.对F.错参考答案：F3. 使用BeautifulSoup对象后可以使用( )来查找内容A.find_allB.findC.searchD.search_all参考答案：AB4. 当运行爬虫代码后，出现“Forbidden by robots.txt”提示后，说明当前时间段被爬取的网站无

2、法访问。( )当运行爬虫代码后，出现“Forbidden by robots.txt”提示后，说明当前时间段被爬取的网站无法访问。( )A.正确B.错误参考答案：B5. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案：T6. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案：A7. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案：F8. 如果使用Python的数据结构来做类比的话，MongoDB中库相当于一个( )。A.列表B.元组C.字典D.集合参考答案：C9. Python中Object=

3、(1，2，3，4，5)，则Objcet是( )。A.列表B.元组C.字典D.集合参考答案：B10. 在使用多线程处理问题时，线程池设置越大越好。( )A.正确B.错误参考答案：B11. Scrapy作为一个爬虫的框架，它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架，它在单机环境下运行时就可以获得最大性能优势。( )A.正确B.错误参考答案：B12. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答

4、案：C13. Python中相比于findall方法，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。( )T.对F.错参考答案：T14. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )A.403B.404C.500D.503参考答案：AB15. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为：handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort

5、( )。它的格式为：handler.find( ).sort(列名, 1或-1或0)。( )A.正确B.错误参考答案：B16. MongoDB URI的格式为：mongodb:/服务器IP或域名:端口用户名:密码。( )MongoDB URI的格式为：mongodb:/服务器IP或域名:端口用户名:密码。( )A.正确B.错误参考答案：B17. 为了在安卓手机上安装证书，需要先发送证书到手机里面。在Charles中选择“Help”-“SSL Proxying”-“Save Charles Root Certificate”命令，可以将Charles的证书保存到计算机桌面。( )T.对F.错参考

6、答案：T18. HTTP常用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案：CD19. 下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.for

7、mat(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案：B20. 在Scrapy的目录下，哪个文件负责存放爬虫文件?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：A21. 爬虫的源代码通过公开不会对被爬虫网站造成影响。( )A.正确B.错误参考答案：B22. 当使用Scarpy创建爬虫时，当

8、爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案：B23. 以下HTTP状态码表示服务器没有正常返回结果的是( )。A.200B.301C.404D.500参考答案：BCD24. Python中若定义object=(1，2，3，4，5)，则print(object:3)输出( )。A.345B.34C.45D.123参考答案：C25. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的sr

9、c文件夹中的redis-server文件启动redis服务 src/redis-server。( )在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )A.正确B.错误参考答案：B26. 使用异步加载技术的网站，被加载的内容可以在源代码中找到。( )T.对F.错参考答案：F27. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案：B28. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D

10、.浏览器自动识别参考答案：BC29. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案：B30. 使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-Agent使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案：D31. Python中有哪些实现多线程方法?( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考

11、答案：AB32. robots.txt是一种规范，在法律范畴内。( )A.正确B.错误参考答案：B33. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求，可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案：C34. process_spider_output(response，result，output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案：B35. 在Scrapy的目录下，哪个文件负责定义需要爬取的数据?( )A.spiders文件夹B.item.pyC.pi

12、peline.pyD.settings.py参考答案：B36. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案：AB37. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考答案：A38. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案：AB39. 使用UI Automatorr让屏幕向右滚动的操作是得到相应控件后使用命令scroll.horiz.forward( )。( )T.对F.错参考答案：F40. 在charles中

13、使用CTRL+F搜索，JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案：F41. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )A.正确B.错误参考答案：A42. Python中哪种容器一旦生成就不能修改?( )A.列表B.元组C.字典D.集合参考答案：B43. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-server。( )T.对F.错参考答案：F44. scrapy与selenium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案：T45. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.moonpiesD.selenium参考答案：B46. 如果把网络上发送与接收的数据包理解为快递包裹，那么在快递运输的过程中取出查看更改里面的内容，就是类似抓包的过程。( )T.对F.错参考答案：F47. 通常使用( )工具来模拟浏览器进行爬虫请求A

展开阅读全文