南开大学21秋《网络爬虫与信息提取》在线作业二答案参考47

资源描述

《南开大学21秋《网络爬虫与信息提取》在线作业二答案参考47》由会员分享，可在线阅读，更多相关《南开大学21秋《网络爬虫与信息提取》在线作业二答案参考47（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取在线作业二答案参考1. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案：A2. MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为：handler.find( ).sort(&39;列名&39;, 1或-1或0)。( )MongoDB支持对查询到的结果进行排序。排序的方法为sort( )。它的格式为：handler.find( ).sort(列名, 1或-1或0)。( )A.正确B.错误参考答案：B3. process_

2、spider_input(response，spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )A.正确B.错误参考答案：B4. 通用网络爬虫通常采用串行工作方式。( )A.正确B.错误参考答案：B5. Redis的集合与Python的集合一样，没有顺序，值不重复。( )Redis的集合与Python的集合一样，没有顺序，值不重复。( )A.正确B.错误参考答案：A6. robots.txt是一种规范，在法律范畴内。( )robots.txt是一种规范，在法律范畴内。( )A.正确B.错误参考答案：B7. MongoDB在频繁读写方

3、面优于Redis。( )MongoDB在频繁读写方面优于Redis。( )A.正确B.错误参考答案：B8. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下，使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡，可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome，在没有安装第三方代理插件的情况下，Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案：D9. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.

4、metaB.headC.headerD.body参考答案：A10. 网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案：F11. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案：A12. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpies

5、D.localstorage参考答案：A13. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案：A14. cookies的缺点是( )。A.实现自动登录B.跟踪用户状态C.http中明文传输D.增加http请求的流量参考答案：CD15. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案：A16. 请问按哪个键可以打开Chrome自带的开发者工具( )请问按哪个键可以打开Chrome自带的开发者工具( )A.F

6、10B.F1C.F11D.F12参考答案：D17. lxml库中etree模块的( )方法把Selector对象转换为bytes型的源代码数据。A.etree.tostringB.etree.convertBytesC.etree.toBytesD.etree.convertstring参考答案：A18. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案：AB19. Redis的列表是一个单向队列。( )T.对F.错参考答案：F20. 在Scrapy的目录下，哪个文件负责存放爬虫的各种配置信息?( )A.spiders

7、文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：D21. Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open(文件路径，文件操作方式，encoding=utf-8)as f。( )A.正确B.错误参考答案：B22. requests中post请求方法的第二个参数可以为( )requests中post请求方法的第二个参数可以为( )A.字典B.列表C.json数据D.字符串参考答案：AC23. UI Automator Viewer与Python uiautomator可以同时使用。( )A.正确B.错误参考答案：B24

8、. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求，可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案：C25. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案：B26. 当需要把Python里面的数据发送给网页时，应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案：A27. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案：AB28. 在charles中使用CTRL+F搜索，JSON里面

9、的中文是可以直接搜索到的。( )T.对F.错参考答案：F29. 通用搜索引擎的目标是尽可能大的网络覆盖率，搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案：B30. 要使用tesseract来进行图像识别，需要安装两个第三方库( )要使用tesseract来进行图像识别，需要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案：CD31. 下面Python代码输出为( )：def default_para_trap(para=, value=0):para.append(value)return下面P

10、ython代码输出为( )：def default_para_trap(para=, value=0):para.append(value)return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：A32. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.del

11、ete_oneD.delete_many参考答案：CD33. Python中若定义object=(1，2，3，4，5)，则print(object:3)输出( )。A.345B.34C.45D.123参考答案：C34. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;，则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2，则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案：A35. 如果目标网站本身就是

12、提供公众查询服务的网站，那么使用爬虫是合法合规的。( )A.正确B.错误参考答案：A36. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements_by_id参考答案：ABCD37. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案：ABC38. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案：BC39. 下列关于mitmprox

13、y的安装说法错误的是( )下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统，使用Homebrew安装mitmproxy，命令为：brew install mitmproxyB.在Ubuntu中，要安装mitmproxy，首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令，只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案：C40. Charles和Chrome开发者工具相比，只是多了一个搜索功能。( )T.对F.错参考答案：F41. robots.txt是一种规范，在法律范畴内。( )A.正确B.错误参考答案：B42. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好，于是买入该公司股票并赚了一笔钱。这是合法的。( )A.正确B.错误参考答案：A43. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案：B44. 使用python定制mitmproxy，下面的语句请求的是( )。req.headersUser

展开阅读全文