南开大学21春《网络爬虫与信息提取》离线作业1辅导答案70

资源描述

《南开大学21春《网络爬虫与信息提取》离线作业1辅导答案70》由会员分享，可在线阅读，更多相关《南开大学21春《网络爬虫与信息提取》离线作业1辅导答案70（11页珍藏版）》请在金锄头文库上搜索。

1、南开大学21春网络爬虫与信息提取离线作业1辅导答案1. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )A.正确B.错误参考答案：B2. 要使用Python来操作UI Automator从而控制手机，需要安装一个第三方库( )A.uiautomatorB.automatorC.ui_automatorD.pyautomator参考答案：A3. 下面Python代码输出为：( )def default_para_without_trap(para=，value=0):if not para:par下面Python代码

2、输出为：( )def default_para_without_trap(para=，value=0):if not para:para=para.append(value)return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100第二步:100，50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：B4. Python中把集合转换为列表需要使用( )函数。A.setB.listC

3、.convertD.change参考答案：B5. PyMongo更新操作有( )PyMongo更新操作有( )A.updateB.update_allC.update_oneD.update_many参考答案：CD6. HTTP常用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案：CD7. Redis中往集合中读数据，使用关键字( )A.popB.spopC.lpopD.range参考答案：B8. 微信小程序的反爬虫能力要比网页的高很多。( )微信小程序的反爬虫能力要比网页的高很多。( )A.正确B

4、.错误参考答案：B9. 要实现Charles对Android抓包，其过程比iOS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )要实现Charles对Android抓包，其过程比iOS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )A.正确B.错误参考答案：A10. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案：ACD11. 如果把网络上发送与接收的数据包理解为快递包裹，那么在快递运输的过程中取出查看更改里面的内容，

5、就是类似抓包的过程。( )T.对F.错参考答案：F12. 在Scrapy的目录下，哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案：D13. 一个可行的自动更换代理的爬虫系统，应该下列哪些功能?( )A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证，将可以使用的代理IP保存到数据库中B.在发现某个请求已经被设置过代理后，什么也不做，直接返回C.在ProxyMiddlerware的process_request中，每次从数据库里面随机选择一条代理IP地址使用D.周期性验证数据库中

6、的无效代理，及时将其删除参考答案：ACD14. Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”，它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案：A15. 在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )在中间人攻击中，攻击者可以拦截通信双方的通话，并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案：A16. Python中直接对浮点数进行计算有print(0.1+0.2)，则结果为0.3。(

7、 )A.正确B.错误参考答案：B17. Robo 3T与RoboMongo是完全不一样的软件。( )Robo 3T与RoboMongo是完全不一样的软件。( )A.正确B.错误参考答案：B18. HTTP常用状态码表明服务器上没有请求的资源的是( )A.500B.503C.403D.404参考答案：D19. MongoDB中可以将( )数据结构插入集合中A.列表B.元组C.字典D.集合参考答案：C20. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )。A.403B.404C.500D.503参考答案：AB21. Python中有哪些实现多线程方法?( )A.multiproce

8、ss.dummyB.threading.ThreadC.processD.PyMongoDB参考答案：AB22. Python中相比于findall方法，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。( )T.对F.错参考答案：T23. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案：B24. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )在MacOS下若要运行Redis可以运行解压以后的文件

9、夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )A.正确B.错误参考答案：B25. 当需要把Python里面的数据发送给网页时，应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案：A26. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司，从而获得销售收入。这是合法的。( )A.正确B.错误参考答案：A27. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案：F

10、28. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )T.对F.错参考答案：T29. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案：AB30. 插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )T.对F.错参考答案：F31. 通用搜索引擎的目标是尽可能大的网络覆盖率，搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案：B32. 当Charles抓包以后，在Mac OS系统下可以按Command+F组合键，在Windows系统下按Ctrl+F组合键打开

11、Charles进行搜索。( )T.对F.错参考答案：T33. 对Charles设置代理时，Ip可以设置为127.0.0.1，端口为8888。( )T.对F.错参考答案：T34. 在有spiders何setting.py这两项的情况下，可以写出爬虫并且保存数据，items.py和pipelines.py文件是原作者的失误而导致的冗余文件。( )T.对F.错参考答案：F35. Python中以下哪个容器里的元素不能重复( )A.列表B.元组C.字典D.集合参考答案：D36. Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。( )A.正确B.错误参考答案：A37. Mong

12、oDB是一个关系数据库产品。( )A.正确B.错误参考答案：B38. 如果目标网站有反爬虫声明，那么对方在被爬虫爬取以后，可以根据( )来起诉使用爬虫的公司。A.服务器日志B.数据库日志记录C.程序日志记录D.服务器监控参考答案：ABCD39. process_spider_output(response， result， output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调用。( )process_spider_output(response， result， output)是在下载器中间件处理完成后，马上要进入某个回调函数parse_xxx( )前调

13、用。( )A.正确B.错误参考答案：B40. ( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案：A41. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下，使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡，可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome，在没有安装第三方代理插件的情况下，Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案：D42. 服务器端记录信息确定用户身份的数据是( )。A.sessionB.cookiesC.moonpiesD.localstorage参考答案：A43. 自己能查看的数据，允许擅自拿给第三方查看。( )T.对F.错参考答案：F44. 通用网络爬虫通常采用串行工作方式。( )A.正确B.错误参考答案：B45. 以下哪个HTML标签表示定义 HTML 表格中的行( )以下哪个HTML标签表示定义 HTML 表格中的行( )A.B.C.D.

展开阅读全文