南开大学21秋《网络爬虫与信息提取》平时作业一参考答案58

资源描述

《南开大学21秋《网络爬虫与信息提取》平时作业一参考答案58》由会员分享，可在线阅读，更多相关《南开大学21秋《网络爬虫与信息提取》平时作业一参考答案58（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取平时作业一参考答案1. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案：A2. Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B3. 下列说法错误的是( )。A.小程序的请求极其简单，基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据，比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序，那么一定要优先调查能否通过小程序的接口来抓取数据

2、D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据，能极大提高爬虫的开发效率参考答案：D4. 使用Nginx反向代理到Scrapyd以后，Scrapyd本身只需要开通内网访问即可，不许经过输入密码。( )A.正确B.错误参考答案：A5. 在有spiders何setting.py这两项的情况下，可以写出爬虫并且保存数据，items.py和pipelines.py文件是原作者的失误而导致的冗余文件。( )T.对F.错参考答案：F6. 当爬虫创建好了之后，可以使用“scrapy( )”命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案：D7. 下面P

3、ython代码输出为( ): def default_para_without_trap(para=, value=0): if not para:下面Python代码输出为( ): def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,

4、50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案：B8. 下面Python代码输出为( )：def default_para_trap(para=, value=0):para.append(value)return下面Python代码输出为( )：def default_para_trap(para=, value=0):para.append(value)return paraprint(第一步:.format(default_para_trap(value=100)print(第二步:.format(default_para_tr

5、ap(value=50)A.第一步:100第二步:100,50B.第一步:100第二步:50C.第一步:100第二步:D.第一步:100第二步:100参考答案：A9. charles配置中，安装完成证书以后，在设置中打开“关于本机”，找到最下面的“证书信任设置”，并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案：T10. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案：F11. 爬虫中间件的作用对象是请求request和返回response。( )爬虫中间件的作用对象是请求request和返回re

6、sponse。( )A.正确B.错误参考答案：B12. Python中若定义object=1， 2， 3， 4， 5，则print(object：3)输出( )Python中若定义object=1， 2， 3， 4， 5，则print(object：3)输出( )A.12B.123C.23D.234参考答案：B13. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )A.settextB.setC.set_textD.text参考答案：C14. 要实现Charles对Android抓包，其过程比i

7、OS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )要实现Charles对Android抓包，其过程比iOS稍微复杂一点。这是因为不同的Andorid设备，安装证书的入口可能不一样。( )A.正确B.错误参考答案：A15. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案：B16. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案：B17.

8、PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案：B18. 在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案：B19. Redis中从集合中查看有多少个值，用关键字( )。A.scardB.cardC.countD.distinct参考答案：A20. BS4可以用来从( )中提取数据A.HTMLB.XMLC.数据库D.JSON参考答案：AB21. 要使用tesseract来进行图像识别，需要安装两个第三方库( )要使用tesseract来进行图像识别，需

9、要安装两个第三方库( )A.requestsB.beautifulsoupC.PillowD.pytesseract参考答案：CD22. Charles和Chrome开发者工具相比，只是多了一个搜索功能。( )T.对F.错参考答案：F23. process_spider_input(response， spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案：F24. Scrapy每一次发起请求之前都会在这里检查网址是否重复。因此如果确实需要再一次爬取数据，在Redis中把这个Key删除即可。( )A.正确B.错误参

10、考答案：A25. 如果通过爬虫抓取某公司网站的公开数据，分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司，从而获得销售收入。这是合法的。( )A.正确B.错误参考答案：A26. RoboMongo是MongoDB的管理软件。( )T.对F.错参考答案：T27. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案：B28. process_spider_output(response，result，output)是在下载器中间件处理完成后

11、，马上要进入某个回调函数parse_xxx( )前调用。( )A.正确B.错误参考答案：B29. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案：C30. 在Linux中哪个命令是添加权限的( )A.chmodB.sudoC.cpD.mkdir参考答案：A31. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案：ABCD32. Redis的集合与Python的集合一样，没有顺序，值不重复。( )Redis的集合与Python的集合一样，没有顺序，值不重复。( )A.正确B.错误参考答案：A33. Python

12、正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B34. robots.txt是一种规范，在法律范畴内。( )A.正确B.错误参考答案：B35. 爬虫登录需要识别验证码可以先把程序关闭，肉眼识别以后再重新运行。( )A.正确B.错误参考答案：B36. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案：ABC37. 插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1

13、。( )T.对F.错参考答案：F38. 爬虫中间件的激活需要另外写一个文件来进行。( )A.正确B.错误参考答案：B39. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案：T40. Charles能截获HTTP和HTTPS的数据包，如果网站使用websocket就可以截获。( )A.正确B.错误参考答案：B41. 使用UI Automator使屏幕向上滚动一屏的操作是得到相应控件后使用命令scroll.vert.forward。( )A.正确B.错误参考答案：B42. Python中把列表转换为集合需要使用( )函数Python中把列表转换为集合需要使用( )函数A.setB.listC.convertD.change参考答案：A43. 以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案：A44. charles配置中，安装完成证书以后，在设置中打开“关于本机”，找到最下面的“证书信任设置”，并在里面启动对Charles证书的完全信任。( )charles配置中，安装完成证书以后，在设置中打开“关于本机”，找到最下面的“证书信任设置”，并在里面启动对Ch

展开阅读全文