南开大学20秋《网络爬虫与信息提取》在线作业(参考答案)

资源描述

《南开大学20秋《网络爬虫与信息提取》在线作业(参考答案)》由会员分享，可在线阅读，更多相关《南开大学20秋《网络爬虫与信息提取》在线作业(参考答案)（12页珍藏版）》请在金锄头文库上搜索。

1、1.()是 Scrapy 官方开发的，用来部署、运行和治理 Scrapy 爬虫的工具。A.Scrapyd B.ScrapyDeploy C.Deploy D.Scrapy_Deploy答案：A2. 当爬虫创立好了之后，可以使用“scrapy()”命令运行爬虫。A.startupB.starwar C.drawl D.crawl答案：D3. 在 Scrapy 的名目下，哪个文件负责存放爬虫的各种配置信息?() A.spiders 文件夹B.item.py C.pipeline.py D.settings.py答案：D4. 使用 UI Automatorr 依据坐标来滑动桌面的操作是得到相应控件后

2、使用命令()。A.swipeB.move C.scroll D.fly答案：A5. windows 中创立定时任务的命令为()。A.task B.schtasks C.createtasks D.maketasks答案：B6. MongoDB 中数据存储的形式类似于()。A.列表B.元组C.字典D.集合答案：C7. requests 中 post 恳求方法的使用为 requests.post(网址， data=data)中的 data 为()。A.列表B.元组C.字典D.集合答案：C8. Python 中把列表转换为集合需要使用()函数。A.setB.list C.convert D.chan

3、ge答案：A9. 使用了 RedisSpider 作为爬虫的父类以后，爬虫会直接监控()中的数据，并不读取 start_urls 中的数据。A.Redis B.RedisSpider C.Spider D.MongoDB答案：A10. 在 Mac OS 下安装 MongoDB 使用命令()install mongodb。A.brewB.apt-get C.sudo D.apt答案：A11. 当需要把 Python 里面的数据发送给网页时，应先将其转换成()。A.Json 字符串B.GET C.POSTD.Request 答案：A12. 效劳器端记录信息确定用户身份的数据是()。A.sessio

4、nB.cookies C.moonpies D.localstorage答案：A13. 以下说法错误的选项是()。A. 小程序的恳求极其简洁，根本上没有验证信息B. 用 Python 来恳求小程序的后台接口从而猎取数据，比恳求异步加载网页的后台接口要简单很多C. 假设目标网站有微信小程序，那么肯定要优先调查能否通过小程序的接口来抓取数据D. 小程序的反爬虫力量比网页版的低很多。使用小程序的接口来爬数据，能极大提高爬虫的开发效率答案：D14. 下面 Python 代码输出为()：def default_para_trap(para=， value=0):para.append(value)ret

5、urn paraprint(第一步:.format(default_para_trap(value=100)print(其次步:.format(default_para_trap(value=50)A.第一步:100其次步:100，50B.第一步:100其次步:50C.第一步:100其次步:D.第一步:100其次步:100 答案：A15. 在 Scrapy 的名目下，哪个文件负责存放爬虫文件?() A.spiders 文件夹B.item.py C.pipeline.py D.settings.py答案：A16. xpath 中 extract 方法返回值类型是()。A.列表B.元组C.字典D.

6、集合答案：A17. 参数 headers=()，把恳求头添加到 Scrapy 恳求中，使爬虫的恳求看起来像是从扫瞄器发起的。A.HEADER B.HEADERS C.HEAD D.BODY答案：B18. Python 中 Object=(1，2，3，4，5)，那么 Objcet 是()。A.列表B.元组C.字典D.集合答案：B19. 在 Scrapy 的名目下，哪个文件负责定义需要爬取的数据?() A.spiders 文件夹B.item.py C.pipeline.py D.settings.py答案：B20. Scrapy 中使用 Xpath 获得的结果调用了.extract 方法，结果以(

7、)形式生成。A.列表B.元组C.字典D.集合答案：A21. Python 中的容器有()。A.列表B.元组C.字典D.集合答案：ABCD22. 使用 Selennium 猎取网页中元素的方法有()。A.find_element_by_nameB.find_element_by_id C.find_elements_by_name D.find_elements_by_id答案：ABCD23. 一个可行的自动更换代理的爬虫系统，应当以下哪些功能?()A. 有一个小爬虫 ProxySpider 去各大代理网站爬取免费代理并验证，将可以使用的代理 IP 保存到数据库中B. 在觉察某个恳求已经被设置过

8、代理后，什么也不做，直接返回C. 在 ProxyMiddlerware 的 process_request 中，每次从数据库里面随机选择一条代理 IP 地址使用D. 周期性验证数据库中的无效代理，准时将其删除答案：ACD24. 以下关于在 IOS 上配置 charles 的说法正确的选项是()。A. 不同 ios 设备之间会有比较大的差异，所以配置的时候需要找到对应的安装证书的入口B. 手机和电脑需要在同一个局域网下C. 代理可以使用“自动”选项D.安装好证书以后，翻开 iOS 设备上的任何一个 App，可以看到 Charles 中有数据包在流淌答案：BD25. 以下说法错误的选项是()。A.

9、 mitmproxy 的强大之处在于它还自带一个 mitmdump 命令。这个命令可以用来运行符合肯定规章的 Python 脚本，并在 Python 脚本里面直接操作和 S 的恳求，以及返回的数据包B. 命令行中执行 mitmdump -s parse_request.py 即可运行 python 脚本C. 使用 python 可以自定义返回的数据包，如 response.headers，就是返回的头部信息D. 假设返回的是 JSON 类型的字符串，python 无法进展解析答案：D26. 以下状态码表示效劳器本身发生错误的选项是()。A.400B.503 C.302 D.500答案：BD

10、27. Python 中哪种容器生成后可以修改内容?() A.列表B.元组C.字典D.集合答案：ACD28. 以下状态码表示效劳器没有正常返回结果的是()。A.200 B.301 C.404 D.500答案：BCD29. 假设目标网站有反爬虫声明，那么对方在被爬虫爬取以后，可以依据()来起诉使用爬虫的公司。A. 效劳器日志B. 数据库日志记录C.程序日志记录 D.效劳器监控答案：ABCD30. requests 中 post 恳求方法的其次个参数可以为()。A.字典B.列表C.json 数据D.字符串答案：AC31. process_spider_output(response，result

11、，output)是在下载器中间件处理完成后，马上要进入某个回调函数 parse_xxx()前调用。()A.正确B.错误答案：B32. 需要登录的网站一般通过 GET 恳求就可以实现登录。()A.正确B.错误答案：B33. Python 中相比于 findall 方法，search 方法对于从超级大的文本里面只找第 1 个数据特别有用，可以大大提高程序的运行效率。()A. 正确B.错误答案：A34. UI Automator Viewer 与 Python uiautomator 可以同时使用。() A.正确B. 错误答案：B35. device.sleep()方法是使用 UI Automato

12、rr 关闭屏幕的命令。() A.正确B.错误答案：A36. 在发送恳求时需要留意 requests 提交的恳求头不能与扫瞄器的恳求头全都，由于这样才能隐蔽好自己到达猎取数据的目的。()A.正确B.错误答案：B37. mitmproxy 的强大之处在于它还自带一个 mitmdump 命令。这个命令可以用来运行符合肯定规章的 Python 脚本。()A. 正确B.错误答案：A38. MongoDB 是一个关系数据库产品。() A.正确B. 错误答案：B39. Python 正那么表达式中“.*?”是非贪欲模式，猎取最短的能满足条件的字符串。()A.正确B.错误答案：A40. Charles 能截获

13、和 S 的数据包，假设网站使用 websocket 就可以截获。()A. 正确B.错误答案：B41. Charles 和 Chrome 开发者工具相比，只是多了一个搜寻功能。() A.正确B. 错误答案：B42. 爬虫中间件的激活需要另外写一个文件来进展。()A. 正确B.错误答案：B43. Cookies 一般包含在恳求头 Headers 中。() A.正确B. 错误答案：A44. 已经创立好的 Scrapy 爬虫*.py 文件可以直接通过 Python 来运行。() A.正确B.错误答案：B45. 假设目标网站本身就是供给公众查询效劳的网站，那么使用爬虫是合法合规的。()A. 正确B.错

14、误答案：A46. Redis 中使用 lrange 读取数据后数据也会删除。() A.正确B. 错误答案：B47. 开源库 pytesseract 的作用是将图像中文字转换为文本。() A.正确B.错误答案：A48. Scrapy 每一次发起恳求之前都会在这里检查网址是否重复。因此假设确实需要再一次爬取数据，在 Redis 中把这个 Key 删除即可。()A.正确B.错误答案：A49. “curl :/爬虫效劳器 IP 地址:6800/cancel.json-d project=工程名-d job=爬虫 JOBID”该命令的作用是启动爬虫。()A. 正确B.错误答案：B50. 中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术。() A.正确B. 错误答案：A

展开阅读全文

南开大学20秋《网络爬虫与信息提取》在线作业(参考答案)

最新文档