[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享

资源描述

《[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享》由会员分享，可在线阅读，更多相关《[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享（15页珍藏版）》请在金锄头文库上搜索。

1、优质文档精选文档，整理不易，欢迎下载，请勿流传南开大学（本部）网络爬虫与信息提取19 秋期末考核(答案参考）【奥鹏】-南开大学（本部）网络爬虫与信息提取19 秋期末考核试卷总分:100得分:100第 1 题,如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了() 攻击A、XSS B、DOS C、DDOSD、跨域正确答案:第 2 题,以下哪个 HTML 标签表示分区或节() A、B、C、D、正确答案:第 3 题,使用UI Automator 获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()A、content15/15B、text C、title D、body正确答案:第 4

2、题,Python 操作 CSV 文件可通过()容器的方式操作单元格A、列表B、元组 C、字典 D、集合正确答案:第 5 题,Python 中 Object=(1, 2, 3, 4, 5),则 Objcet 是() A、列表B、元组 C、字典 D、集合正确答案:第 6 题,HTTP 常用状态码表明服务器正忙的是() A、500B、503 C、403 D、404正确答案:第 7 题,使用 UI Automator 打开微信的操作是获取相应图标后使用命令() A、touchB、click C、push D、hover正确答案:第 8 题 ,Python 中 Object=obj_1:1,obj

3、_2:2, 则Objcet.get(boj_1,3)是()A、1 B、2 C、3D、无输出正确答案:第 9 题,采用以下()技术可以实现异步加载A、HTMLB、AJAX C、CSS D、HTTP正确答案:第 10 题,网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的, 哪些数据是不可以爬取的()。.A、robot.txt B、robot.html C、robots.txtD、robots.html 正确答案:第 11 题,Chrome 的开发者工具中哪个选项可以查找到 cookies A、ElementsB、SourcesC、NetworkD、Peformance 正确答案:第 1

4、2 题,以下哪个命令是 linux 下解压缩命令() A、curlB、tar -zxvf C、mkdirD、cp正确答案:第 13 题,MongoDB 中数据存储的形式类似于() A、列表B、元组 C、字典 D、集合正确答案:第 14 题,以下哪个 HTML 标签表示定义列表项目()A、B、C、D、正确答案:第 15 题,python 中可以用来将图片中的文字转换为文本的第三方类库是A、lxmlB、requestsC、beautifulsoup D、pytesseract 正确答案:第 16 题,下列哪项不是 HTTP 的请求类型() A、GETB、POST C、PUT D、SET正确答案:

5、第 17 题,以下哪个 HTML 标签表示定义 HTML 表格中的标准单元格() A、B、C、D、正确答案:第 18 题,当爬虫创建好了之后,可以使用”scrapy()” 命令运行爬虫。. A、startupB、starwar C、drawlD、crawl 正确答案:第 19 题,参数headers=(),把请求头添加到Scrapy 请求中,使爬虫的请求看起来像是从浏览器发起的。.A、HEADER B、HEADERS C、HEADD、BODY正确答案:第 20 题,以下哪个命令是利用 URL 语法在命令行下工作的文件传输工具() A、curlB、tar -zxvf C、mkdirD、cp正确答

6、案:第 21 题,MongoDB 中获取名字为 db 的库的语句为() A、client.dbB、client(db) C、clientdb D、clientdb 正确答案:,C第 22 题,以下哪些方法属于 Python 写 CSV 文件的方法() A、writeheadersB、writeheaderC、writerrows D、writerow 正确答案:,C,D第 23 题,下载器中间件的作用有哪些? A、更换代理 IPB、更换 CookiesC、更换 User-Agent D、自动重试正确答案:,B,C,D第 24 题,如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行

7、突破反爬虫机制可能构成()A、非法侵入计算机系统罪B、非法获取计算机信息系统数据罪C、非法获取计算机数据罪D、非法获取系统罪正确答案:,B第 25 题,Python 中()容器有推导式A、列表B、元组C、字典D、集合正确答案:,C,D第 26 题,通用网络爬虫通常采用串行工作方式T、对F、错正确答案:F第 27 题,需要登录的网站一般通过 GET 请求就可以实现登录。T、对F、错正确答案:F第 28 题,代理中间件的可用代理列表一定要写在 settings.py 里面T、对F、错正确答案:F第 29 题,requests 中 get 请求方法的使用为 requests.get( 网址, dat

8、a=data)T、对F、错正确答案:F第 30 题,所有的异步加载都会向后台发送请求T、对F、错正确答案:F第 31 题,在MacOS 下若要运行Redis 可以运行解压以后的文件夹下面的src 文件夹中的 redis-server 文件启动 redis 服务src/redis-server T、对F、错正确答案:F第 32 题,爬虫文件无法从 Pycharm 运行和调试,只能通过命令行的方式运行。T、对F、错正确答案:F第 33 题,爬虫中间件的激活需要另外写一个文件来进行T、对F、错正确答案:F第 34 题,已经创建好的 Scrapy 爬虫*.py 文件可以直接通过 Python 来运行T

9、、对F、错正确答案:F第 35 题,Linux 环境中,Virtualenv 创建的虚拟 Python 环境中,执行 pip 命令安装第三方库就不需要使用 sudo 命令了。T、对F、错正确答案:T第36 题,在Scrapy 的依赖库文件中,pywin32 和Twisted 的底层是基于#开发的。正确答案:第37题,爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware 的顺序号是#正确答案:第 38 题,在 Windows 下运行 Redis 命令为#redis.windows.conf 正确答案:第 39 题,MongoDB

10、如果需要从外网访问数据库，那么需要修改安装 MongoDB 时用到的配置文件#正确答案:第 40 题,lxml 库中 etree 模块的 etree.tostring()方法是做什么用的正确答案:第 41 题,请描述爬虫中的深度优先搜索过程正确答案:(文档整理，多多支持下载，感谢支持) (文档整理，多多支持下载，感谢支持) (文档整理，多多支持下载，感谢支持) (文档整理，多多支持下载，感谢支持) (文档整理，多多支持下载，感谢支持) (文档整理，多多支持下载，感谢支持) (文档整理，多多支持下载，感谢支持) (文档整理，多多支持下载，感谢支持) (文档整理，多多支持下载，感谢支持) (文档整理，多多支持下载，感谢支持)

展开阅读全文

[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享

最新文档