[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享

上传人:碎****木 文档编号:220862918 上传时间:2021-12-09 格式:DOCX 页数:15 大小:14.35KB
返回 下载 相关 举报
[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享_第1页
第1页 / 共15页
[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享_第2页
第2页 / 共15页
[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享_第3页
第3页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享》由会员分享,可在线阅读,更多相关《[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)共享(15页珍藏版)》请在金锄头文库上搜索。

1、优质文档精选文档,整理不易,欢迎下载,请勿流传南开大学(本部)网络爬虫与信息提取19 秋期末考核(答案参考)【奥鹏】-南开大学(本部)网络爬虫与信息提取19 秋期末考核试卷总分:100得分:100第 1 题,如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了() 攻击A、XSS B、DOS C、DDOSD、跨域 正确答案:第 2 题,以下哪个 HTML 标签表示分区或节() A、B、C、D、正确答案:第 3 题,使用UI Automator 获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()A、content15/15B、text C、title D、body正确答案:第 4

2、 题,Python 操作 CSV 文件可通过()容器的方式操作单元格A、列表B、元组 C、字典 D、集合 正确答案:第 5 题,Python 中 Object=(1, 2, 3, 4, 5),则 Objcet 是() A、列表B、元组 C、字典 D、集合 正确答案:第 6 题,HTTP 常用状态码表明服务器正忙的是() A、500B、503 C、403 D、404正确答案:第 7 题,使用 UI Automator 打开微信的操作是获取相应图标后使用命令() A、touchB、click C、push D、hover正确答案:第 8 题 ,Python 中 Object=obj_1:1,obj

3、_2:2, 则Objcet.get(boj_1,3)是()A、1 B、2 C、3D、无输出正确答案:第 9 题,采用以下()技术可以实现异步加载A、HTMLB、AJAX C、CSS D、HTTP正确答案:第 10 题,网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的, 哪些数据是不可以爬取的()。.A、robot.txt B、robot.html C、robots.txtD、robots.html 正确答案:第 11 题,Chrome 的开发者工具中哪个选项可以查找到 cookies A、ElementsB、SourcesC、NetworkD、Peformance 正确答案:第 1

4、2 题,以下哪个命令是 linux 下解压缩命令() A、curlB、tar -zxvf C、mkdirD、cp正确答案:第 13 题,MongoDB 中数据存储的形式类似于() A、列表B、元组 C、字典 D、集合 正确答案:第 14 题,以下哪个 HTML 标签表示定义列表项目()A、B、C、D、正确答案:第 15 题,python 中可以用来将图片中的文字转换为文本的第三方类库是A、lxmlB、requestsC、beautifulsoup D、pytesseract 正确答案:第 16 题,下列哪项不是 HTTP 的请求类型() A、GETB、POST C、PUT D、SET正确答案:

5、第 17 题,以下哪个 HTML 标签表示定义 HTML 表格中的标准单元格() A、B、C、D、正确答案:第 18 题,当爬虫创建好了之后,可以使用”scrapy()” 命令运行爬虫。. A、startupB、starwar C、drawlD、crawl 正确答案:第 19 题,参数headers=(),把请求头添加到Scrapy 请求中,使爬虫的请求看起来像是从浏览器发起的。.A、HEADER B、HEADERS C、HEADD、BODY正确答案:第 20 题,以下哪个命令是利用 URL 语法在命令行下工作的文件传输工具() A、curlB、tar -zxvf C、mkdirD、cp正确答

6、案:第 21 题,MongoDB 中获取名字为 db 的库的语句为() A、client.dbB、client(db) C、clientdb D、clientdb 正确答案:,C第 22 题,以下哪些方法属于 Python 写 CSV 文件的方法() A、writeheadersB、writeheaderC、writerrows D、writerow 正确答案:,C,D第 23 题,下载器中间件的作用有哪些? A、更换代理 IPB、更换 CookiesC、更换 User-Agent D、自动重试正确答案:,B,C,D第 24 题,如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行

7、突破反爬虫机制可能构成()A、非法侵入计算机系统罪B、非法获取计算机信息系统数据罪C、非法获取计算机数据罪D、非法获取系统罪正确答案:,B第 25 题,Python 中()容器有推导式A、列表B、元组C、字典D、集合正确答案:,C,D第 26 题,通用网络爬虫通常采用串行工作方式T、对F、错正确答案:F第 27 题,需要登录的网站一般通过 GET 请求就可以实现登录。T、对F、错正确答案:F第 28 题,代理中间件的可用代理列表一定要写在 settings.py 里面T、对F、错正确答案:F第 29 题,requests 中 get 请求方法的使用为 requests.get( 网址, dat

8、a=data)T、对F、错正确答案:F第 30 题,所有的异步加载都会向后台发送请求T、对F、错正确答案:F第 31 题,在MacOS 下若要运行Redis 可以运行解压以后的文件夹下面的src 文件夹中的 redis-server 文件启动 redis 服务src/redis-server T、对F、错正确答案:F第 32 题,爬虫文件无法从 Pycharm 运行和调试,只能通过命令行的方式运行。T、对F、错正确答案:F第 33 题,爬虫中间件的激活需要另外写一个文件来进行T、对F、错正确答案:F第 34 题,已经创建好的 Scrapy 爬虫*.py 文件可以直接通过 Python 来运行T

9、、对F、错正确答案:F第 35 题,Linux 环境中,Virtualenv 创建的虚拟 Python 环境中,执行 pip 命令安装第三方库就不需要使用 sudo 命令了。T、对F、错正确答案:T第36 题,在Scrapy 的依赖库文件中,pywin32 和Twisted 的底层是基于#开发的。正确答案:第37题,爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware 的顺序号是#正确答案:第 38 题,在 Windows 下运行 Redis 命令为#redis.windows.conf 正确答案:第 39 题,MongoDB

10、如果需要从外网访问数据库,那么需要修改安装 MongoDB 时用到的配置文件#正确答案:第 40 题,lxml 库中 etree 模块的 etree.tostring()方法是做什么用的正确答案:第 41 题,请描述爬虫中的深度优先搜索过程正确答案:(文档整理,多多支持下载,感谢支持) (文档整理,多多支持下载,感谢支持) (文档整理,多多支持下载,感谢支持) (文档整理,多多支持下载,感谢支持) (文档整理,多多支持下载,感谢支持) (文档整理,多多支持下载,感谢支持) (文档整理,多多支持下载,感谢支持) (文档整理,多多支持下载,感谢支持) (文档整理,多多支持下载,感谢支持) (文档整理,多多支持下载,感谢支持)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号