[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)

上传人:不吃****猫 文档编号:126791374 上传时间:2020-03-27 格式:DOC 页数:7 大小:56.50KB
返回 下载 相关 举报
[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)_第1页
第1页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)》由会员分享,可在线阅读,更多相关《[南开大学(本部)]《网络爬虫与信息提取》19秋期末考核(答案参考)(7页珍藏版)》请在金锄头文库上搜索。

1、 谋学网 【奥鹏】-南开大学(本部)网络爬虫与信息提取19秋期末考核试卷总分:100 得分:100第1题,如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了()攻击A、XSSB、DOSC、DDOSD、跨域正确答案:C第2题,以下哪个HTML标签表示分区或节()A、B、C、D、正确答案:A第3题,使用UI Automator获取屏幕上显示的文本内容的操作是得到相应控件后使用命令()A、contentB、textC、titleD、body正确答案:B第4题,Python操作CSV文件可通过()容器的方式操作单元格A、列表B、元组C、字典D、集合正确答案:C第5题,Python中Objec

2、t=(1, 2, 3, 4, 5),则Objcet是()A、列表B、元组C、字典D、集合正确答案:B第6题,HTTP常用状态码表明服务器正忙的是()A、500B、503C、403D、404正确答案:B第7题,使用UI Automator打开微信的操作是获取相应图标后使用命令()A、touchB、clickC、pushD、hover正确答案:B第8题,Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是()A、1B、2C、3D、无输出正确答案:A第9题,采用以下()技术可以实现异步加载A、HTMLB、AJAXC、CSSD、HTTP正确答案:B第1

3、0题,网站根目录中哪个文件里面的内容会告诉爬虫哪些数据是可以爬取的,哪些数据是不可以爬取的()。A、robot.txtB、robot.htmlC、robots.txtD、robots.html正确答案:C第11题,Chrome的开发者工具中哪个选项可以查找到cookiesA、ElementsB、SourcesC、NetworkD、Peformance正确答案:C第12题,以下哪个命令是linux下解压缩命令()A、curlB、tar -zxvfC、mkdirD、cp正确答案:B第13题,MongoDB中数据存储的形式类似于()A、列表B、元组C、字典D、集合正确答案:C第14题,以下哪个HTM

4、L标签表示定义列表项目()A、B、C、D、正确答案:B第15题,python中可以用来将图片中的文字转换为文本的第三方类库是A、lxmlB、requestsC、beautifulsoupD、pytesseract正确答案:D第16题,下列哪项不是HTTP的请求类型()A、GETB、POSTC、PUTD、SET正确答案:D第17题,以下哪个HTML标签表示定义 HTML 表格中的标准单元格()A、B、C、D、正确答案:D第18题,当爬虫创建好了之后,可以使用scrapy() 命令运行爬虫。A、startupB、starwarC、drawlD、crawl正确答案:D第19题,参数headers=(

5、),把请求头添加到Scrapy请求中,使爬虫的请求看起来像是从浏览器发起的。A、HEADERB、HEADERSC、HEADD、BODY正确答案:B第20题,以下哪个命令是利用URL语法在命令行下工作的文件传输工具()A、curlB、tar -zxvfC、mkdirD、cp正确答案:A第21题,MongoDB中获取名字为db的库的语句为()A、client.dbB、client(db)C、clientdbD、clientdb正确答案:A,C第22题,以下哪些方法属于Python写CSV文件的方法()A、writeheadersB、writeheaderC、writerrowsD、writerow

6、正确答案:A,C,D第23题,下载器中间件的作用有哪些?A、更换代理IPB、更换CookiesC、更换User-AgentD、自动重试正确答案:A,B,C,D第24题,如果爬虫爬取的是商业网站,并且目标网站使用了反爬虫机制,那么强行突破反爬虫机制可能构成()A、非法侵入计算机系统罪B、非法获取计算机信息系统数据罪C、非法获取计算机数据罪D、非法获取系统罪正确答案:A,B第25题,Python中()容器有推导式A、列表B、元组C、字典D、集合正确答案:A,C,D第26题,通用网络爬虫通常采用串行工作方式T、对F、错正确答案:F第27题,需要登录的网站一般通过GET请求就可以实现登录。T、对F、错

7、正确答案:F第28题,代理中间件的可用代理列表一定要写在settings.py里面T、对F、错正确答案:F第29题,requests中get请求方法的使用为requests.get(网址, data=data)T、对F、错正确答案:F第30题,所有的异步加载都会向后台发送请求T、对F、错正确答案:F第31题,在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务src/redis-serverT、对F、错正确答案:F第32题,爬虫文件无法从Pycharm运行和调试,只能通过命令行的方式运行。T、对F、错正确答案:F第33题,

8、爬虫中间件的激活需要另外写一个文件来进行T、对F、错正确答案:F第34题,已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行T、对F、错正确答案:F第35题,Linux环境中,Virtualenv创建的虚拟Python环境中,执行pip命令安装第三方库就不需要使用sudo命令了。T、对F、错正确答案:T第36题,在Scrapy的依赖库文件中,pywin32和Twisted的底层是基于#开发的。正确答案:第37题,爬虫中间件scrapy.spidermiddlewares.urllength.UrlLengthMiddleware的顺序号是#正确答案:第38题,在Windows下运行Redis命令为#redis.windows.conf正确答案:第39题,MongoDB如果需要从外网访问数据库,那么需要修改安装MongoDB时用到的配置文件#正确答案:第40题,lxml库中etree模块的etree.tostring()方法是做什么用的正确答案:第41题,请描述爬虫中的深度优先搜索过程正确答案:

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号