《网络爬虫与信息提取》20春期末考核-参考答案

资源描述

《《网络爬虫与信息提取》20春期末考核-参考答案》由会员分享，可在线阅读，更多相关《《网络爬虫与信息提取》20春期末考核-参考答案（7页珍藏版）》请在金锄头文库上搜索。

1、最新奥鹏远程南开大学网络爬虫与信息提取20春期末考核-参考答案 - 百度文库网络爬虫与信息提取20春期末考核1. 如果使用Python的数据结构来做类比的话,MongoDB中文档相当于一个( C ) A 列表B 元组C 字典D 集合2. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( C ) A settextB setC set_textD text3. 在Scrapy的目录下,哪个文件负责存放爬虫文件?( A ) A spiders文件夹B item.pyC pipeline.pyD settings.py4. HTTP常用状态码表明服务器正忙的是( B ) A 5

2、00B 503C 403D 4045. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了( C )攻击 A XSSB DOSC DDOSD 跨域6. 使用UI Automatorr判断元素是否存在的操作是得到相应控件后使用命令( B ) A existB existsC isnullD contains7. 带上通过Chrome浏览器从评论页面复制而来的( C )再发起请求,可以减少爬虫被网站封锁的概率A CookieB HtmlC HeadersD CSS8. Redis中查看一个列表长度,使用关键字( C ) A lenB lengthC llenD count9. 使用Xpa

3、th获取文本使用( B ) A textB text()C contentD content()10. 使用python定制mitmproxy,下面的语句请求的是( D )。req.headersUser-Agent A headersB 文本内容C 目标网站D user-agent11. Python中Object=1, 2, 3, 4, 5,则Objcet是( D ) A 列表B 元组C 字典D 集合12. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( D ) A spiders文件夹B item.pyC pipeline.pyD settings.py13. Redis

4、是一个开源的使用( A )语言编写A ANSI CB C+C JAVAD Python14. 某些网站在发起Ajax请求时会携带( A )字符串用于身份验证A TokenB CookieC ReqTimeD sum15. 使用UI Automatorr点亮屏幕的操作是得到相应控件后使用命令( A )A wakeupB lightC brightD sleep16. Chrome的开发者工具中哪个选项可以查找到cookies CA ElementsB SourcesC NetworkD Peformance17. Scrapy中使用Xpath获得的结果调用了.extract方法,结果以( A )

5、形式生成A 列表B 元组C 字典D 集合18. 以下哪个命令是创建文件夹命令( C ) A curlB tar -zxvfC mkdirD cp19. 可以通过( B )绕过网站登录。A sessionB cookiesC moonpiesD localstorage20. Python中把列表转换为集合需要使用#函数 AA setB listC convertD change21. Python中的容器有( ABCD)A 列表B 元组C 字典D 集合22. HTTP常用状态码表明表明服务器本身发生错误的有( CD ) A 403B 404C 500D 50323. Python中哪种容器生成

6、后可以修改内容 ACDA 列表B 元组C 字典D 集合24. 最常见的HTTP请求类型有( AB ) A GETB POSTC SENDD RECEIVE25. BS4可以用来从( AB )中提取数据 A HTMLB XMLC 数据库D JSON26. 在Linux的终端使用apt-get命令安装一系列依赖库时,其中如果存在有已经安装的库,会覆盖掉之前的库重新安装 FT 对F 错27. 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码 TT 对F 错28. process_spider_output(response, result, ou

7、tput)是在下载器中间件处理完成后,马上要进入某个回调函数parse_xxx()前调用 FT 对F 错29. Robo 3T与RoboMongo是完全不一样的软件 FT 对F 错30. Python正则表达式中“.*?”是非贪婪模式,获取最短的能满足条件的字符串。TT 对F 错31. Redis插入数据都是插入到列表右侧,因此读取数据也是从右侧读取 FT 对F 错32. 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行 FT 对F 错33. 在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows

8、.conf启动Redis FT 对F 错34. middlewares.py是下载器中间件 FT 对F 错35. 在charles中使用CTRL+F搜索,JSON里面的中文是可以直接搜索到的。 FT 对F 错36. 使用了RedisSpider作为爬虫的父类以后，爬虫会直接监控#中的数据，并不读取start_urls中的数据。Redis37. 一般通过#表达式来解析网页数据正则38. 实现异步加载需要利用#技术 Ajax39. Python中定义函数关键字为# def40. Python正则表达式中search和findall方法比较search()的用法和findall()的用法一样，但是

9、search()只会返回第1个满足要求的字符串。一旦找到符合要求的内容，它就会停止查找。41. 在MacOS下安装Scrapy，当pip的网络受到干扰导致安装的速度很慢时，应该如何应对？可以使用一些代理工具来让网络变得稳定，例如ProxyChains。42. multiprocessingmultiprocessing本身是Python的多进程库，用来处理与多进程相关的操作43. URIUniform Resource Identifier，统一资源标志符44. CSSCascading Style Sheets，层叠样式表45. HTML HTML是一种结构化的标记语言，可以描述一个网页的结构信息

展开阅读全文