南开大学21春《网络爬虫与信息提取》离线作业1辅导答案26

上传人:枫** 文档编号:493979324 上传时间:2023-12-08 格式:DOCX 页数:11 大小:12.57KB
返回 下载 相关 举报
南开大学21春《网络爬虫与信息提取》离线作业1辅导答案26_第1页
第1页 / 共11页
南开大学21春《网络爬虫与信息提取》离线作业1辅导答案26_第2页
第2页 / 共11页
南开大学21春《网络爬虫与信息提取》离线作业1辅导答案26_第3页
第3页 / 共11页
南开大学21春《网络爬虫与信息提取》离线作业1辅导答案26_第4页
第4页 / 共11页
南开大学21春《网络爬虫与信息提取》离线作业1辅导答案26_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学21春《网络爬虫与信息提取》离线作业1辅导答案26》由会员分享,可在线阅读,更多相关《南开大学21春《网络爬虫与信息提取》离线作业1辅导答案26(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春网络爬虫与信息提取离线作业1辅导答案1. 在安装Scarpy的依赖库时,由于Visual C+ Build Tools的安装速度很慢,为了节省时间,可以和安装Twisted同时进行。( )T.对F.错参考答案:F2. PyMongoDB中排序方法sort第二个参数1表示降序。( )T.对F.错参考答案:F3. 如果目标网站本身就是提供公众查询服务的网站,那么使用爬虫是合法合规的。( )A.正确B.错误参考答案:A4. 以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案:A5. robots.tx

2、t是一种规范,在法律范畴内。( )robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B6. Python中有哪些实现多线程方法( )Python中有哪些实现多线程方法( )A.multiprocess.dummyB.threading.ThreadC.processD.PyMongoDB参考答案:AB7. Redis若要进入交互环境,需要打开终端输入( )。A.redis-cliB.redisC.redis-cmdD.redis-start参考答案:A8. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好,于是买入该公司股票并赚了一笔钱。这是合法

3、的。( )A.正确B.错误参考答案:A9. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B10. MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )A.正确B.错误参考答案:B11. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubunt

4、u中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案:C12. Redis中的值可以支持( )Redis中的值可以支持( )A.列表B.哈希C.集合D.有序集合参考答案:ABCD13. requests中get请求方法的使用为requests.get(网址, data=data)。( )T.对F.错参考答案:F14. Charles和Chrome开发者工具相比,只是多了一个搜索功能

5、。( )A.正确B.错误参考答案:B15. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2,则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案:A16. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )。A.403B.404C.500D.503参考答案:AB17. 网站返回的Headers中经常有Cookies,可以用mitmdump

6、脚本使用print函数把Cookies打印出来。( )T.对F.错参考答案:F18. Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )Scrapy作为一个爬虫的框架,它在单机环境下运行时就可以获得最大性能优势。( )A.正确B.错误参考答案:B19. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )T.对F.错参考答案:F20. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T21. 在Scrapy的目

7、录下,哪个文件负责定义需要爬取的数据?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:B22. 下列哪项不是HTTP的请求类型( )下列哪项不是HTTP的请求类型( )A.GETB.POSTC.PUTD.SET参考答案:D23. Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案:AB24. 在MacOS下若要运行Redis可以运行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )在MacOS下若要运行Redis可以运

8、行解压以后的文件夹下面的src文件夹中的redis-server文件启动redis服务 src/redis-server。( )A.正确B.错误参考答案:B25. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案:F26. PyMongo中逻辑查询表示大于的符号是( )PyMongo中逻辑查询表示大于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:A27. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案:B28. 当Charles抓包以后,在Mac OS系统下可以按C

9、ommand+F组合键,在Windows系统下按Ctrl+F组合键打开Charles进行搜索。( )T.对F.错参考答案:T29. Python写CSV文件需要哪个方法( )Python写CSV文件需要哪个方法( )A.CSVWriterB.CsvWriterC.DictWriterD.FileWriter参考答案:C30. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案:C31. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )

10、A.正确B.错误参考答案:B32. 爬虫中间件的激活需要另外写一个文件来进行。( )A.正确B.错误参考答案:B33. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案:A34. HTTP常用状态码表明请求被正常处理的有( )。A.200B.301C.302D.204参考答案:AD35. Python中函数返回值的个数可以是多个。( )A.正确B.错误参考答案:A36. HTTP状态码302表示资源永久重定向。( )T.对F.错参考答案:F37. 当爬虫创建好了之后,可以

11、使用scrapy( )命令运行爬虫。A.startupB.starwarC.drawlD.crawl参考答案:D38. HTTP常用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案:CD39. 使用xpath方法的返回类型是( )。A.列表B.元组C.字典D.集合参考答案:A40. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )T.对F.错参考答案:T41. 当使用Scarpy创建爬虫时,当爬取网易云

12、音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )当使用Scarpy创建爬虫时,当爬取网易云音乐首页信息时,scrapy genspider的第二个参数直接输入就可以了。( )A.正确B.错误参考答案:B42. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B43. Python中( )容器有推导式Python中( )容器有推导式A.列表B.元组C.字典D.集合参考答案:ACD44. Python中定义函数关键字为( )。A.defB.defineC.funcD.function参考

13、答案:A45. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.ProxyMiddleware:543 中的543。( )A.正确B.错误参考答案:A46. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )T.对F.错参考答案:T47. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案:T48. cookies的缺点是( )。A.实现自动登录B.跟踪用户状态C.http中明文传输D.增加http请求的流量参考答案:CD49. Python中若定义object=12345,则print(object:-1)输出( )Python中若定义object=12345,则print(object:-1)输出( )A.1B.5C.54321D.程序报错参考答案:C50. 如果使用Python的数据结构来做类比的话,MongoDB中集合相当于一个( )如果使用Python的数据结构来做

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号