南开大学21秋《网络爬虫与信息提取》离线作业2答案第5期

上传人:鲁** 文档编号:552668798 上传时间:2023-08-02 格式:DOCX 页数:11 大小:12.46KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》离线作业2答案第5期_第1页
第1页 / 共11页
南开大学21秋《网络爬虫与信息提取》离线作业2答案第5期_第2页
第2页 / 共11页
南开大学21秋《网络爬虫与信息提取》离线作业2答案第5期_第3页
第3页 / 共11页
南开大学21秋《网络爬虫与信息提取》离线作业2答案第5期_第4页
第4页 / 共11页
南开大学21秋《网络爬虫与信息提取》离线作业2答案第5期_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》离线作业2答案第5期》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》离线作业2答案第5期(11页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取离线作业2-001答案1. MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )MongoDB URI的格式为:mongodb:/服务器IP或域名:端口用户名:密码。( )A.正确B.错误参考答案:B2. XPath提取出来的内容是一个SelectorList对象,它的第0个元素就是网页的源代码。( )T.对F.错参考答案:F3. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案:F4. Python中直接对浮点数进行计算有

2、print(0.1+0.2),则结果为0.3。( )T.对F.错参考答案:F5. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A6. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B7. robots.txt是一种规范,在法律范畴内。( )robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B8. 通用搜索引擎的目标是尽可能大的

3、网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案:B9. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-Agent使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D10. 下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mi

4、tmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在windows系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 installmitmproxy 进行安装参考答案:C11. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 &39;AdvanceSpider.middlewares.ProxyMiddleware&39;: 543中的543。( )T.对F.错参考答案:T12. 浏览器用来记录用户状态信息的数据叫( )浏览器用来记录用户状态信息的数据叫( )A.sessionB.cookiesC.mo

5、onpiesD.selenium参考答案:B13. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )A.正确B.错误参考答案:B14. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B15. 在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致,因为这样才能隐藏好自己达到获取数据的目的。( )A.正确B.错误参考答案:B16. Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大

6、提高程序的运行效率。( )T.对F.错参考答案:T17. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案:B18. cookies在http请求中是明文传输的。( )T.对F.错参考答案:T19. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案:AB20. PyMongo中逻辑查询表示大于的符号是( )PyMongo中逻辑查询表示大于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:A21. Redis中从集合中查看有多少个值,用关键字( )。A.scardB.cardC.countD.d

7、istinct参考答案:A22. 通常使用( )工具来模拟浏览器进行爬虫请求通常使用( )工具来模拟浏览器进行爬虫请求A.SeleniumB.ChromeC.ChromeDriverD.WebDriver参考答案:A23. 如果通过爬虫抓取某公司网站的公开数据,分析以后发现这个公司业绩非常好。于是将数据或者分析结果出售给某基金公司,从而获得销售收入。这是合法的。( )A.正确B.错误参考答案:A24. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B25. 数据抓包就是中间人爬虫的一个简单应

8、用。所以使用Charles也是一种中间人攻击。( )T.对F.错参考答案:T26. Python中直接对浮点数进行计算有print(0.1+0.2),则结果为0.3。( )A.正确B.错误参考答案:B27. 对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888。( )T.对F.错参考答案:T28. 安装mitmdump之前,运行sudo apt-get install python3-dev python3-pip libffi-dev libssl-dev是为了安装必要的运行环境。( )T.对F.错参考答案:T29. Redis插入数据都是插入到列表右侧,因此读取数据

9、也是从右侧读取。( )A.正确B.错误参考答案:B30. HTTP常用状态码表明服务器不允许访问那个资源的是( )A.500B.503C.403D.405参考答案:C31. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B32. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案:B33. 使用xpath方法的返回类型是( )。A.列表B.元组C.字典D.集合参考答案:A34. PyMongo更新操作有( )。A.updateB.update_allC.update_oneD.update_many参考答案:C

10、D35. 使用python定制mitmproxy,下面的语句请求的是( )。req.headersUser-AgentA.headersB.文本内容C.目标网站D.user-agent参考答案:D36. MongoDB 是一个基于分布式文件存储的数据库,速度远快过Redis。( )A.对B.错参考答案:B37. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案:CD38. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案:C39. 带

11、上通过Chrome浏览器从评论页面复制而来的( )再发起请求,可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案:C40. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案:C41. 中间人爬虫就是利用了中间人攻击的原理来实现数据抓取的一种爬虫技术。( )A.正确B.错误参考答案:A42. Python并导入uiautomator来操作设备的语句是from uiautomator import( )Python并导入uiautomator来操作设备的语句是from uiautoma

12、tor import( )A.DeviceB.DevicesC.JobsD.Job参考答案:A43. device.sleep( )方法是使用UI Automatorr关闭屏幕的命令。( )A.正确B.错误参考答案:A44. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案:C45. 使用异步加载技术的网站,被加载的内容可以在源代码中找到。( )T.对F.错参考答案:F46. Robo 3T与RoboMongo是完全不一样的软件。( )Robo 3T与RoboMongo是完全不一样的软件。( )A.正确B.错误参考答案:B47. MongoDB是一个关系数据库产品。( )MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案:B48. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案:A49. 开源库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A50. MongoDB在频繁读写方面优于Redis。( )MongoDB在频繁读写方面优于Redis。( )A.正确B.错误参考答案:B

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号