南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48

上传人:cn****1 文档编号:512045121 上传时间:2022-11-24 格式:DOCX 页数:14 大小:14.24KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48_第1页
第1页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48_第2页
第2页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48_第3页
第3页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48_第4页
第4页 / 共14页
南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》在线作业二答案参考48(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取在线作业二答案参考1. 当需要把Python里面的数据发送给网页时,应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案:A2. 在Scrapy的目录下,哪个文件负责存放爬虫的各种配置信息?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:D3. 采用以下( )技术可以实现异步加载A.HTMLB.AJAXC.CSSD.HTTP参考答案:B4. Scrapyd可以同时管理多个Scrapy工程里面的多个爬虫的多个版本。( )T.对F.错参考答案:T5. 设置了这个中间件以

2、后,仍然需要输入账号密码可以成功得到登录以后才能看到的HTML。( )A.正确B.错误参考答案:B6. 以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案:A7. 下列关于mitmproxy的安装说法错误的是( )下列关于mitmproxy的安装说法错误的是( )A.对于Mac OS系统,使用Homebrew安装mitmproxy,命令为:brew install mitmproxyB.在Ubuntu中,要安装mitmproxy,首先需要保证系统的Python为Python3.5或者更高版本C.在window

3、s系统中无法使用linux的命令,只能通过下载安装包来安装D.UBUNTU中执行命令 sudo pip3 install mitmproxy 进行安装参考答案:C8. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案:A9. Python中写CSV文件的writerows方法参数为字典类型。( )T.对F.错参考答案:F10. requests中get请求方法的使用为requests.get(

4、网址, data=data)。( )T.对F.错参考答案:F11. PyMongo删除操作有( )PyMongo删除操作有( )A.deleteB.delete_allC.delete_oneD.delete_many参考答案:CD12. 自动填充验证码的方式有( )自动填充验证码的方式有( )A.手动识别填写B.图像识别C.打码网站D.浏览器自动识别参考答案:BC13. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案:A14. 使用UI Automatorr根据坐标来

5、滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A15. MongoDB是一个关系数据库产品。( )A.正确B.错误参考答案:B16. xpath中extract方法返回值类型是( )xpath中extract方法返回值类型是( )A.列表B.元组C.字典D.集合参考答案:A17. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对

6、Charles证书的完全信任。( )A.正确B.错误参考答案:A18. 插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )插入数据时,MongoDB会自动添加一列“_id”,也就是自增ID,每次自动加1。( )A.正确B.错误参考答案:B19. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求,可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案:C20. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )

7、A.settextB.setC.set_textD.text参考答案:C21. 如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程。( )T.对F.错参考答案:F22. 微信小程序的反爬虫能力要比网页的高很多。( )微信小程序的反爬虫能力要比网页的高很多。( )A.正确B.错误参考答案:B23. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案:A24. 通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎

8、服务器资源与网络数据资源互相匹配。( )A.正确B.错误参考答案:B25. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_3&39;,&39;3&39;)是( )A.1B.2C.3D.无输出参考答案:C26. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;,则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2,则Obj

9、cet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案:A27. “curl http:/爬虫服务器IP地址:6800/cancel.json-d project=工程名-d job=爬虫JOBID”该命令的作用是启动爬虫。( )A.正确B.错误参考答案:B28. process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F29. Robo 3T与RoboMongo是完全不一样的软件。( )Robo 3T与RoboMongo是完全不一

10、样的软件。( )A.正确B.错误参考答案:B30. Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个,则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案:B31. Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取。( )A.正确B.错误参考答案:B32. Redis若要进入交互环境,需要打开终端输入( )Redis若要进入交互环境,需要打开终端输入( )A.re

11、dis-cliB.redisC.redis-D.redis-start参考答案:A33. cookies在http请求中是明文传输的。( )cookies在http请求中是明文传输的。( )A.正确B.错误参考答案:A34. Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。( )A.正确B.错误参考答案:A35. 下面Python代码输出为( ):def default_para_without_trap(para=, value=0): if not para: p下面Python代码输出为( ):def default_para_without_trap(para=

12、, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案:B36. HTTP常用状态码表明服务器正忙的是( )。A.500B.503C.403D.404参考答案:B37. 在Scrapy的目录下,哪个文件

13、负责定义需要爬取的数据?( )A.spiders文件夹B.item.pyC.pipeline.pyD.settings.py参考答案:B38. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案:F39. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )A.正确B.错误参考答案:A40. 以下表示请求资源找不到的HTTP状态码为( )以下表示请求资源找不到的HTTP状态码为( )A.200B.301C.404D.500参考答案:C41. 已经创建好的Scrapy爬虫*.py文件可以直接通过Python来运行。( )A.正确B.错误参考答案:B42. MongoDB中获取名字为set1的集合的语句为( )MongoDB中获取名字为set1的集合的语句为( )A.database.set1B.database(set1)C.databaseset1D.databaseset1参考答案:AC43. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:B44. HTTP常用状态码表

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号