南开大学21秋《网络爬虫与信息提取》平时作业一参考答案54

上传人:鲁** 文档编号:478887601 上传时间:2023-03-21 格式:DOCX 页数:14 大小:14.26KB
返回 下载 相关 举报
南开大学21秋《网络爬虫与信息提取》平时作业一参考答案54_第1页
第1页 / 共14页
南开大学21秋《网络爬虫与信息提取》平时作业一参考答案54_第2页
第2页 / 共14页
南开大学21秋《网络爬虫与信息提取》平时作业一参考答案54_第3页
第3页 / 共14页
南开大学21秋《网络爬虫与信息提取》平时作业一参考答案54_第4页
第4页 / 共14页
南开大学21秋《网络爬虫与信息提取》平时作业一参考答案54_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21秋《网络爬虫与信息提取》平时作业一参考答案54》由会员分享,可在线阅读,更多相关《南开大学21秋《网络爬虫与信息提取》平时作业一参考答案54(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋网络爬虫与信息提取平时作业一参考答案1. 在Mac OS下安装MongoDB使用命令( )install mongodb。A.brewB.apt-getC.sudoD.apt参考答案:A2. 某些网站在发起Ajax请求时会携带( )字符串用于身份验证某些网站在发起Ajax请求时会携带( )字符串用于身份验证A.TokenB.CookieC.ReqTimeD.sum参考答案:A3. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 AdvanceSpider.middlewares.ProxyMiddleware:543 中的543。( )A.正确B.错误参考答案:A4. Se

2、lenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案:A5. 在Windows中下若要运行Redis可以运行redis-server/usr/local/etc/redis.conf。( )T.对F.错参考答案:F6. Cookies一般包含在请求头Headers中。( )A.正确B.错误参考答案:A7. 带上通过Chrome浏览器从评论页面复制而来的( )再发起请求,可以减少爬虫被网站封锁的概率A.CookieB.HtmlC.HeadersD.CSS参考答案:C8. HTTP常

3、用状态码表明表明服务器本身发生错误的有( )HTTP常用状态码表明表明服务器本身发生错误的有( )A.403B.404C.500D.503参考答案:CD9. 当需要把Python里面的数据发送给网页时,应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案:A10. 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。( )A.正确B.错误参考答案:B11. Scrapy_

4、redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。A.组件B.模块C.控件D.单元参考答案:A12. 使用BeautifulSoup对象后可以使用( )来查找内容A.find_allB.findC.searchD.search_all参考答案:AB13. Charles是一个收费软件,如果没有注册,安装以后的前30天可以正常使用。30天以后,虽然功能不会缩水,但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案:A14. 开源

5、库pytesseract的作用是将图像中文字转换为文本。( )A.正确B.错误参考答案:A15. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案:ABCD16. Python中使用下面代码打开文件也需要对文件进行close关闭操作 with open(文件路径,文件操作方式,encoding=utf-8)as f。( )A.正确B.错误参考答案:B17. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_elements

6、_by_id参考答案:ABCD18. 下面关于Charles使用说法错误的是( )A.在数据包非常多的情况下,使用Charles的过滤功能来对数据包进行过滤从而减少干扰B.通过单击图中方框框住的各个选项卡,可以非常直观地观察到请求和返回的各种信息C.如果浏览器是Chrome,在没有安装第三方代理插件的情况下,Chrome的HTTP流量都会经过CharlesD.Charles无法支持计算机上除了浏览器之外的其他软件参考答案:D19. Python中跳过本次循环应用关键字( )A.breakB.continueC.exitD.return参考答案:B20. PyMongo中的查找方法的参数是哪种数

7、据结构( )A.列表B.元组C.字典D.集合参考答案:C21. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )A.curlB.tar -zxvfC.mkdirD.cp参考答案:A22. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案:T23. Python中把集合转换为列表需要使用( )函数。A.setB.listC.convertD.change参考答案:B24. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )一般来说在页面都通过GET将用户登录信息传递到服务器端。(

8、)A.正确B.错误参考答案:B25. 一般来说在页面都通过GET将用户登录信息传递到服务器端。( )A.正确B.错误参考答案:B26. 以下哪个HTML标签表示定义 HTML 表格中的行( )以下哪个HTML标签表示定义 HTML 表格中的行( )A.B.C.D.参考答案:C27. Python写CSV文件需要哪个方法( )Python写CSV文件需要哪个方法( )A.CSVWriterB.CsvWriterC.DictWriterD.FileWriter参考答案:C28. Python中列表生成以后还可以往里面继续添加数据,也可以从里面删除数据。( )A.正确B.错误参考答案:A29. pr

9、ocess_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request( )的时候调用。( )T.对F.错参考答案:F30. 下面代码一共执行循环多少次( ): for i in range(10): print(i * i)A.9B.10C.11D.0参考答案:B31. 如果很多爬虫同时对一个网站全速爬取,那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案:C32. Python正则表达式中“.*”是贪婪模式,获取最长的满足条件的字符串。( )A.正确B.错误参考答案:A33. C

10、harles和Chrome开发者工具相比,只是多了一个搜索功能。( )T.对F.错参考答案:F34. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案:AB35. PyMongo中逻辑查询表示小于的符号是( )A.$gtB.$ltC.$gte$lte参考答案:B36. 以下哪个HTML标签表示定义文档的主体( )以下哪个HTML标签表示定义文档的主体( )A.divB.bodyC.headD.footer参考答案:B37. 下列说法错误的是( )。A.小程序的请求极其简单,基本上没有验证信息B.用Python来请求小程序的后

11、台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率参考答案:D38. 在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )在中间人攻击中,攻击者可以拦截通信双方的通话,并插入新的内容或者修改原有内容。( )A.正确B.错误参考答案:A39. charles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )ch

12、arles配置中,安装完成证书以后,在设置中打开“关于本机”,找到最下面的“证书信任设置”,并在里面启动对Charles证书的完全信任。( )A.正确B.错误参考答案:A40. 为了保证数据插入效率,在内存允许的情况下,应该一次性把数据读入内存,尽量减少对MongoDB的读取操作。( )T.对F.错参考答案:T41. 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令( )。A.swipeB.moveC.scrollD.fly参考答案:A42. 所有的异步加载都会向后台发送请求。( )T.对F.错参考答案:F43. 对Charles设置代理时,Ip可以设置为127.

13、0.0.1,端口为8888。( )T.对F.错参考答案:T44. 微信小程序的反爬虫能力要比网页的高很多。( )微信小程序的反爬虫能力要比网页的高很多。( )A.正确B.错误参考答案:B45. requests中post请求方法的第二个参数可以为( )requests中post请求方法的第二个参数可以为( )A.字典B.列表C.json数据D.字符串参考答案:AC46. robots.txt是一种规范,在法律范畴内。( )robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案:B47. 设置了这个中间件以后,仍然需要输入账号密码可以成功得到登录以后才能看到的HTML。( )A.正确B.错误参考答案:B48. MongoDB中可以将( )数据结构插入集合中A.列表B.元组C.字典D.集合参考答案:C49. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案:ACD50. robots.txt是一种规范,在法律范畴内。( )A.正确B.错误参考答案

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号