南开大学22春《网络爬虫与信息提取》离线作业一及答案参考37

资源描述

《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考37》由会员分享，可在线阅读，更多相关《南开大学22春《网络爬虫与信息提取》离线作业一及答案参考37（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学22春网络爬虫与信息提取离线作业一及答案参考1. 如果爬虫爬取的是商业网站，并且目标网站使用了反爬虫机制，那么强行突破反爬虫机制可能构成( )。A.非法侵入计算机系统罪B.非法获取计算机信息系统数据罪C.非法获取计算机数据罪D.非法获取系统罪参考答案：AB2. 以下哪些方法属于Python写CSV文件的方法?( )A.writeheadersB.writeheaderC.writerrowsD.writerow参考答案：ACD3. 下面Python代码输出为( )：def default_para_without_trap(para=, value=0): if not para: p

2、下面Python代码输出为( )：def default_para_without_trap(para=, value=0): if not para: para = para.append(value) return para print(第一步:.format(default_para_trap(value=100) print(第二步:.format(default_para_trap(value=50)A.第一步:100 第二步:100,50B.第一步:100 第二步:50C.第一步:100 第二步:D.第一步:100 第二步:100参考答案：B4. 如果很多爬虫同时对一个网站全速爬取

3、，那么其实就是对网站进行了( )攻击。A.XSSB.DOSC.DDOSD.跨域参考答案：C5. 在Linux的终端使用apt-get命令安装一系列依赖库时，其中如果存在有已经安装的库，会覆盖掉之前的库重新安装。( )A.正确B.错误参考答案：B6. 在charles中使用CTRL+F搜索，JSON里面的中文是可以直接搜索到的。( )T.对F.错参考答案：F7. 以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )以下哪个命令是利用URL语法在命令行下工作的文件传输工具( )A.curlB.tar -zxvfC.mkdirD.cp参考答案：A8. 当需要把Python里面的数据发送给网

4、页时，应先将其转换成( )。A.Json字符串B.GETC.POSTD.Request参考答案：A9. Python中把列表转换为集合需要使用( )函数。A.setB.listC.convertD.change参考答案：A10. Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )Python中写CSV文件的writerow方法参数为包含字典的列表类型。( )A.正确B.错误参考答案：B11. Python中( )与元组由类似的数据读取方式。Python中( )与元组由类似的数据读取方式。A.字符串B.列表C.字典D.集合参考答案：AB12. scrapy与sele

5、nium结合可以实现直接处理需要异步加载的页面。( )T.对F.错参考答案：T13. ( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。( )是Scrapy官方开发的，用来部署、运行和管理Scrapy爬虫的工具。A.ScrapydB.ScrapyDeployC.DeployD.Scrapy_Deploy参考答案：A14. 下列说法错误的是( )。A.小程序的请求极其简单，基本上没有验证信息B.用Python来请求小程序的后台接口从而获取数据，比请求异步加载网页的后台接口要复杂很多C.如果目标网站有微信小程序，那么一定要优先调查能否通过小程序的接口来抓取数据D.小程序的

6、反爬虫能力比网页版的低很多。使用小程序的接口来爬数据，能极大提高爬虫的开发效率参考答案：D15. 在安装Scarpy的依赖库时，由于Visual C+ Build Tools的安装速度很慢，为了节省时间，可以和安装Twisted同时进行。( )T.对F.错参考答案：F16. Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B17. 常用的会话跟踪技术是( )A.sessionB.cookiesC.moonpiesD.localstorage参考答案：AB18. 在有spiders何setting.py这两项

7、的情况下，可以写出爬虫并且保存数据，items.py和pipelines.py文件是原作者的失误而导致的冗余文件。( )T.对F.错参考答案：F19. Python中列表可以用( )方法在末尾添加元素。A.addB.appendC.plusD.+参考答案：B20. 在Linux中哪个命令是添加权限的( )A.chmodB.sudoC.cpD.mkdir参考答案：A21. HTTP常用状态码表明表明客户端是发生错误的原因所在的有( )。A.403B.404C.500D.503参考答案：AB22. 要使用Python来操作UI Automator从而控制手机，需要安装一个第三方库( )A.uiau

8、tomatorB.automatorC.ui_automatorD.pyautomator参考答案：A23. 通用网络爬虫通常采用串行工作方式。( )A.正确B.错误参考答案：B24. 插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。( )A.正确B.错误参考答案：B25. 使用Selennium获取网页中元素的方法有( )。A.find_element_by_nameB.find_element_by_idC.find_elements_by_nameD.find_ele

9、ments_by_id参考答案：ABCD26. Selenium必须加载对应的webdriver才能模拟浏览器访问。( )Selenium必须加载对应的webdriver才能模拟浏览器访问。( )A.正确B.错误参考答案：A27. 如果使用Python的数据结构来做类比的话，MongoDB中库相当于一个( )。A.列表B.元组C.字典D.集合参考答案：C28. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。A.metaB.headC.headerD.body参考答案：A29. Python正则表达式模块的findall方法提取内容包含多个，则返回结

10、果的列表中会包含( )Python正则表达式模块的findall方法提取内容包含多个，则返回结果的列表中会包含( )A.列表B.元组C.字典D.集合参考答案：B30. Python中Object=&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;，则Objcet.get(&39;boj_1&39;,&39;3&39;)是( )Python中Object=obj_1:1,obj_2:2，则Objcet.get(boj_1,3)是( )A.1B.2C.3D.无输出参考答案：A31. 使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发

11、出直接抓取App后台和小程序后台的爬虫。( )使用Charles，可以轻松截获手机App和微信小程序的数据包，从而开发出直接抓取App后台和小程序后台的爬虫。( )A.正确B.错误参考答案：A32. 虽然MongoDB相比于MySQL来说，速度快了很多，但是频繁读写MongoDB还是会严重拖慢程序的执行速度。( )T.对F.错参考答案：T33. Python可以将列表或字典转换成Json字符串。( )T.对F.错参考答案：T34. cookies在http请求中是明文传输的。( )T.对F.错参考答案：T35. Charles是一个收费软件，如果没有注册，安装以后的前30天可以正常使用。30天

12、以后，虽然功能不会缩水，但每过30分钟Charles会自动关闭一次。( )A.正确B.错误参考答案：A36. 使用异步加载技术的网站，被加载的内容可以在源代码中找到。( )T.对F.错参考答案：F37. Redis中的值可以支持( )。A.列表B.哈希C.集合D.有序集合参考答案：ABCD38. Redis中往集合中读数据，使用关键字( )A.popB.spopC.lpopD.range参考答案：B39. 使用UI Automator获滚动屏幕的操作是得到相应控件后使用命令( )A.scrollB.scroll_upC.scroll_forwordD.scroll_back参考答案：A40.

13、以下表示请求正常处理的HTTP状态码为( )以下表示请求正常处理的HTTP状态码为( )A.200B.301C.404D.500参考答案：A41. 网络爬虫的用途有( )。A.收集数据B.尽职调查C.提高流量D.攻击服务器参考答案：ABC42. Python操作CSV文件可通过( )容器的方式操作单元格。A.列表B.元组C.字典D.集合参考答案：C43. Redis中从集合中查看有多少个值，用关键字( )。A.scardB.cardC.countD.distinct参考答案：A44. 最常见的HTTP请求类型有( )最常见的HTTP请求类型有( )A.GETB.POSTC.SENDD.RECEIVE参考答案：AB45. 自己能查看的数据，允许擅自拿给第三方查看。( )T.对F.错参考答案：F46. Python中退出循环应用关键字( )。A.breakB.continueC.exitD.return参考答案：A47. Redis中查询列表长度命令llen中l代表left，即从左侧开始数。( )A.正确B.错误参考答案：B48. 数据抓包就是中间人爬

展开阅读全文

南开大学22春《网络爬虫与信息提取》离线作业一及答案参考37

最新文档