我是大数据欧老师,曾在互联网某大厂任大数据负责人,从业大数据领域近 10 年,全网粉丝 5000+,从很多候选人的面试和咨询中复盘了大数据工程师的面试全流程,如果你有求职大数据工程师的计划,欢迎找我聊一聊!
1.RDD 的概念?RDD 的常见算子?2.Spark 和其他框架的比较?和 Hadoop 的比较?Spark Streaming 和 Flink 的比较?3.Client 提交 vs Cluster 提交模式的区别?4.RDD 持久化等级和含义?5.广播变量实现原理?6.Accumulator 累加器的实现原理?7.repartition vs coalesce ?8.RDD 的宽窄依赖?9.Shuffle 分类和原理?10.Spark 的内存模型?Execution Mem vs Storage Mem? 如果 Mem 不足怎么处理?
1.内存如何调优?2.序列化对性能的影响?场景?例子?3.并行度调优,如何合理设置并行度?4.数据 Locality?存算一体和存算分离的好处?5.Spark Shuffle 的常见优化手段?6.数据倾斜场景和常见优化手段?
到此这篇spark面试题面试题(spark常见面试题)的文章就介绍到这了,更多相关内容请继续浏览下面的相关 推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rfx/77511.html