spark吧-百度贴吧--大数据技术培训、Spark核心技术--本贴吧主要介绍大数据开发技术中的Spark核心技术以及运行原理，包括大数据实战经验分享，大数据具体项目剖析！大家有任何问题可以去海牛部落提问

- 本吧吧主火热招募中，点击参加
- 0
  
  [公告]关于撤销后场吴亦凡吧主管理权限的说明
  贴吧吧主...
  6-12
- 0
  
  [公告]关于撤销后场吴亦凡吧主管理权限的说明
  贴吧吧主...
  6-12
3
下载 spark 总是中途崩掉报错如图有偿求大佬帮忙谢谢
贴吧用户_...
9-20
克里斯滕。 9-20
0

spark学习
半场梦 8-26

求大佬告知,目前学spark的话是用java版本好一些还是Scala版本,或python版本好一些. 网上教程的Scala版本比较多,python版本的教程有推荐的么,想系统性学习一下. 感谢各位大佬

半场梦 8-26

1

sparksteraming消费Kafka报error
小小阿陈陈 2022-11

sparksteraming消费Kafka报error： User class threw exception: org.apache.kafka.common.errors.TimeoutException: Timeout of 60000ms expired before the position for partition appbury-9 could be determined 我设置的批处理时间是半个小时。前面几次都正常，运行三四小时之后就报这个错了，很奇怪。在网上都说kafka broker那边出了问题，但是排查一下并没有问题，相关的flink任务（消费同样的topic）也正常跑了，唯独这spark任务出这个问题。有大佬遇见过这个问题吗？跪求解决方式

zy_xixi_ke 8-6
1
spark-shell
吾携秋风... 6-28
有没有人会的，来教教我，
清月孤影0... 6-29
0

spark
ZL剑 6-26

有偿求助spark大作业，有会的吗？私我

清月孤影0... 7-5
6

来问题解答
ipaipi 2023-12

一名专业的代码和程序代写者。拥有多年的编程经验，熟悉Python、Java、Scala种编程语言和大数据知识等。有不懂的可以交流，Hadoop、spark、hive、hbasee、zookeeper、kafka 等都可以

ZL剑 6-26
1
有帮忙可以做这个的吗，有尝
Adam66 6-3
弄心灬 6-7
1
求大佬帮忙
_海边的... 6-1
添加依赖这些加不进去有大佬知道怎么解决吗！！
eiiiiiilI甍 6-6

6

请教一下spark的问题有偿
issssssuu
4-23

如题

懒做又好... 6-4
0
求大佬帮忙
_海边的... 6-1
有佬知道这个报错是什么原因导致的吗
_海边的... 6-1
1

求助，分析spark eventlog lz4格式怎么处理
jj复jj 5-29

用的python pyspark，但是没有办法直接读取lz4的压缩文件，搞不定要被干掉了

jj复jj 5-29
0

求助 spark sql
买个咩猫... 5-16

这就没反应了

买个咩猫... 5-16
1

对dataset排序后获取某一列排名
2522661245lp 4-30

新手小白求教，我现在有一个daraset，假如里面有两个字段，分别是id,score，我按score进行降序排序，现在我要获取id为2用户在这个dataset里面的排名，如何操作

2522661245lp 4-30
3

spark中pyspark与scala一些操作
每天都要... 3-26

各位大佬们，你们好，我想问一下，我搭建了在centos的hadoop集群，然后再hadoop中下载了spark，现在显示的是scala，我应该怎么做可以用pyspark

溯风起天阑 4-27

0

rdd操作
fhfhhghfvg 4-22

有没有spark大神，急急急，我想把一个rdd数据集中同时满足两个特征值的数据都拿出来并且计数，这个命令该怎么写啊

fhfhhghfvg 4-22
11
有偿求助spark作业快速
喵不可言 2022-06
共 5 张
每天都要... 3-26
0
[完结23章]大数据硬核技能进阶 Spark3实战智能物业运营系统下载
uistormsun 2-26
11
uistormsun 2-26
2
2024全薪大数据学习路线图已更新，愿你前程朤朤，扶摇直上！
zyblucker
1-12
好看的狠 2-22
3
求助spark
坚持再坚... 2023-05
请教下各位大佬，在idea中用spark的df读取mongo数据报错，前几天还可以就最近开始报错了，也没动啥
muskl 2-2
1

求贴吧的大佬们指导一下新人
2522661245lp 1-14

最近要做一个网上平台，像那种学校自用的线上课堂，学生可以在平台上看课程。平台上也有一些竞赛的数据，考研的一些资料。有一个模块就是学生能力画像（平台上有学生的课程成绩，竞赛的一些信息记录）。目前准备用springboot框架做，mybatis管理数据库，上面那个模块永spark实现。我之前java就学到了springboot，大数据方面是零基础，我现在应该按什么学习线路去学习。我看了哔哩哔哩上的黑马的大数据课程是基于python的，按那个学的话是不是对我

2522661245lp 1-14

1

pyspark启动报错
亓樽久 1-9

code expected at least 16 arguments got 15 楼主是spark2.4.2和python3.11.4

贴吧包打听 1-10
3
生态离线数仓教程
faye_ocx 2023-11
手把手教你搭建基于阿里云服务器的大数据集群
好看的狠 12-18
6

有偿求助spark作业
lcan. 2023-03

有会的吗？私我

若然浅浅... 11-30
0
求助求助！spark-submit运行😭😭
贴吧用户_... 2023-08
官网上的教程，同一个端口999都可以运行，我自己的两个终端运行，不论哪个先，都会冲突，网上搜也没搜到有大佬可以帮帮忙么
贴吧用户_... 8-28
2

求一个Spark权威指南（2020年）的中文pdf 球球了
武带肖劳淑 2023-07

武带肖劳淑 7-17
1
aqlcontext是弃用了嘛
预乐 2023-05
sparksql是弃用了嘛，来个大佬给解释一下。
贴吧用户_... 7-14

0

求网课推荐
贴吧用户_... 2023-07

本人是准初三的学生，想提前学一下化学，补一下英语，打听了一下本地的暑假班价格高到离谱，想给家里省省钱，求各位学长学姐推荐下有没有优质的网课老师之类的

贴吧用户_... 7-9
2

有偿求助头歌的企业spark案例-电商分析实战
想的副反... 2023-06

有偿求助头歌的企业spark案例-电商分析实战，并且写一个word的报告

不定则已 6-21
0

问一下头歌的企业spark案例-电商分析实战第五关
想的副反... 2023-06

兄弟们，头歌的企业spark案例-电商分析实战的第五关怎么搞，或者说有没有答案推一下，谢谢大佬们【【第五关：每种店铺类型在哪个平台上销售情况最好】】【【本关任务：分析出每种店铺类型在哪个平台上销售情况最好（每个月取销量最高的值，所有月份相加即为总销量），按照店铺类型的销量值降序排序（输出前 20 条即可）。】】

想的副反... 6-20
0

求一份spark数据分析案例
729563209 2023-06

求一份spark数据分析案例

729563209 6-20
1
推荐一套数据接口发布与接收教程
faye_ocx 2023-04
这套视频从0到1讲解如何基于主流的大数据工作场景，例如，从存储离线数仓Ads层数据的MySQL中，从存储实时数仓Ads层数据的ClickHouse中，以及从即席查询的ElasticSearch、HBase、Redis中查询指定的数据，发布数据接口。发布的数据接口可以为第三方的程序或BI大屏，提供实时请求的数据支撑。
好看的狠 5-10
1

Springboot+mybatis+spark求助，有偿
老北啤 2023-04

Bug如下，在启动sparkDriver之后启动sparkUI时报错 2023-04-27 12:39:59.077 WARN 24176 --- [ restartedMain] 网页链接 : FAILED SelectChannelConnector@account.jetbrains.com:4040: java.net.BindException: Cannot assign requested address: bindjava.net.BindException: Cannot assign requested address: bind

3604九二2903 4-27

2

有偿求助Spark作业
任如雪雪 2023-04

有人会吗？私聊我，感谢大佬们

任如雪雪 4-20
0

spark有哪些特点
好看的狠
2023-04

spark的4大特点：速度快、易用性、通用性、可扩展

好看的狠 4-19
1

图片瘦身了之后怎么恢复
〖竜_竜〗 2023-04

灬Wjzhangxiaobo 4-18
1
推荐一套Hive On Spark教程
faye_ocx 2023-04
阿里云服务器+电商表模板+多种调优手段
1023891058 4-12
0
推荐一套大数据平台CDH教程
gigikang 2023-04
真实电商环境+大厂项目架构+7大功能模块
gigikang 4-11
0

Spark stage是如何划分的？
好看的狠
2023-03

1.从hdfs中读取文件后，创建 RDD 对象 2.DAGScheduler模块介入运算，计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage，划分Stage的一个主要依据是当前计算因子的输入是否是确定的，如果是则将其分在同一个Stage，避免多个Stage之间的消息传递开销。

好看的狠 3-31

3

【求助】sparksql查询hive on base报错
每人都有... 2022-04

版本spark3.*，spark2.*没有此问题。hadoop3.1.2，hbase2.4.4，hive3.1.2 单纯查询hive表没有问题，但是查询hive on hbase时会报以下错误： 2022-04-20 14:57:03,276 INFO spark.SparkContext: Created broadcast 3106 from 2022-04-20 14:57:03,286 INFO scheduler.DAGScheduler: Asked to cancel job group 10155d28-e4ed-46c5-96ce-0325aa45e187 2022-04-20 14:57:03,286 ERROR thriftserver.SparkExecuteStatementOperation: Error executing query with 10155d28-e4ed-46c5-96ce-0325aa45e187, currentState RUNNING, java.io.IOException: Cannot create a record reader because of a previous error. P

llfssm 3-30
0
Start-all.sh拒绝访问
尚谦丶
2023-03
最后一步启动服务了为什么不行呢
尚谦丶 3-21
5

【求助】sparksql查询hive on hbase 报错
每人都有... 2022-04

spark3以后出现该问题，spark2无问题，求大神指点！报错如下： 2022-04-20 14:57:03,276 INFO spark.SparkContext: Created broadcast 3106 from 2022-04-20 14:57:03,286 INFO scheduler.DAGScheduler: Asked to cancel job group 10155d28-e4ed-46c5-96ce-0325aa45e187 2022-04-20 14:57:03,286 ERROR thriftserver.SparkExecuteStatementOperation: Error executing query with 10155d28-e4ed-46c5-96ce-0325aa45e187, currentState RUNNING, java.io.IOException: Cannot create a record reader because of a previous error. Please look at the previous logs lines from the task's full log for more detai

thomasYuQiao 3-9
0

Spark的运行模式
好看的狠
2023-03

本地模式（单机）本地模式就是以一个独立的进程，通过其内部的多个线程来模拟整个Spark运行时环境。 Standalone模式（集群） Spark中的各个角色以独立进程的形式存在，并组成Spark集群环境。 Hadoop YARN模式（集群） Spark中的各个角色运行在YARN的容器内部，并组成Spark集群环境。 Kubernetes模式（容器集群） Spark中的各个角色运行在Kubernetes的容器内部，并组成Spark集群环境。

好看的狠 3-8
1
Spark MLlib学习从理论到实践，全面掌握机器学习的分布式算法
天机不可... 2023-03
天机不可... 3-6
0

Spark的四大特性
好看的狠
2023-02

Simple（易用性）、Fast（速度快）、Unified（通用性）、Scalable（兼容性）

好看的狠 2-16

9

帮帮孩子吧！百度不出来答案，给的解释看不懂。
贴吧用户_... 2022-06

Pycharm ssh连接linux虚拟机，完成简单的rdd查询作业，虚拟机里能够成功运行，可是pycharm里报错( AttributeError：module ”pyspark.rdd”has no attribute ”T”)，百度给的解释是什么pyc文件，可我没找到，关键是我第一次在pycharm里运行成功过的，后来才一直报这个错(同样的代码同样的操作，第一次能运行，第二次和接下来数次就报错)。尝试重新pip install pyspark 过，还是不行，有大佬知道怎么解决吗？

宝贝刚刚... 2-9
0

Spark的使用模式
好看的狠
2023-01

1.Local本地单机模式：一般用于测试和练习 2.StandaloneSpark集群模式：Spark集群的资源管理由spark自己来负责 3.OnYarnSpark集群模式：Spark集群的资源由Yarn来管理

好看的狠 1-29