spark吧
关注: 5,574 贴子: 14,120

大数据技术培训、Spark核心技术

  • 目录:
  • 交通工具
  • 0
    求大佬告知,目前学spark的话是用java版本好一些还是Scala版本,或python版本好一些. 网上教程的Scala版本比较多,python版本的教程有推荐的么,想系统性学习一下. 感谢各位大佬
    半场梦 8-26
  • 1
    sparksteraming消费Kafka报error: User class threw exception: org.apache.kafka.common.errors.TimeoutException: Timeout of 60000ms expired before the position for partition appbury-9 could be determined 我设置的批处理时间是半个小时。前面几次都正常,运行三四小时之后就报这个错了,很奇怪。在网上都说kafka broker那边出了问题,但是排查一下并没有问题,相关的flink任务(消费同样的topic)也正常跑了,唯独这spark任务出这个问题。有大佬遇见过这个问题吗?跪求解决方式
  • 1
    有没有人会的,来教教我,
  • 0
    ZL 6-26
    有偿求助spark大作业,有会的吗?私我
  • 6
    一名专业的代码和程序代写者。拥有多年的编程经验,熟悉Python、Java、Scala种编程语言和大数据知识等。有不懂的可以交流,Hadoop、spark、hive、hbasee、zookeeper、kafka 等都可以
    ZL 6-26
  • 1
    添加依赖这些加不进去有大佬知道怎么解决吗!!
  • 0
    有佬知道这个报错是什么原因导致的吗
  • 1
    用的python pyspark,但是没有办法直接读取lz4的压缩文件,搞不定要被干掉了
    jj复jj 5-29
  • 0
    这就没反应了
  • 1
    新手小白求教,我现在有一个daraset,假如里面有两个字段,分别是id,score,我按score进行降序排序,现在我要获取id为2用户在这个dataset里面的排名,如何操作
  • 3
    各位大佬们,你们好,我想问一下,我搭建了在centos的hadoop集群,然后再hadoop中下载了spark,现在显示的是scala,我应该怎么做可以用pyspark
  • 0
    有没有spark大神,急急急,我想把一个rdd数据集中同时满足两个特征值的数据都拿出来并且计数,这个命令该怎么写啊
    fhfhhghfvg 4-22
  • 3
    请教下各位大佬,在idea中用spark的df读取mongo数据报错,前几天还可以就最近开始报错了,也没动啥
    muskl 2-2
  • 1
    最近要做一个网上平台,像那种学校自用的线上课堂,学生可以在平台上看课程。平台上也有一些竞赛的数据,考研的一些资料。有一个模块就是学生能力画像(平台上有学生的课程成绩,竞赛的一些信息记录)。目前准备用springboot框架做,mybatis管理数据库,上面那个模块永spark实现。我之前java就学到了springboot,大数据方面是零基础,我现在应该按什么学习线路去学习。我看了哔哩哔哩上的黑马的大数据课程是基于python的,按那个学的话是不是对我
  • 1
    code expected at least 16 arguments got 15 楼主是spark2.4.2和python3.11.4
  • 3
    手把手教你搭建基于阿里云服务器的大数据集群
    好看的狠 12-18
  • 6
    有会的吗?私我
  • 0
    官网上的教程,同一个端口999都可以运行,我自己的两个终端运行,不论哪个先,都会冲突,网上搜也没搜到有大佬可以帮帮忙么
  • 1
    sparksql是弃用了嘛,来个大佬给解释一下。
  • 0
    本人是准初三的学生,想提前学一下化学,补一下英语,打听了一下本地的暑假班 价格高到离谱,想给家里省省钱,求各位学长学姐推荐下有没有优质的网课老师之类的
  • 2
    有偿求助头歌的企业spark案例-电商分析实战,并且写一个word的报告
  • 0
    兄弟们,头歌的企业spark案例-电商分析实战的第五关怎么搞,或者说有没有答案推一下,谢谢大佬们 【【第五关:每种店铺类型在哪个平台上销售情况最好】】 【【本关任务:分析出每种店铺类型在哪个平台上销售情况最好(每个月取销量最高的值,所有月份相加即为总销量),按照店铺类型的销量值降序排序(输出前 20 条即可)。】】
  • 0
    求一份spark数据分析案例
    729563209 6-20
  • 1
    这套视频从0到1讲解如何基于主流的大数据工作场景,例如,从存储离线数仓Ads层数据的MySQL中,从存储实时数仓Ads层数据的ClickHouse中,以及从即席查询的ElasticSearch、HBase、Redis中查询指定的数据,发布数据接口。发布的数据接口可以为第三方的程序或BI大屏,提供实时请求的数据支撑。
  • 1
    Bug如下,在启动sparkDriver之后启动sparkUI时报错 2023-04-27 12:39:59.077 WARN 24176 --- [ restartedMain] 网页链接 : FAILED SelectChannelConnector@account.jetbrains.com:4040: java.net.BindException: Cannot assign requested address: bindjava.net.BindException: Cannot assign requested address: bind
  • 2
    有人会吗?私聊我,感谢大佬们
  • 0
    spark的4大特点:速度快、易用性、通用性、可扩展
  • 1
    阿里云服务器+电商表模板+多种调优手段
    1023891058 4-12
  • 0
    真实电商环境+大厂项目架构+7大功能模块
    gigikang 4-11
  • 0
    1.从hdfs中读取文件后,创建 RDD 对象 2.DAGScheduler模块介入运算,计算RDD之间的依赖关系。RDD之间的依赖关系就形成了DAG 3.每一个JOB被分为多个Stage,划分Stage的一个主要依据是当前计算因子的输入是否是确定的,如果是则将其分在同一个Stage,避免多个Stage之间的消息传递开销。
  • 3
    版本spark3.*,spark2.*没有此问题。hadoop3.1.2,hbase2.4.4,hive3.1.2 单纯查询hive表没有问题,但是查询hive on hbase时会报以下错误: 2022-04-20 14:57:03,276 INFO spark.SparkContext: Created broadcast 3106 from 2022-04-20 14:57:03,286 INFO scheduler.DAGScheduler: Asked to cancel job group 10155d28-e4ed-46c5-96ce-0325aa45e187 2022-04-20 14:57:03,286 ERROR thriftserver.SparkExecuteStatementOperation: Error executing query with 10155d28-e4ed-46c5-96ce-0325aa45e187, currentState RUNNING, java.io.IOException: Cannot create a record reader because of a previous error. P
    llfssm 3-30
  • 0
    最后一步启动服务了为什么不行呢
    尚谦丶 3-21
  • 5
    spark3以后出现该问题,spark2无问题,求大神指点! 报错如下: 2022-04-20 14:57:03,276 INFO spark.SparkContext: Created broadcast 3106 from 2022-04-20 14:57:03,286 INFO scheduler.DAGScheduler: Asked to cancel job group 10155d28-e4ed-46c5-96ce-0325aa45e187 2022-04-20 14:57:03,286 ERROR thriftserver.SparkExecuteStatementOperation: Error executing query with 10155d28-e4ed-46c5-96ce-0325aa45e187, currentState RUNNING, java.io.IOException: Cannot create a record reader because of a previous error. Please look at the previous logs lines from the task's full log for more detai
  • 0
    本地模式(单机) 本地模式就是以一个独立的进程,通过其内部的多个线程来模拟整个Spark运行时环境。 Standalone模式(集群) Spark中的各个角色以独立进程的形式存在,并组成Spark集群环境。 Hadoop YARN模式(集群) Spark中的各个角色运行在YARN的容器内部,并组成Spark集群环境。 Kubernetes模式(容器集群) Spark中的各个角色运行在Kubernetes的容器内部,并组成Spark集群环境。
  • 0
    Simple(易用性)、Fast(速度快)、Unified(通用性)、Scalable(兼容性)
  • 9
    Pycharm ssh连接linux虚拟机,完成简单的rdd查询作业,虚拟机里能够成功运行,可是pycharm里报错( AttributeError:module ”pyspark.rdd”has no attribute ”T”),百度给的解释是什么pyc文件,可我没找到,关键是我第一次在pycharm里运行成功过的,后来才一直报这个错(同样的代码同样的操作,第一次能运行,第二次和接下来数次就报错)。尝试重新pip install pyspark 过,还是不行,有大佬知道怎么解决吗?
  • 0
    1.Local本地单机模式:一般用于测试和练习 2.StandaloneSpark集群模式:Spark集群的资源管理由spark自己来负责 3.OnYarnSpark集群模式:Spark集群的资源由Yarn来管理

  • 发贴红色标题
  • 显示红名
  • 签到六倍经验

赠送补签卡1张,获得[经验书购买权]

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!

本吧信息 查看详情>>

会员: 基友

目录: 交通工具