当前位置：Gxlcms > 数据库问题 > 【原创】经验分享（15）spark sql limit实现原理

【原创】经验分享（15）spark sql limit实现原理

时间：2021-07-01 10:21:17 帮助过：19人阅读

class CollectLimitExec(limit: Int, child: SparkPlan) extends UnaryExecNode { ... protected override def doExecute(): RDD[InternalRow] = { val locallyLimited = child.execute().mapPartitionsInternal(_.take(limit)) val shuffled = new ShuffledRowRDD( ShuffleExchange.prepareShuffleDependency( locallyLimited, child.output, SinglePartition, serializer)) shuffled.mapPartitionsInternal(_.take(limit)) }

可见实现非常简单，首先调用SparkPlan.execute得到结果的RDD，然后从每个partition中取前limit个row得到一个新的RDD，然后再将这个新的RDD变成一个分区，然后再取前limit个，这样就得到最终的结果。

标签：https test tor div table intern ide 原创 from

< 上一篇
数据库的Connection、Cursor两大对象
下一篇 >
SQL,HQL,CQL,JPQL了解

人气教程排行

229次 1 oracle 用户解锁和修改用户密码
229次 2 解决：安装SQL Server 2008 Native Client遇到错误（在Navicat premium新建sqlserver连接时需要）：An error occurred during ...HRESULT: 0x80070422（注意尾部的错误号）
229次 3 rocksdb 编译步骤
229次 4 adb命令开关蓝牙及NFC
229次 5 解决数据库连接错误您在wp-config.php文件中提供的数据库用户名和密码可能不正确，或者无法连接到localhost上的数据库服务器，这意味着您的主机数据库服务器已停止工作。
229次 6 使用java自动填充，实现mysql的创建修改时间的自动填充
229次 7 Linux mount挂载磁盘报错 mount: wrong fs type, bad option, bad superblock on /dev/vdb
228次 8 关于mysql创建数据库中字符集和排序规则的选择
228次 9 Linux设置Mysql开机自启动服务
227次 10 SQL2008：WITH MOVE 子句可用于重新定位一个或多个文件
227次 11 图数据库Neo4j在GIS系统的应用
227次 12 SpringBoot配置 druid 数据源配置慢SQL记录
227次 13 SQL state [72000]; error code [1013]; ORA-03111: 通信通道收到中断; java.sql.SQLException: ORA-01745: 无效的主机/绑定变量名;java.sql.SQLException: ORA-01013: 用户请求取消当前的操作
227次 14 docker-compose启动MySQL并配置远程登录
225次 15 Mysql安装（for mac）
225次 16 kettle将图片转换至二进制存储至数据库
225次 17 adb的安装及配置
224次 18 使用PHP控制MODBUS-RTU设备
224次 19 MySQL 查询时间差值大于某一个值的记录
224次 20 MongoDB内存配置 --wiredTigerCacheSizeGB