pyspark dataframe 去重

在 PySpark 中，可以使用 DataFrame 的 dropDuplicates() 方法来去除 DataFrame 中的重复行。

例如，假设你有一个名为 df 的 DataFrame，你可以这样做来去除它的重复行：

df = df.dropDuplicates()
这将删除 df 中所有完全相同的行。
你也可以使用 dropDuplicates() 方法的参数来指定特定的列或列组合用于查找重复行。例如，假设你想按照列 A 和 B 的值来去重，你可以这样做：
df = df.dropDuplicates(subset=['A', 'B'])
这将删除 df 中所有 A 列和 B 列的值完全相同的行。
希望这对你有帮助。


    
     
      
       
        
         
         
          
           
            
             
              
               
               
               
               
                
                
                 PySpark - DataFrame的基本操作
                
               
              
              
               
                
                 
                  
                   连接spark1、添加数据1.1、createDataFrame: 创建空dataframe1.2、createDataFrame : 创建一个spark数据框1.3、.toDF() : 创建一个spark数据框1.2、修改数据2.1、修改原有数据框中某一列的值（统一修改）2.2...
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                    会点东西的普通人
                   
                  
                 
                
                
                 1年前
                
                
                 
                 
                  2.1k
                 
                
                
                 
                 
                 
                
                
                
               
              
             
            
            
           
           
           
          
          
           
            
             
              
               
               
               
               
                
                
                 Pyspark 读 DataFrame 的使用与基本操作
                
               
              
              
               
                
                 
                  
                   一、安装 基于 mac 操作系统 安装 jdk jdk 下载地址 2. 安装 pyspark 二、读取 HDFS 文件 读 json 注意，如果是多行的 json，需要用 “multiLine” 模式
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                   
                  
                 
                
                
                 1年前
                
                
                 
                 
                  583
                 
                
                
                 
                 
                 
                
                
                
               
              
             
            
            
           
           
           
          
          
           
            
             
              
               
               
               
               
                
                
                 使用 PySpark 进行数据清洗与 JSON 格式转换的实践详解（保姆级编码教程）
                
               
              
              
               
                
                 
                  
                   在大数据处理中，PySpark 提供了强大的工具来处理海量数据，特别是在数据清洗和转换方面。本文将介绍如何使用 PySpark 进行数据清洗，并将数据格式转换为 JSON 格式的实践。 简介 PySp
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                   
                  
                 
                
                
                 2月前
                
                
                 
                 
                  898
                 
                
                
                 
                 
                 
                
                
                
               
              




    

             
            
            
           
           
           
          
          
           
            
             
              
               
               
               
               
                
                
                 dataFrame的构建方式
                
               
              
              
               
                
                 
                  
                   「这是我参与11月更文挑战的第15天，活动详情查看：2021最后一次更文挑战」 RDD的checkpoint检查点 dataFrame的构建方式 方式一: 将RDD对象转换为dataFrame对象:
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                    life_is_short
                   
                  
                 
                
                
                 2年前
                
                
                 
                 
                  98
                 
                
                
                 
                 
                 
                
                
                
               
              
             
            
            
           
           
           
          
          
           
            
             
              
               
               
               
               
                
                
                 从 Pyspark UDF 调用另一个自定义 Python 函数
                
               
              
              
               
                
                 
                  
                   PySpark，通常称为 Apache Spark 的 Python API，是为分布式数据处理而创建的。它使用户能够高效且可扩展地对大型数据集进行复杂的计算和转换。用户定义函数 (UDF)，允许用户
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                   
                  
                 
                
                
                 4月前
                
                
                 
                 
                  170
                 
                
                
                 
                 
                 
                
                
                
               
              
             
            
            
           
           
           
          
          
           
            
             
              
               
               
               
               
                
                
                 在PySpark数据框中添加新列的5种方法
                
               
              
              
               
                
                 
                  
                   每天都在生成太多数据。尽管有时我们可以使用Rapids或Parallelization等工具来管理大数据，但如果您使用的是TB级数据，Spark是一个很好的工具。尽管这篇文章解释了如何使用RDD和基本
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                    Python圈子
                   
                  
                 
                
                
                 3年前
                
                
                 
                 
                  1.4k
                 
                
                
                 
                 
                 
                
                
                
               
              




    

             
            
            
           
           
           
          
          
           
            
             
              
               
               
               
               
                
                
                 解析旅游者心声：用PySpark和SnowNLP揭秘景区评论的情感秘密
                
               
              
              
               
                
                 
                  
                   简介： 在本篇博客中，我们将探讨如何利用PySpark和SnowNLP这两个强大的工具来分析大规模的旅游评论数据。通过结合携程和去哪儿的数据作为示例，我们将探索如何从海量的评论中提取有价值的情感信息和
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                   
                  
                 
                
                
                 29天前
                
                
                 
                 
                  769
                 
                
                
                 
                 
                 
                
                
                
               
              
             
            
            
           
           
           
          
          
           
            
             
              
               
               
               
               
                
                
                 Pyspark教程--初学者的参考[有5个简单的例子]
                
               
              
              
               
                
                 
                  
                   这篇文章是关于最著名的框架库Pyspark的整体和唯一。对于大数据和数据分析，Apache Spark是用户的选择。这是由于它的一些很酷的功能，我们将讨论。但是在这之前，让我们先了解一下PySpark
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                   
                  
                 
                
                
                 1年前
                
                
                 
                 
                  525
                 
                
                
                 
                 
                 
                
                
                
               
              
             
            
            
           
           
           
          
          
           
            
             
              
               
               
               
               
                
                
                 Python数据分析之 Pandas Dataframe去重操作
                
               
              
              
               
                
                 
                  
                   一起养成写作习惯！这是我参与「掘金日新计划 · 4 月更文挑战」的第14天，点击查看活动详情。 本篇文章介绍一下 Pandas Dataframe 的去重操作。
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                    tigeriaf
                   
                  
                 
                
                
                 1年前
                
                
                 
                 
                  303
                 
                
                
                 
                 
                 
                
                
                
               
              
             
            
            
           
           
           
          
          
           
            
             
              
               
               
               
               
                
                
                 notebook远程访问pyspark集群, 算法工具神器重磅推荐
                
               
              
              
               
                
                 
                  
                   notebook远程访问pyspark集群, 算法工具神器重磅推荐 书接上文，前段时间 图算法十篇 之 图机器学习系列文章总结 系列文章中，我们对 图算法 有了 深入浅出 的了解，接下来 打算 开始更
                  
                 
                
                
               
               
                
                 
                  
                   
                    
                    算法全栈之路
                   
                  
                 
                
                
                 1年前
                
                
                 
                 
                  1.4k