当前位置：首页 > 面试题库 >

如何通过熊猫或spark数据框删除所有行中具有相同值的列？

纪佐

2023-03-14

问题内容：

假设我的数据类似于以下内容：

  index id   name  value  value2  value3  data1  val5
    0  345  name1    1      99      23     3      66
    1   12  name2    1      99      23     2      66
    5    2  name6    1      99      23     7      66

我们怎样才能降像所有这些列（value，value2，value3）其中所有行具有相同的值，在一个命令或夫妇使用命令的蟒蛇？

考虑到我们有类似的许多列value，value2，value3… value200。

输出：

   index    id  name   data1
       0   345  name1    3
       1    12  name2    2
       5     2  name6    7

问题答案：

我们可以做的是apply nunique计算df中唯一值的数量，然后删除仅具有单个唯一值的列：

In [285]:
nunique = df.apply(pd.Series.nunique)
cols_to_drop = nunique[nunique == 1].index
df.drop(cols_to_drop, axis=1)

Out[285]:
   index   id   name  data1
0      0  345  name1      3
1      1   12  name2      2
2      5    2  name6      7

另一种方法是只diff对数字列进行abs取值，sums然后取它们：

In [298]:
cols = df.select_dtypes([np.number]).columns
diff = df[cols].diff().abs().sum()
df.drop(diff[diff== 0].index, axis=1)

Out[298]:
   index   id   name  data1
0      0  345  name1      3
1      1   12  name2      2
2      5    2  name6      7

另一种方法是使用具有相同值的列的标准偏差为零的属性：

In [300]:
cols = df.select_dtypes([np.number]).columns
std = df[cols].std()
cols_to_drop = std[std==0].index
df.drop(cols_to_drop, axis=1)

Out[300]:
   index   id   name  data1
0      0  345  name1      3
1      1   12  name2      2
2      5    2  name6      7

实际上，以上内容可以单线完成：

In [306]:
df.drop(df.std()[(df.std() == 0)].index, axis=1)

Out[306]:
   index   id   name  data1
0      0  345  name1      3
1      1   12  name2      2
2      5    2  name6      7

类似资料：

如何删除熊猫数据框中具有重复列值的行？

问题内容：我有一个看起来像这样的熊猫数据框。我想确定cat和bat是重复的相同值，因此想删除一个记录并仅保留第一条记录。结果数据帧应该只有一个。问题答案：使用具有与列的列表上检查重复和保持第一重复的。如果是：结果：然后：结果：
如何从熊猫数据框中删除行列表？

我有一个数据帧df：然后我想删除列表中指示的具有某些序列号的行，假设这里是然后离开：如何或什么功能可以做到这一点？
通过列值复制熊猫数据框中的行

问题内容：我想在Pandas Dataframe中复制行。每行应重复n次，其中n是每行的一个字段。这可能吗？问题答案：您可以用来获取重复的索引，然后使用它来索引框架：之后，只需清理一下即可：请注意，如果您可能有重复的索引值得担心，则可以改用：使用位置，而不使用索引标签。
如何在熊猫数据框中删除唯一行？

问题内容：我遇到了一个看似简单的问题：在熊猫数据框中删除唯一的行。基本上与的相反。假设这是我的数据：当A和B唯一时，我想删除行，即我只保留行1和2。我尝试了以下方法：但是我只能得到第2行，因为唯一性是0、1和3！问题答案：选择所有重复行的解决方案：您可以使用子集和参数来选择所有重复项：解决方案：对所有唯一行进行了一些修改的解决方案：
熊猫数据框循环某些列的所有值

使用pandas dataframe假设我有如下结构相似的数据帧：我想要一个新的2列（Choise，Value），它满足“a_Cho”、“b_Cho”和“c_Cho”中所有值的以下条件如果“a_Cho”=true，则选择“a_n”，值=a对应于“a_Cho”的值如果“a_Cho”=false，则移动到下一步如果“b_Cho”=true，则选择“b_n”，值=b表示“b_Cho”的对应值，如果
在熊猫数据框中删除全零的行

问题内容：我可以使用功能来删除将部分或全部列设置为的行。是否存在用于删除所有列的值为0的行的等效函数？在此示例中，我们要删除数据帧的前4行。谢谢！问题答案：事实证明，这可以向量化的方式很好地表达：
如何根据条件删除熊猫数据框中的列？

问题内容：我有一个熊猫DataFrame，里面有很多值。如何删除这样的列？我试图这样做：有更优雅的方法吗？问题答案：这是保留每列中小于或等于指定数量的nan的列的另一种选择：在我的测试中，这似乎比李建勋在我测试的案例中建议的放置列方法要快一些：
如何删除熊猫数据帧中列的重复值的行？

我有一个熊猫数据框，看起来像这样。我想确定猫和蝙蝠是重复的相同值，因此想删除一条记录，只保留第一条记录。所得到的数据帧应该只具有。

相关阅读

在大熊猫数据框中提取具有最大值的行从熊猫的数据框中的所有列输出数据通过包含str过滤熊猫数据框行如何在PySpark DataFrame中删除具有空值的所有列？如何从熊猫数据框中的字符串项中删除数字

相关文章

PostgreSQL 删除数据库 MongoDB删除数据库 MySQL删除数据表 MySQL删除数据库 Oracle删除表数据

相关问答

删除每个值相同的所有行[重复]将列中的所有值复制到熊猫数据框中的新列熊猫：如何删除重复的行，但保持所有行的最大值[重复]熊猫 - 从另一列中删除重复的行，但具有最大值的行除外基于特定（非零）值[重复]删除数据框（熊猫）中的行

相关工具

熊猫Flash播放器 ios所支持的所有字体获取网页的所有图片数据库自动更新及自动赋值工具 GNOME桌面相框

相关文档

Porter 数据同步中间件具有高级安全性的 Windows 防火墙 2 小时精通金数据 OCTO-RPC 服务通信框架通过例子学 Rust