当前位置: 首页 > 面试题库 >

带有双引号的熊猫数据

班建义
2023-03-14
问题内容

我正在尝试读取.csv格式的大型数据集,该数据集使用熊猫库自动更新。问题在于,在我的数据中,第一行是不带双引号的字符串,而其他列是带双引号的字符串。我无法手动调整.csv文件。

简化的数据集看起来像这样

  1. A B C D”
  2. comp_a,“树”,“房子”,“门”
  3. comp_b,“卡车”,“红色”,“蓝色”

我需要将数据存储为单独的列,且不带引号,例如:

  1. A B C D
  2. comp_a树屋门
  3. comp_b卡车红色蓝色

我尝试使用

import pandas as pd
df_csv = pd.read(path_to_file,delimiter=',')

这给了我完整的标题作为最后一列的单个变量

  1. A B C D”
  2. comp_a“树”“房屋”“门”
  3. comp_b“卡车”“红色”“蓝色”

与我需要的结果最接近的结果是使用以下命令

df_csv = pd.read(path_to_file,delimiter=',',quoting=3)

可以正确识别每列,但会添加一堆额外的双引号。

  1. “A B C D”””
  2. “ comp_a”“树”“”房屋“”“门”“”
  3. “ comp_b”“卡车”“”红色“”“”蓝色“”“

将引号设置为0到2之间的值只会将整行读取为单列。

有谁知道在读取.csv文件时如何删除所有引号?


问题答案:

只需加载数据,pd.read_csv()然后使用.replace('"','', regex=True)

一行中将是:

df = pd.read_csv(filename, sep=',').replace('"','', regex=True)

设置列名称:

df.columns = df.iloc[0]

然后删除第0行:

df = df.drop(index=0).reset_index(drop=True)


 类似资料:
  • 问题内容: 是否有任何示例说明如何在Pandas中通过SQL查询传递参数? 特别是我正在使用SQLAlchemy引擎连接到PostgreSQL数据库。到目前为止,我发现以下工作原理: Pandas文档说,params也可以作为dict传递,但是例如,我似乎无法通过尝试使它起作用: 建议从熊猫运行这些类型的查询的方法是什么? 问题答案: 该文件说这个参数可以是一个列表,元组或字典(见文档)。 通过在

  • 这里,整个“service.getdata”语句应该是一个匹配项,但它在(转义的)双引号处中断。如果我用双引号括起参数值,它就可以工作了(就像它在前面的示例块中所做的那样)。但不幸的是,当参数值没有用双引号包装时,我需要它也能工作。 有人能帮我做最后一块吗?

  • 我试图导出我的数据帧到sql数据库(Postgres)。 我创建了如下表: 我想把这个数据框写到sql表中: 但是,当我运行命令写入数据库时,我意识到已经创建了一个新表"OUTPUT",其中插入了数据。 如何避免在表中插入双引号?

  • 我正在尝试使用OpenCSV解析CSV文件。其中一列以YAML序列化格式存储数据,并被引用,因为其中可以包含逗号。它里面也有引号,所以它通过放两个引号来转义。我能够在Ruby中轻松解析这个文件,但使用OpenCSV我无法完全解析它。这是一个UTF-8编码的文件。 这是我的Java片段,它试图读取文件 这是此文件中的2行。第一行没有被正确解析,并且在处被拆分,因为我猜是转义双引号。

  • 问题内容: 我正在尝试采用一个数据框并将其转换为特定的json格式。 这是我的数据框示例: 这是我想转换成的json格式: 注意这是字典列表。我几乎在下面的代码中: 但是,该行还包含这样的索引: 请注意,这是一个字典,它还包含两次索引(在第一个字典中为索引,在第二个字典中为“ id”!对您有所帮助。 问题答案: 您可以使用

  • 问题内容: 我有此命令可以执行我想要的操作,但无法在我的.bashrc中使用别名(请注意,它同时使用单引号和双引号): 我试过了: 还有一些其他没有运气的常识组合。.我知道bash带有引号是非常挑剔的。.因此,为它加上别名的正确方法是什么?为什么?谢谢 问题答案: 您只需要正确地转义即可。

  • 我在用Pandas将。txt文件转换为浮动值的数据目录时遇到了麻烦。我需要创建两列数据的散点图,但我一直得到错误“TypeError:Empty'DataFrame':no numeric data to plot”,所以我认为它是以字符串的形式读取数据。 下面是我运行df.info时得到的结果 列u_Vmag和u_B-V中没有任何测量值。 我觉得我只是错过了一些显而易见的东西。有人有什么建议吗?

  • 我正在使用ProcessBuilder运行Windows可执行文件...我需要运行的确切命令是: 如果我在命令提示符下运行上述命令,效果很好。 如果我随后以字符串[]数组的形式发出以下StackOverflow post(ProcessBuilder向命令行添加额外引号)中所示的命令和参数,则会失败,因为目录路径中的空格以某种方式将参数打断到CCBU。exe可执行文件: 如果我将数据文件和过滤器移