```markdown

使用 `pandas.read_csv` 读取大文件的技巧

pandas 是 Python 中常用的数据分析库，提供了丰富的工具来处理各种数据格式。其中，read_csv 函数是读取 CSV 文件的最常用方法。然而，当处理非常大的 CSV 文件时，直接使用 read_csv 可能会导致内存占用过高，甚至导致程序崩溃。本文将介绍一些优化技巧，帮助你在使用 pandas.read_csv 时处理大文件。

1. 分块读取 CSV 文件

对于大型 CSV 文件，最直接的方法是分块读取。read_csv 提供了 chunksize 参数，可以分块读取文件，避免一次性将整个文件加载到内存中。

```python import pandas as pd

每次读取10000行

chunk_size = 10000 chunks = pd.read_csv('large_file.csv', chunksize=chunk_size)

逐块处理数据

for chunk in chunks: # 处理每一块数据，例如进行数据清洗、分析等操作 print(chunk.head()) ```

chunksize 参数的值是每次读取的行数，可以根据可用内存来调整这个值。通过这种方式，程序只会加载内存中一部分数据，避免一次性加载整个文件。

2. 选择性加载列

如果文件中的某些列不需要使用，可以在加载时通过 usecols 参数指定只读取所需的列，从而减少内存的使用。

```python import pandas as pd

只加载 'col1' 和 'col3' 列

cols_to_read = ['col1', 'col3'] df = pd.read_csv('large_file.csv', usecols=cols_to_read)

print(df.head()) ```

通过这种方式，只有必要的列会被加载到内存中，其他不需要的列会被忽略，从而减少内存的占用。

3. 设置数据类型

pandas 在读取 CSV 文件时，会自动推断每一列的数据类型。对于大文件，这种自动推断可能会导致内存的浪费。通过明确指定每列的数据类型，可以显著减少内存占用。

```python import pandas as pd

设置数据类型

dtype = {'col1': 'float32', 'col2': 'int32'} df = pd.read_csv('large_file.csv', dtype=dtype)

print(df.info()) ```

在上面的例子中，我们显式指定了列 col1 和 col2 的数据类型。这将确保数据在加载时使用最合适的内存类型，从而节省内存。

4. 使用 `iterator` 参数

如果希望逐行读取文件而不是分块读取，可以使用 iterator 参数。这样，pandas 会返回一个 TextFileReader 对象，可以逐行读取数据。

```python import pandas as pd

创建一个迭代器

iterator = pd.read_csv('large_file.csv', iterator=True)

使用 `get_chunk` 方法逐块获取数据

df_chunk = iterator.get_chunk(10000) print(df_chunk.head()) ```

这种方式的好处在于，你可以控制每次获取的数据量，更加灵活地进行内存管理。

5. 跳过无用的行

在某些情况下，CSV 文件可能包含一些无用的行（例如，文件的开头是注释或者空行）。通过 skiprows 参数，可以在读取时跳过这些行。

```python import pandas as pd

跳过前 100 行

df = pd.read_csv('large_file.csv', skiprows=100)

print(df.head()) ```

如果文件中有某些无用的行，这个方法可以有效地减小读取文件的开销。

6. 使用 Dask 替代 Pandas

Dask 是一个与 pandas 兼容的库，专门设计来处理比内存大的数据集。它可以自动将数据分成多个块并并行处理，从而避免内存溢出的问题。Dask 提供了与 pandas.read_csv 相似的 API，可以很方便地替代 pandas 来处理大文件。

```python import dask.dataframe as dd

使用 Dask 读取 CSV 文件

df = dd.read_csv('large_file.csv')

执行类似 pandas 的操作

df_filtered = df[df['col1'] > 10]

计算结果

result = df_filtered.compute()

print(result) ```

Dask 可以自动将大文件分割成多个小块并分布式地处理，对于大规模数据集非常高效。

7. 使用 `low_memory` 参数

low_memory 参数是 pandas.read_csv 的一个选项，它可以帮助减少内存的使用。当 low_memory=True 时，pandas 会分批读取文件并推测列的数据类型。这对于某些文件可能会加快读取速度并节省内存。

```python import pandas as pd

启用低内存模式

df = pd.read_csv('large_file.csv', low_memory=True)

print(df.head()) ```

尽管 low_memory=True 可能会导致类型推断不准确，但它有助于减少内存的占用，尤其是在读取非常大的 CSV 文件时。

结论

当处理大文件时，直接使用 pandas.read_csv 可能会导致内存问题。通过采用上述技巧，例如分块读取、选择性加载列、显式指定数据类型等，可以有效地减少内存占用并提高性能。如果 pandas 无法满足需求，Dask 是一个值得考虑的替代方案。根据实际情况，选择合适的策略，可以帮助你高效地处理大规模数据集。 ```

热搜
行业
快讯
专题

使用 pandas.read_csv 读取大文件的技巧

1. 分块读取 CSV 文件

每次读取10000行

逐块处理数据

2. 选择性加载列

只加载 'col1' 和 'col3' 列

3. 设置数据类型

设置数据类型

4. 使用 iterator 参数

创建一个迭代器

使用 get_chunk 方法逐块获取数据

5. 跳过无用的行

跳过前 100 行

6. 使用 Dask 替代 Pandas

使用 Dask 读取 CSV 文件

执行类似 pandas 的操作

计算结果

7. 使用 low_memory 参数

启用低内存模式

结论

使用 `pandas.read_csv` 读取大文件的技巧

4. 使用 `iterator` 参数

使用 `get_chunk` 方法逐块获取数据

7. 使用 `low_memory` 参数