如何使用Python读取子目录下所有txt并删除空行和空格？

发布时间：

2024-10-14 23:47

阅读量：

谢邀！这个问题其实不复杂，但细节挺多，稍不注意就会踩坑。像这种场景，我猜你肯定是手头有一堆杂乱无章的txt文件，有的子目录下还特么嵌套了好几层，搞得你一脸懵逼。不过放心，咱们一步步搞定它。

首先得有个清晰的思路。我们需要先遍历所有的子目录，把所有的txt文件都找到。对于这种情况，推荐使用递归遍历，`os.walk()`是个好选择。接着就是处理文件内容。注意，有些txt文件可能编码不统一，搞不好就读不出来，得用`chardet`库探测一下编码格式。这个库得先安装，`pip install chardet`，这样读文件时不至于乱码。探测编码后，咱们就能按正确的格式打开文件。

文件读出来后，就要去掉里面的无效行。判断每一行是否只包含空格或者是完全空白的行，如果是就跳过，只保留有内容的部分。处理完这些杂乱的数据，再将所有清理干净的内容合并到一个新的txt文件中。这里记得用追加模式，`'a'`，避免每次写入都把前面的内容覆盖掉。

下面是实现这个功能的完整代码。我们先用`detect_encoding()`函数探测每个txt文件的编码格式，再用`read_and_clean_txt()`读取并清理内容。最后，通过`merge_txt_files()`来处理整个目录结构并将所有内容归并到一个新文件中。

import os import chardet def detect_encoding(file_path): """检测文件编码格式""" with open(file_path, 'rb') as f: result = chardet.detect(f.read()) return result['encoding'] def read_and_clean_txt(file_path): """读取txt文件，去掉空行和空白行""" encoding = detect_encoding(file_path) content = [] try: with open(file_path, 'r', encoding=encoding) as f: for line in f: clean_line = line.strip() # 去除首尾空格 if clean_line: # 过滤掉空行 content.append(clean_line) except Exception as e: print(f"文件读取失败：{file_path}，原因：{e}") return content def merge_txt_files(directory, output_file): """合并目录下所有子目录中的txt文件，输出到一个新的文件中""" with open(output_file, 'w', encoding='utf-8') as outfile: for root, _, files in os.walk(directory): for file in files: if file.endswith('.txt'): # 筛选出所有txt文件 file_path = os.path.join(root, file) print(f"处理文件：{file_path}") cleaned_content = read_and_clean_txt(file_path) if cleaned_content: outfile.write("\n".join(cleaned_content) + "\n") print(f"所有txt文件已合并到：{output_file}") # 调用合并函数 directory_path = './你的目录路径' # 这儿换成你实际的目录路径 output_file_path = './合并后的文件.txt' # 输出文件路径 merge_txt_files(directory_path, output_file_path)

这段代码首先会用`chardet`探测每个txt文件的编码格式，确保能正确地读取内容。`read_and_clean_txt()`会用探测到的编码格式去打开文件，然后逐行处理，过滤掉所有的空行和只包含空格的行，最后返回一个干净的文本列表。接下来是`merge_txt_files()`这个主函数，它会递归遍历指定目录下的所有子目录，找到每个txt文件，并用前面写好的函数进行内容处理。所有处理过的内容最终都会写入到指定的总文件中。

在实际使用中可能会遇到一些小问题，比如有些txt文件的编码探测不准，导致读文件时还是出错。如果遇到这种情况，可以直接在`except`里用`encoding='utf-8'`或者`encoding='gbk'`来兜底，基本上就能解决大部分问题。

总结一下，这段代码大体能搞定你的需求，整体逻辑是先探测编码再读文件，再过滤空行，最后合并到一个新的文件中。记得实际操作时换成你自己的目录路径就行。搞定后，你就能轻松地把各种乱七八糟的txt文件合并成一个干净的txt了。

最后，分享一个不错的编程导航网站，里面有大量的免费教程供你学习：

https://www.j301.cn/python.html

上一篇：钟离当初清理那些黏糊糊的海鲜怪物的时候，干嘛不直接叫水神帮忙呢？

下一篇：我就不明白了，为何领导不喜欢实干的，而喜欢会拍马溜须的？

END