在本文中,我们将学习如何使用python解析 tsv 。文件存储可读和可写的信息。在 Python 中对文档实现的操作包括研究、写入、打开、关闭、重命名和删除。Python 有两种主要类型的文件:二进制文件和文本文件。
有许多类型的二进制文件。B图像文件(如.png
、.gif
、.jpg
)或文档(如.pdf
、.xls
、.doc
)。文本文件可以是源代码、Web 标准、电子表格数据等。本文处理来自文本文件(.tsv 文件)的此类表格数据。我们可以看到一种在 Python 中读取 tsv 文档的方法。
tsv 文档是什么?
TSV 文档 代表 制表符分隔值文档。以表格形式存储数据的文本报表。
TSV 文档格式通常用于使用数据库表或电子表格信息在数据库之间交换事实。每个文档由制表符人 ( \t
) 分隔。用作.csv
布局的替代格式。
.tsv
和.csv
格式之间的区别在于,.csv
布局使用逗号来拆分事实列,而 .tsv
格式使用制表符来拆分列。
如何搜索TSV?
对于解析 CSV/TSV 文件,我们已经这样做了,如下所述 -
- 单击逗号 (CSV) 以用逗号分隔列。
- 单击制表符 (TSV) 以用制表符分隔列。
- 单击“空格”以用空格分隔列。
- 单击“自定义字符”以输入用于分隔列的字符。注意:使用反斜杠
(\)
转义特殊字符。
Python如何读取.TSV文件?
tsv_file = open("example.tsv")
read_tsv = csv.Reader(tsv_file, delimiter="\t")
for row in read_tsv :
print(row)
tsv_file.close()
Python读取TSV文档如何使用函数:
可以使用 open() 特性在 Python 中研究 tsv
文件。可以使用 open()
函数检查特定文档。学习后返回相同的文件项。open ()
对文档执行一些文件处理操作,如读取、写入、追加和创建文件。
打开文件后,使用 CSV 中的 reader()
将文件对象转换为 CSV.reader 对象。要使用阅读器,请先导入 CSV。接下来,编写 open()
函数。将使用一个名为“product.tsv”的 tsv 文件,该文件由 12 个月内三种产品的销售数据组成。将 tsv 文件作为参数传递给 open() 函数。“file”是一个文件对象。然后使用 csv.reader
将文件对象转换为 csv.reader
对象。将分隔符作为“\t
”传递给 CSV。
方法1: 使用pandas
使用pandas read_csv()
从TSV文件读取数据。在tsv文件中,一个制表符分隔了每个字段,因此在tsv文件中传递制表符分隔符“\t
”。
下面给出了使用pandas
的语法:
data=pandas.read_csv('filename.tsv',sep='\t')
示例:在这里给出一个在python中使用pandas的例子 -
import pandas as pd
interviews_df = pd.read_csv('Daily report and monthly report(December 2022).tsv', sep='\t')
print(interviews_df)
编译上面的程序,编译成功后运行。结果如下所示 -
Date Topic Name Word Count
1st December,2022 Parse error python 727
2nd December,2022 Pass function as parameter python 734
3rd December,2022 Parsing data in python 764
方法2: csv的使用
使用csv.reader()
将tsv文件对象转换为csv.reader
对象。并将分隔符“\t
”传递给csv.reader
。分隔符用于指定分隔每个字段的字符。
csv的使用语法如下-
with open("filename.tsv") as file:
tsv_file = csv.reader(file, delimiter="\t")
在这里给出一个在python中使用pandas的例子 -
import csv
with open("'Daily report and monthly report(December 2022).tsv") as file:
tsv_file = csv.reader(file, delimiter="\t")
for line in tsv_file:
print(line)
方法3:split的使用
在Python中从TSV文件读取数据的一个非常简单的方法是使用split()
。可以读取特定的TSV文件并将其数据保存在列表中。
split()
语法如下-
with open("filename.tsv") as file:
for the line in file:
l=line.split('\t')
在这里,给出一个在python中使用pandas的例子 -
ans = []
with open("Javatpoint.tsv") as f:
for line in f:
l=line.split('\t')
ans.append(l)
for a in ans:
print(a)