File2Table - 文件转表格工具
File2Table - 文件转表格工具
File2Table 是一个简单的文件转换工具,可以将各种格式的文件转换为表格形式。借助大模型的能力结合格式化输出,将PDF、Word、txt文件提取主要数据指标转换成Excel表格文件。
产品链接
- 产品地址:File2Table
- 源码地址:GitHub
产品逻辑
读取用户文件,转为文本后进行切割,保证切割文本块大小的前提下优先按照段落、句子进行切割。 切割后文本通过大模型进行处理,将提取的数据信息转为DataFrame,然后通过Pandas进行数据处理,最后将处理后的数据保存为Excel文件。
提取模式 🎯
-
数据提取模式
- 重要数据:仅提取关键信息
- 详细数据:提取所有可能的数据点
-
表格格式
- 仅键值对:简单的字段-数值对
- 包含单位:添加数值单位信息
- 包含单位和来源:完整的数据溯源信息
技术架构 🏗️
- 前端:Streamlit
- 数据处理:Pandas
- AI模型:支持OpenAI SDK模型
- 文件处理:
- PDF: PyMuPDF
- Word: python-docx/pywin32
- TXT: 原生Python
后续开发计划 🗓️
- 支持更多文件格式(Image/Video)
- 支持数据分析汇图
- ......