ZhuHai.Fun
File2Table工具界面截图

File2Table - 文件转表格工具

File2Table - 文件转表格工具

File2Table 是一个简单的文件转换工具,可以将各种格式的文件转换为表格形式。借助大模型的能力结合格式化输出,将PDF、Word、txt文件提取主要数据指标转换成Excel表格文件。

产品链接

产品逻辑

读取用户文件,转为文本后进行切割,保证切割文本块大小的前提下优先按照段落、句子进行切割。 切割后文本通过大模型进行处理,将提取的数据信息转为DataFrame,然后通过Pandas进行数据处理,最后将处理后的数据保存为Excel文件。

提取模式 🎯

  1. 数据提取模式

    • 重要数据:仅提取关键信息
    • 详细数据:提取所有可能的数据点
  2. 表格格式

    • 仅键值对:简单的字段-数值对
    • 包含单位:添加数值单位信息
    • 包含单位和来源:完整的数据溯源信息

技术架构 🏗️

  • 前端:Streamlit
  • 数据处理:Pandas
  • AI模型:支持OpenAI SDK模型
  • 文件处理:
    • PDF: PyMuPDF
    • Word: python-docx/pywin32
    • TXT: 原生Python

后续开发计划 🗓️

  • 支持更多文件格式(Image/Video)
  • 支持数据分析汇图
  • ......
分享文章

File2Table - 文件转表格工具

扫描二维码查看文章

ZhuHai.Fun