rXiv-txt:一键转换arXiv论文为LLM友好格式的神器

arXiv-txt是一个创新型开源工具,只需修改arXiv论文链接即可快速获取适合大语言模型处理的优化格式文本。项目基于现代Web技术栈构建,已部署在Vercel平台提供开箱即用的服务。

极速格式转换 将原arXiv链接arxiv.org/abs/论文ID改为arxiv-txt.org/abs/论文ID即可获得:

精简排版的无干扰纯文本

数学公式标准化表示

参考文献结构化处理

适配LLM训练的优化格式

开发者友好API 支持通过API端点直接获取处理后的内容:

curl https://arxiv-txt.org/api/2502.10248

前端实现

框架:Next.js 13+(App Router模式)

UI库:React + 极简设计的Geist字体

样式:Tailwind CSS原子化样式方案

后端服务

代理层:Next.js API路由处理CORS和限流

缓存机制:HTTP响应头控制+服务端缓存

部署方案:Vercel平台自动扩展

快速使用指南

1、找到目标arXiv论文(示例:https://arxiv.org/abs/2502.10248

2、替换域名部分为arxiv-txt.org

3、访问新链接获取优化文本:https://arxiv-txt.org/abs/2502.10248

开发者指南

本地开发环境

git clone https://github.com/jerpint/arxiv-txt.git
cd arxiv-txt
npm install
npm run dev

生产部署

npm run build
vercel deploy

适合对象

研究者:快速获取适合LLM训练的论文数据集

开发者:开箱即用的学术文本处理中间件

学生党:便捷生成无格式干扰的阅读版本