arXiv-txt是一个创新型开源工具,只需修改arXiv论文链接即可快速获取适合大语言模型处理的优化格式文本。项目基于现代Web技术栈构建,已部署在Vercel平台提供开箱即用的服务。
极速格式转换
将原arXiv链接arxiv.org/abs/论文ID改为arxiv-txt.org/abs/论文ID即可获得:
精简排版的无干扰纯文本
数学公式标准化表示
参考文献结构化处理
适配LLM训练的优化格式
开发者友好API 支持通过API端点直接获取处理后的内容:
curl https://arxiv-txt.org/api/2502.10248
前端实现
框架:Next.js 13+(App Router模式)
UI库:React + 极简设计的Geist字体
样式:Tailwind CSS原子化样式方案
后端服务
代理层:Next.js API路由处理CORS和限流
缓存机制:HTTP响应头控制+服务端缓存
部署方案:Vercel平台自动扩展
快速使用指南
1、找到目标arXiv论文(示例:https://arxiv.org/abs/2502.10248)
2、替换域名部分为arxiv-txt.org
3、访问新链接获取优化文本:https://arxiv-txt.org/abs/2502.10248
开发者指南
本地开发环境
git clone https://github.com/jerpint/arxiv-txt.git
cd arxiv-txt
npm install
npm run dev
生产部署
npm run build
vercel deploy
适合对象
研究者:快速获取适合LLM训练的论文数据集
开发者:开箱即用的学术文本处理中间件
学生党:便捷生成无格式干扰的阅读版本
