Crawl4LLM：面向大语言模型预训练的高效网络爬虫

Crawl4LLM是面向大语言模型预训练的高效网络爬虫，为LLM预训练提供高效的网页爬取解决方案，支持多种文档评分策略（基于文本长度、fastText模型评分、随机评分、入链数量等），可智能筛选高质量训练数据。

1、环境配置*

要求Python ≥3.10环境

依赖库：numpy, tqdm, fasttext, pyyaml, wandb

硬件建议：ClueWeb22数据集需存放在SSD硬盘以保证爬取效率

2、运行爬虫

步骤：

1、在configs/目录下创建YAML配置文件

2、执行命令：python crawl.py crawl --config <配置文件路径>

配置示例：


cw22_root_path: <ClueWeb22数据集路径>

seed_docs_file: seed.txt          # 初始种子文档

output_dir: crawl_results/..、    # 输出目录

num_selected_docs_per_iter: 10000 # 每轮选取文档数

max_num_docs: 20000000            # 最大爬取文档数

selection_method: dclm_fasttext_score  # 文档评分方法

3、支持的爬虫策略

DCLM fastText评分：

使用预训练模型评估文档质量，优先爬取高评分内容。

随机爬虫：

随机选择文档，配置项selection_method: random_score。

入链数量爬虫：

优先爬取被更多网页引用的文档，配置项selection_method: inlink_count。

4、数据预处理与训练

提取文档文本：

python fetch_docs.py命令将爬取的文档ID转换为可读文本。

模型预训练：

支持通过DCLM框架进行LLM训练和评估。

5、数据查看工具

通过python access_data.py <数据集路径> <文档ID>可查看指定文档内容及其外链。

技术亮点

高效分布式爬取：支持多线程（num_workers参数调节并发数）

断点续爬：通过save_state_every参数定期保存爬虫状态

实验监控：集成Weights & Biases（WandB）记录实验指标

灵活评分系统：可组合多种评分规则（如文本长度+模型评分）

典型应用场景

1、构建预训练语料库：从海量网页中筛选高质量文本

2、数据质量研究：对比不同爬取策略对模型性能的影响

3、网页结构分析：通过入链/外链关系研究信息传播模式

Crawl4LLM是一个为大规模语言模型（LLM）预训练设计的高效网页爬虫工具，它的代码来源于论文《Crawl4LLM: Efficient Web Crawling for LLM Pretraining》，用于优化爬取的数据质量和效率，以支持LLM的训练。

AI工具网络爬虫

访问 github.com/cxcscmu/Crawl4LLM

你可能想看的

1Xcode搭配Cursor：Cursor 开发 iOS 的实用技巧与避坑指南 iOS开发 AI工具

2从高考志愿到网络热梗都能轻松上手的Kimi首个Agent：Kimi-Researcher AI工具

3智源开源AI绘图神器 OmniGen2 AI工具

4Puppeteer Real Browser：防止被检测为机器人的工具，支持通过验证码 AI工具爬虫蜘蛛

5VDraw.ai：基于 AI 的在线作图工具 AI工具

6photoshot 开源 AI 头像生成器 AI工具

7HealthGPT 医疗大规模视觉语言模型：整合视觉理解与生成能力，支持多种医学任务 AI工具

8MatAnyone 人体视频抠像框架 AI工具视频工具抠图工具

9HiveChat：专为中小团队设计的AI聊天应用 AI工具

10Memobase 基于用户资料的记忆系统，为生成式人工智能（GenAI）应用提供长期用户记忆 AI工具

11Auto-Deep-Research 是一个全自动的个人 AI 助理 AI工具

12Step-Audio 开源智能语音交互框架 AI工具 GitHub

13基于 AI 的 Hacker News 中文播客 AI工具播客

14Deep Research免费的深度研究工具 AI工具

15DeepSeek使用指南 DeepSeek AI工具

16DeepSeek R1 免费流畅使用满血版模型的方法 DeepSeek AI工具

17Cherry Studio 多模型AI服务桌面客户端 AI工具

18阿里云一键部署DeepSeek-V3、DeepSeek-R1 DeepSeek AI工具阿里云

1Mac 下 brew services 启动失败，报错：sudo launchctl bootstrap

2使用launchctl list 查看项目状态，状态码出现 78 的问题 MacOS

3使用pthon实现word转换成pdf，适用于windows系统和macos系统 MicrosoftOfficeWord PDF

4OpenClaw新手必看：20款高人气Skills安装指南 AI OpenClaw

5Trae开发的Python项目，如何在Windows系统上开机自运行？ Windows Python

6Trae开发的Python项目，如何在苹果Macbook上开机自运行？ Python Macbook

7Google Search Console 站长工具使用指南 Google 站长工具

8iOS开发中7个提高效率的实用工具库：MBProgressHUD，Vapor，Try，Swift OpenAPI Generator，MarkEdit，AXe iOS开发

9Excel如何绘制差额对比折线图 Excel教程

10旋风加速器，真正免费的加速器，不限流量旋风加速器

11Origin如何绘制多半径饼图 Origin教程

12海贼王(真人版) 第二季全8集迅雷（国英多音轨+简繁英字幕）动漫动画片海贼王

125学堂-ui素材,专注APP,网站UI界面设计,分享移动互联网优秀产品,ui设计素材下载,网页模板下载,UI/UX设计

2FOSSHUB免费开源软件

3油淋茄子

4Bugly Android SDK 使用指南

5扫黑风暴第22集 - YouTube

6“打卡”英语怎么说？

7依附理论 - 维基百科，自由的百科全书

8MVPArms: ⚔️ 一个整合了大量主流开源项目高度可配置化的 Android MVP 快速集成框架

9早稲田大学百年史

10Facebook在多达 25% 的网站与 61% 最受欢迎应用中部署跟踪器

11豆瓣2020年度读书榜单

12图解react源码, 用大量配图的方式, 致力于将react原理表述清楚.

13推荐 10 个很“哇塞”的Web“资源”给前端工友，收藏等于学会~ - 掘金

14Mac软件_下载最好用的Mac软件_mac输入法_mac播放器_Mac网银_Mac炒股_Mac游戏

15脑梗日记，一次差点猝死体验

16猎豹加速器的特色和功能