Pre-training: Data Processing

3/30

Raw internet data is messy and contains harmful content. Thorough cleaning is essential before training.

Stage	Purpose	Examples
URL Filtering	Remove spam/unsafe domains	Block lists, quality metrics
Text Extraction	Pull useful content	HTML parsing, boilerplate removal
Deduplication	Prevent learning from repetition	Hash-based filtering, n-gram overlap
Quality Assessment	Prioritize valuable content	Classifier-based filtering

FineWeb is a high-quality dataset created by HuggingFace, representative of what commercial LLM providers use:

Initial crawl

Quality standards

Made the final cut

High-quality text

The careful curation of training data is as important as the model architecture itself. Quality over quantity is essential.