Document Summarization

Automatic Document Summarization is the task of rewriting a document into its shorter form while still retaining its important content. The most popular two paradigms are extractive approaches and abstractive approaches. Extractive approaches generate summaries by extracting parts of the original document (usually sentences), while abstractive methods may generate new words or phrases which are not in the original document.

Source: HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 760 papers

Title	Date	Tasks	Status	Hype
GenerationPrograms: Fine-grained Attribution with Executable Programs	Jun 17, 2025	Document SummarizationLong Form Question Answering	CodeCode Available	0
Arctic Long Sequence Training: Scalable And Efficient Training For Multi-Million Token Sequences	Jun 16, 2025	Document SummarizationGPU	CodeCode Available	3
Improving Fairness of Large Language Models in Multi-document Summarization	Jun 9, 2025	AttributeDecision Making	CodeCode Available	0
ARC: Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs	May 29, 2025	Abstractive Text SummarizationARC	—Unverified	0
Ask, Retrieve, Summarize: A Modular Pipeline for Scientific Literature Summarization	May 22, 2025	Document SummarizationMulti-Document Summarization	CodeCode Available	0
Hallucinate at the Last in Long Response Generation: A Case Study on Long Document Summarization	May 21, 2025	Document SummarizationHallucination	—Unverified	0
Document Attribution: Examining Citation Relationships using Large Language Models	May 9, 2025	Document SummarizationNatural Language Inference	—Unverified	0
A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization	Apr 23, 2025	Document RankingDocument Summarization	—Unverified	0
Estimating Optimal Context Length for Hybrid Retrieval-augmented Multi-document Summarization	Apr 17, 2025	Document SummarizationMulti-Document Summarization	CodeCode Available	0
Align to Structure: Aligning Large Language Models with Structural Information	Apr 4, 2025	Document SummarizationText Generation	CodeCode Available	0
M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization?	Mar 27, 2025	Document Summarizationdocument understanding	CodeCode Available	0
Can one size fit all?: Measuring Failure in Multi-Document Summarization Domain Transfer	Mar 20, 2025	AllArticles	—Unverified	0
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis	Mar 20, 2025	Document Layout AnalysisDocument Summarization	CodeCode Available	2
Agent-Enhanced Large Language Models for Researching Political Institutions	Mar 14, 2025	Document SummarizationInformation Retrieval	CodeCode Available	0
A Hybrid Architecture with Efficient Fine Tuning for Abstractive Patent Document Summarization	Mar 13, 2025	Abstractive Text SummarizationDocument Summarization	—Unverified	0
Mitigating Preference Hacking in Policy Optimization with Pessimism	Mar 10, 2025	Document Summarization	—Unverified	0
Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing	Feb 27, 2025	Document SummarizationLarge Language Model	—Unverified	0
LAG: LLM agents for Leaderboard Auto Generation on Demanding	Feb 25, 2025	Document SummarizationMulti-Document Summarization	—Unverified	0
LM Agents for Coordinating Multi-User Information Gathering	Feb 17, 2025	Document SummarizationMulti-Document Summarization	—Unverified	0
Exploring Synaptic Resonance in Large Language Models: A Novel Approach to Contextual Memory Integration	Feb 15, 2025	Document Summarization	—Unverified	0
Scaling Multi-Document Event Summarization: Evaluating Compression vs. Full-Text Approaches	Feb 10, 2025	Document SummarizationMulti-Document Summarization	CodeCode Available	0
Discourse-Driven Evaluation: Unveiling Factual Inconsistency in Long Document Summarization	Feb 10, 2025	Document SummarizationNatural Language Inference	—Unverified	0
HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location	Jan 15, 2025	Document SummarizationManagement	—Unverified	0
Progressive Document-level Text Simplification via Large Language Models	Jan 7, 2025	Document SummarizationSentence	—Unverified	0
End-to-End Long Document Summarization using Gradient Caching	Jan 3, 2025	DecoderDocument Summarization	—Unverified	0
A Rhetorical Relations-Based Framework for Tailored Multimedia Document Summarization	Dec 26, 2024	Document Summarizationgraph construction	—Unverified	0
Precise Length Control in Large Language Models	Dec 16, 2024	DecoderDocument Summarization	—Unverified	0
EventSum: A Large-Scale Event-Centric Summarization Dataset for Chinese Multi-News Documents	Dec 16, 2024	Document SummarizationMulti-Document Summarization	—Unverified	0
Coverage-based Fairness in Multi-document Summarization	Dec 11, 2024	AttributeDocument Summarization	CodeCode Available	0
Mitigating Knowledge Conflicts in Language Model-Driven Question Answering	Nov 18, 2024	Document SummarizationHallucination	—Unverified	0
Fair Summarization: Bridging Quality and Diversity in Extractive Summaries	Nov 12, 2024	DiversityDocument Summarization	CodeCode Available	0
What is Wrong with Perplexity for Long-context Language Modeling?	Oct 31, 2024	Document SummarizationIn-Context Learning	CodeCode Available	2
Hybrid Deep Learning for Legal Text Analysis: Predicting Punishment Durations in Indonesian Court Rulings	Oct 26, 2024	Computational EfficiencyDocument Summarization	—Unverified	0
Natural Language Processing for the Legal Domain: A Survey of Tasks, Datasets, Models, and Challenges	Oct 25, 2024	Argument MiningDocument Summarization	—Unverified	0
Optimizing the role of human evaluation in LLM-based spoken document summarization systems	Oct 23, 2024	Abstractive Text SummarizationDocument Summarization	—Unverified	0
DiscoGraMS: Enhancing Movie Screen-Play Summarization using Movie Character-Aware Discourse Graph	Oct 18, 2024	Document SummarizationQuestion Answering	—Unverified	0
From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization	Oct 17, 2024	Document SummarizationHallucination	CodeCode Available	0
CCSBench: Evaluating Compositional Controllability in LLMs for Scientific Document Summarization	Oct 16, 2024	Document SummarizationScientific Document Summarization	—Unverified	0
PublicHearingBR: A Brazilian Portuguese Dataset of Public Hearing Transcripts for Summarization of Long Documents	Oct 10, 2024	ArticlesDocument Summarization	—Unverified	0
A Novel LLM-based Two-stage Summarization Approach for Long Dialogues	Oct 9, 2024	Abstractive Text SummarizationDocument Summarization	—Unverified	0
GlobeSumm: A Challenging Benchmark Towards Unifying Multi-lingual, Cross-lingual and Multi-document News Summarization	Oct 5, 2024	Document SummarizationMulti-Document Summarization	CodeCode Available	0
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?	Oct 3, 2024	8kDocument Summarization	CodeCode Available	1
ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving	Oct 2, 2024	BenchmarkingDocument Summarization	—Unverified	0
Leveraging Long-Context Large Language Models for Multi-Document Understanding and Summarization in Enterprise Applications	Sep 27, 2024	DiversityDocument Summarization	—Unverified	0
BERT-VBD: Vietnamese Multi-Document Summarization Framework	Sep 18, 2024	Abstractive Text SummarizationDocument Summarization	—Unverified	0
E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning	Sep 10, 2024	Code GenerationDecoder	—Unverified	0
Abstractive Text Summarization: State of the Art, Challenges, and Improvements	Sep 4, 2024	Abstractive Text SummarizationDocument Summarization	—Unverified	0
SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section	Aug 29, 2024	ArticlesDocument Summarization	—Unverified	0
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data	Aug 25, 2024	Document SummarizationGeneral Knowledge	—Unverified	0
Preference-Guided Reflective Sampling for Aligning Language Models	Aug 22, 2024	Document SummarizationInstruction Following	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 16Next →

All datasets CNN / Daily Mail HowSumm-Step HowSumm-Method Arxiv HEP-TH citation graph arXiv Summarization Dataset BBC XSum WikiLingua (tr->en)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	HAT-BART	ROUGE-1	44.48	—	Unverified
2	MatchSum (RoBERTa-base)	ROUGE-1	44.41	—	Unverified
3	Hie-BART	ROUGE-1	44.35	—	Unverified
4	MatchSum (BERT-base)	ROUGE-1	44.22	—	Unverified
5	BertSumExt	ROUGE-1	43.85	—	Unverified
6	BigBird-Pegasus	ROUGE-1	43.84	—	Unverified
7	T5-11B	ROUGE-1	43.52	—	Unverified
8	BERTSUM+Transformer	ROUGE-1	43.25	—	Unverified
9	UniLM (Abstractive Summarization)	ROUGE-1	43.08	—	Unverified
10	Selector+Pointer Generator	ROUGE-1	41.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LexRank (query: step title)	ROUGE-1	39.6	—	Unverified
2	CES (query: step title)	ROUGE-1	39.3	—	Unverified
3	CES (query: step + method titles)	ROUGE-1	38.3	—	Unverified
4	LexRank (query: step + method titles)	ROUGE-1	38.2	—	Unverified
5	CES (query: step + method + article titles)	ROUGE-1	37	—	Unverified
6	LexRank (query: step + method + article titles)	ROUGE-1	36.3	—	Unverified
7	GreedyRel (query: step + method titles)	ROUGE-1	30.3	—	Unverified
8	GreedyRel (query: step title)	ROUGE-1	30.1	—	Unverified
9	BM25-HierSumm (query: step + method titles)	ROUGE-1	23	—	Unverified
10	BM25-HierSumm (query: step title)	ROUGE-1	22.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LexRank (query: method + article + steps titles)	ROUGE-1	53.5	—	Unverified
2	CES (query: method + article + steps titles)	ROUGE-1	52.2	—	Unverified
3	GreedyRel (query: method + article + steps titles)	ROUGE-1	48.6	—	Unverified
4	CES (query: method title)	ROUGE-1	48.4	—	Unverified
5	CES (query: method + article titles)	ROUGE-1	48.3	—	Unverified
6	LexRank (query: method title)	ROUGE-1	47.7	—	Unverified
7	LexRank (query: method + article titles)	ROUGE-1	47.1	—	Unverified
8	GreedyRel (query: method title)	ROUGE-1	43.4	—	Unverified
9	GreedyRel (query: method + article titles)	ROUGE-1	42.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepPyramidion	ROUGE-1	47.15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepPyramidion	Rouge-2	19.99	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BigBird-Pegasus	ROUGE-1	47.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DOCmT5	Rouge-L	31.37	—	Unverified