Chunking

Chunking, also known as shallow parsing, identifies continuous spans of tokens that form syntactic units such as noun phrases or verb phrases.

Example:

| Vinken | , | 61 | years | old | | --- | ---| --- | --- | --- | | B-NLP| I-NP | I-NP | I-NP | I-NP |

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 447 papers

Title	Date	Tasks	Status	Hype
NitiBench: A Comprehensive Studies of LLM Frameworks Capabilities for Thai Legal Question Answering	Feb 15, 2025	ChunkingInformation Retrieval	CodeCode Available	0
Discovering Chunks in Neural Embeddings for Interpretability	Feb 3, 2025	Chunking	—Unverified	0
LLM-TA: An LLM-Enhanced Thematic Analysis Pipeline for Transcripts from Parents of Children with Congenital Heart Disease	Feb 3, 2025	ChunkingPrompt Engineering	CodeCode Available	0
ACT-JEPA: Joint-Embedding Predictive Architecture Improves Policy Representation Learning	Jan 24, 2025	ChunkingDecision Making	—Unverified	0
Chat3GPP: An Open-Source Retrieval-Augmented Generation Framework for 3GPP Documents	Jan 20, 2025	ChunkingRAG	CodeCode Available	1
Evolution of diverse (and advanced) cognitive abilities through adaptive fine-tuning of learning and chunking mechanisms	Jan 20, 2025	ChunkingDecision Making	—Unverified	0
Passage Segmentation of Documents for Extractive Question Answering	Jan 17, 2025	ChunkingExtractive Question-Answering	—Unverified	0
Enhancing Talent Employment Insights Through Feature Extraction with LLM Finetuning	Jan 13, 2025	ChunkingRAG	—Unverified	0
S2 Chunking: A Hybrid Framework for Document Segmentation Through Integrated Spatial and Semantic Analysis	Jan 8, 2025	ArticlesChunking	CodeCode Available	1
On LLM-Enhanced Mixed-Type Data Imputation with High-Order Message Passing	Jan 4, 2025	ChunkingImputation	CodeCode Available	1
CarbonChat: Large Language Model-Based Corporate Carbon Emission Analysis and Climate Knowledge Q&A System	Jan 3, 2025	ChunkingHallucination	—Unverified	0
CAG: Chunked Augmented Generation for Google Chrome's Built-in Gemini Nano	Dec 24, 2024	Chunking	CodeCode Available	0
A Retrieval-Augmented Generation Framework for Academic Literature Navigation in Data Science	Dec 19, 2024	ChunkingDecision Making	—Unverified	0
PCA-Featured Transformer for Jamming Detection in 5G UAV Networks	Dec 19, 2024	ChunkingFeature Engineering	—Unverified	0
TOBUGraph: Knowledge Graph-Based Retrieval for Enhanced LLM Performance Beyond RAG	Dec 6, 2024	ChunkingHallucination	—Unverified	0
Ltri-LLM: Streaming Long Context Inference for LLMs with Training-Free Dynamic Triangular Attention Pattern	Dec 6, 2024	Chunking	—Unverified	0
Advanced System Integration: Analyzing OpenAPI Chunking for Retrieval-Augmented Generation	Nov 29, 2024	ChunkingRAG	—Unverified	0
Attamba: Attending To Multi-Token States	Nov 26, 2024	ChunkingState Space Models	CodeCode Available	1
Performance Evaluation of Geospatial Images based on Zarr and Tiff	Nov 18, 2024	ChunkingManagement	—Unverified	0
Unlocking Legal Knowledge with Multi-Layered Embedding-Based Retrieval	Nov 12, 2024	ArticlesChunking	—Unverified	0
TeleOracle: Fine-Tuned Retrieval-Augmented Generation with Long-Context Support for Network	Nov 4, 2024	ChunkingLanguage Modelling	CodeCode Available	1
LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models	Nov 1, 2024	ArticlesChunking	—Unverified	0
ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems	Oct 25, 2024	ChunkingFact Checking	—Unverified	0
LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering	Oct 23, 2024	ChunkingQuestion Answering	CodeCode Available	2
ProveRAG: Provenance-Driven Vulnerability Analysis with Automated Retrieval-Augmented LLMs	Oct 22, 2024	ChunkingHallucination	CodeCode Available	0
EPIC: Efficient Position-Independent Caching for Serving Large Language Models	Oct 20, 2024	ChunkingFew-Shot Learning	—Unverified	0
Action abstractions for amortized sampling	Oct 19, 2024	ChunkingReinforcement Learning (RL)	—Unverified	0
Is Semantic Chunking Worth the Computational Cost?	Oct 16, 2024	Answer GenerationChunking	—Unverified	0
CoFE-RAG: A Comprehensive Full-chain Evaluation Framework for Retrieval-Augmented Generation with Enhanced Data Diversity	Oct 16, 2024	ChunkingDiversity	CodeCode Available	1
Meta-Chunking: Learning Text Segmentation and Semantic Completion via Logical Perception	Oct 16, 2024	Binary ClassificationChunking	CodeCode Available	3
SEER: Self-Aligned Evidence Extraction for Retrieval-Augmented Generation	Oct 15, 2024	ChunkingRAG	CodeCode Available	0
ChuLo: Chunk-Level Key Information Representation for Long Document Processing	Oct 14, 2024	ChunkingClassification	CodeCode Available	0
Liger Kernel: Efficient Triton Kernels for LLM Training	Oct 14, 2024	ChunkingGPU	CodeCode Available	9
SciGisPy: a Novel Metric for Biomedical Text Simplification via Gist Inference Score	Oct 12, 2024	ChunkingText Simplification	—Unverified	0
Integrating Supertag Features into Neural Discontinuous Constituent Parsing	Oct 11, 2024	ChunkingDependency Parsing	CodeCode Available	0
Autoregressive Action Sequence Learning for Robotic Manipulation	Oct 4, 2024	ChunkingLanguage Modeling	CodeCode Available	2
UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation	Oct 3, 2024	ChunkingLanguage Modeling	—Unverified	0
Medha: Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximations	Sep 25, 2024	BlockingChunking	—Unverified	0
J2N -- Nominal Adjective Identification and its Application	Sep 22, 2024	Chunkingcoreference-resolution	CodeCode Available	0
InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation	Sep 12, 2024	ChunkingDecoder	—Unverified	0
Late Chunking: Contextual Chunk Embeddings Using Long-Context Embedding Models	Sep 7, 2024	ChunkingRetrieval	CodeCode Available	3
3D Gaussian Splatting for Large-scale Surface Reconstruction from Aerial Images	Aug 31, 2024	3DGSChunking	—Unverified	0
Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling	Aug 30, 2024	Chunking	CodeCode Available	2
TalkLoRA: Low-Rank Adaptation for Speech-Driven Animation	Aug 25, 2024	Chunking	—Unverified	0
Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards	Aug 21, 2024	ChunkingComputational Efficiency	CodeCode Available	1
Meta Knowledge for Retrieval Augmented Large Language Models	Aug 16, 2024	ChunkingInformation Retrieval	—Unverified	0
Hierarchical Working Memory and a New Magic Number	Aug 14, 2024	Chunking	—Unverified	0
Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation	Aug 8, 2024	ChunkingFact Checking	CodeCode Available	4
BLAZE: Cross-Language and Cross-Project Bug Localization via Dynamic Chunking and Hard Example Learning	Jul 24, 2024	Chunking	—Unverified	0
From Imitation to Refinement -- Residual RL for Precise Assembly	Jul 23, 2024	ChunkingPolicy Gradient Methods	—Unverified	0

Show:10 25 50

← PrevPage 2 of 9Next →

All datasets CoNLL-2000 Penn Treebank CoNLL 2003 (German)CoNLL 2003 (English)CoNLL 2003

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ACE	Exact Span F1	97.3	—	Unverified
2	BERT-CRF (Replicated in AdaSeq)	Exact Span F1	97.18	—	Unverified
3	ELMo + MAT + Multi-Task	Exact Span F1	97.04	—	Unverified
4	CVT+Multi-Task+Large	Exact Span F1	96.98	—	Unverified
5	ELMo + Multi-Task	Exact Span F1	96.83	—	Unverified
6	Flair	Exact Span F1	96.72	—	Unverified
7	SeqVAT	Exact Span F1	95.45	—	Unverified
8	Adversarial Training	Exact Span F1	95.25	—	Unverified
9	BiLSTM-CRF	Exact Span F1	95.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACE	F1 score	97.3	—	Unverified
2	Flair embeddings	F1 score	96.72	—	Unverified
3	JMT	F1 score	95.77	—	Unverified
4	Low supervision	F1 score	95.57	—	Unverified
5	IntNet + BiLSTM-CRF	F1 score	95.29	—	Unverified
6	Suzuki and Isozaki	F1 score	95.15	—	Unverified
7	NCRF++	F1 score	95.06	—	Unverified
8	BI-LSTM-CRF (Senna) (ours)	F1 score	94.46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACE	F1	95	—	Unverified
2	Wang et al., 2020	F1	94.4	—	Unverified
3	AIN	F1	94.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wang et al., 2020	F1	92	—	Unverified
2	AIN	F1	91.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Def2Vec	AUC	93.07	—	Unverified