Chunking

Chunking, also known as shallow parsing, identifies continuous spans of tokens that form syntactic units such as noun phrases or verb phrases.

Example:

| Vinken | , | 61 | years | old | | --- | ---| --- | --- | --- | | B-NLP| I-NP | I-NP | I-NP | I-NP |

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 447 papers

Title	Date	Tasks	Status
Advanced System Integration: Analyzing OpenAPI Chunking for Retrieval-Augmented Generation	Nov 29, 2024	ChunkingRAG	—Unverified
Performance Evaluation of Geospatial Images based on Zarr and Tiff	Nov 18, 2024	ChunkingManagement	—Unverified
Unlocking Legal Knowledge with Multi-Layered Embedding-Based Retrieval	Nov 12, 2024	ArticlesChunking	—Unverified
LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models	Nov 1, 2024	ArticlesChunking	—Unverified
ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems	Oct 25, 2024	ChunkingFact Checking	—Unverified
ProveRAG: Provenance-Driven Vulnerability Analysis with Automated Retrieval-Augmented LLMs	Oct 22, 2024	ChunkingHallucination	CodeCode Available
EPIC: Efficient Position-Independent Caching for Serving Large Language Models	Oct 20, 2024	ChunkingFew-Shot Learning	—Unverified
Action abstractions for amortized sampling	Oct 19, 2024	ChunkingReinforcement Learning (RL)	—Unverified
Is Semantic Chunking Worth the Computational Cost?	Oct 16, 2024	Answer GenerationChunking	—Unverified
SEER: Self-Aligned Evidence Extraction for Retrieval-Augmented Generation	Oct 15, 2024	ChunkingRAG	CodeCode Available
ChuLo: Chunk-Level Key Information Representation for Long Document Processing	Oct 14, 2024	ChunkingClassification	CodeCode Available
SciGisPy: a Novel Metric for Biomedical Text Simplification via Gist Inference Score	Oct 12, 2024	ChunkingText Simplification	—Unverified
Integrating Supertag Features into Neural Discontinuous Constituent Parsing	Oct 11, 2024	ChunkingDependency Parsing	CodeCode Available
UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation	Oct 3, 2024	ChunkingLanguage Modeling	—Unverified
Medha: Efficiently Serving Multi-Million Context Length LLM Inference Requests Without Approximations	Sep 25, 2024	BlockingChunking	—Unverified
J2N -- Nominal Adjective Identification and its Application	Sep 22, 2024	Chunkingcoreference-resolution	CodeCode Available
InterACT: Inter-dependency Aware Action Chunking with Hierarchical Attention Transformers for Bimanual Manipulation	Sep 12, 2024	ChunkingDecoder	—Unverified
3D Gaussian Splatting for Large-scale Surface Reconstruction from Aerial Images	Aug 31, 2024	3DGSChunking	—Unverified
TalkLoRA: Low-Rank Adaptation for Speech-Driven Animation	Aug 25, 2024	Chunking	—Unverified
Meta Knowledge for Retrieval Augmented Large Language Models	Aug 16, 2024	ChunkingInformation Retrieval	—Unverified
Hierarchical Working Memory and a New Magic Number	Aug 14, 2024	Chunking	—Unverified
BLAZE: Cross-Language and Cross-Project Bug Localization via Dynamic Chunking and Hard Example Learning	Jul 24, 2024	Chunking	—Unverified
From Imitation to Refinement -- Residual RL for Precise Assembly	Jul 23, 2024	ChunkingPolicy Gradient Methods	—Unverified
Two eyes, Two views, and finally, One summary! Towards Multi-modal Multi-tasking Knowledge-Infused Medical Dialogue Summarization	Jul 21, 2024	ChunkingConversation Summarization	CodeCode Available
CUSIDE-array: A Streaming Multi-Channel End-to-End Speech Recognition System with Realistic Evaluations	Jul 13, 2024	Chunkingspeech-recognition	—Unverified
Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations	Jul 5, 2024	ChunkingFew-Shot Learning	CodeCode Available
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs	Jun 21, 2024	4kChunking	—Unverified
Leveraging Large Language Models for Web Scraping	Jun 12, 2024	ChunkingRAG	—Unverified
Mix-of-Granularity: Optimize the Chunking Granularity for Retrieval-Augmented Generation	Jun 1, 2024	ChunkingRAG	CodeCode Available
PathOCL: Path-Based Prompt Augmentation for OCL Generation with GPT-4	May 21, 2024	Chunkingvalid	—Unverified
Equipping Transformer with Random-Access Reading for Long-Context Understanding	May 21, 2024	ChunkingLong-Context Understanding	—Unverified
ExACT: An End-to-End Autonomous Excavator System Using Action Chunking With Transformers	May 9, 2024	ChunkingImitation Learning	—Unverified
Sequence Compression Speeds Up Credit Assignment in Reinforcement Learning	May 6, 2024	ChunkingNavigate	CodeCode Available
Multi-view Content-aware Indexing for Long Document Retrieval	Apr 23, 2024	ChunkingQuestion Answering	—Unverified
Improving Retrieval for RAG based Question Answering Models on Financial Documents	Mar 23, 2024	ChunkingQuestion Answering	—Unverified
Opening the black box of language acquisition	Feb 18, 2024	ChunkingLanguage Acquisition	CodeCode Available
BGE Landmark Embedding: A Chunking-Free Embedding Method For Retrieval Augmented Long-Context Large Language Models	Feb 18, 2024	ChunkingLanguage Modeling	—Unverified
Grounding Language Model with Chunking-Free In-Context Retrieval	Feb 15, 2024	ChunkingLanguage Modeling	—Unverified
Punctuation Restoration Improves Structure Understanding Without Supervision	Feb 13, 2024	ChunkingLanguage Modeling	CodeCode Available
Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT	Feb 12, 2024	BenchmarkingChunking	—Unverified
Financial Report Chunking for Effective Retrieval Augmented Generation	Feb 5, 2024	Chunkingdocument understanding	CodeCode Available
Def2Vec: Extensible Word Embeddings from Dictionary Definitions	Dec 16, 2023	Chunkingnamed-entity-recognition	CodeCode Available
Releasing the CRaQAn (Coreference Resolution in Question-Answering): An open-source dataset and dataset creation methodology using instruction-following models	Nov 27, 2023	Chunkingcoreference-resolution	—Unverified
A recurrent connectionist model of melody perception : An exploration using TRACX2	Nov 21, 2023	ChunkingSegmentation	—Unverified
Breaking the Token Barrier: Chunking and Convolution for Efficient Long Text Classification with BERT	Oct 31, 2023	Binary ClassificationChunking	—Unverified
Symmetrical SyncMap for Imbalanced General Chunking Problems	Oct 16, 2023	Chunking	—Unverified
Abstractive Summarization of Large Document Collections Using GPT	Oct 9, 2023	Abstractive Text SummarizationChunking	—Unverified
Chunking: Continual Learning is not just about Distribution Shift	Oct 3, 2023	ChunkingContinual Learning	CodeCode Available
Fine-tuned vs. Prompt-tuned Supervised Representations: Which Better Account for Brain Language Representations?	Oct 3, 2023	ChunkingMulti-Task Learning	—Unverified
Exploring RWKV for Memory Efficient and Low Latency Streaming ASR	Sep 26, 2023	Chunking	—Unverified

Show:10 25 50

← PrevPage 3 of 9Next →

All datasets CoNLL-2000 Penn Treebank CoNLL 2003 (German)CoNLL 2003 (English)CoNLL 2003

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ACE	Exact Span F1	97.3	—	Unverified
2	BERT-CRF (Replicated in AdaSeq)	Exact Span F1	97.18	—	Unverified
3	ELMo + MAT + Multi-Task	Exact Span F1	97.04	—	Unverified
4	CVT+Multi-Task+Large	Exact Span F1	96.98	—	Unverified
5	ELMo + Multi-Task	Exact Span F1	96.83	—	Unverified
6	Flair	Exact Span F1	96.72	—	Unverified
7	SeqVAT	Exact Span F1	95.45	—	Unverified
8	Adversarial Training	Exact Span F1	95.25	—	Unverified
9	BiLSTM-CRF	Exact Span F1	95.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACE	F1 score	97.3	—	Unverified
2	Flair embeddings	F1 score	96.72	—	Unverified
3	JMT	F1 score	95.77	—	Unverified
4	Low supervision	F1 score	95.57	—	Unverified
5	IntNet + BiLSTM-CRF	F1 score	95.29	—	Unverified
6	Suzuki and Isozaki	F1 score	95.15	—	Unverified
7	NCRF++	F1 score	95.06	—	Unverified
8	BI-LSTM-CRF (Senna) (ours)	F1 score	94.46	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACE	F1	95	—	Unverified
2	Wang et al., 2020	F1	94.4	—	Unverified
3	AIN	F1	94.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Wang et al., 2020	F1	92	—	Unverified
2	AIN	F1	91.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Def2Vec	AUC	93.07	—	Unverified