Text Retrieval

Text Retrieval is the task of finding the most text result (such as an answer, paragraph, or passage) given a query (which could be a question, keywords, or any relevant text)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 671 papers

Title	Date	Tasks	Status	Hype
Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval	Jun 26, 2025	Cross-Modal RetrievalImage-text Retrieval	—Unverified	0
Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations	Jun 16, 2025	RAGRetrieval	CodeCode Available	0
GLAP: General contrastive audio-text pretraining across domains and languages	Jun 12, 2025	AudioCapsKeyword Spotting	CodeCode Available	2
MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling	Jun 12, 2025	16kRetrieval	CodeCode Available	0
Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration	Jun 12, 2025	cross-modal alignmentImage to text	—Unverified	0
TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning	Jun 12, 2025	Answer GenerationChunking	CodeCode Available	2
Adding simple structure at inference improves Vision-Language Compositionality	Jun 11, 2025	AttributeImage-text Retrieval	CodeCode Available	0
FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation	Jun 10, 2025	Image-text RetrievalQuestion Answering	CodeCode Available	2
DiscoVLA: Discrepancy Reduction in Vision, Language, and Alignment for Parameter-Efficient Video-Text Retrieval	Jun 10, 2025	Image CaptioningRetrieval	CodeCode Available	1
Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models	Jun 10, 2025	Contrastive LearningImage-text matching	CodeCode Available	1
Beyond Cropped Regions: New Benchmark and Corresponding Baseline for Chinese Scene Text Retrieval in Diverse Layouts	Jun 5, 2025	RetrievalText Retrieval	—Unverified	0
Attacking Attention of Foundation Models Disrupts Downstream Tasks	Jun 3, 2025	Depth EstimationImage-text Retrieval	CodeCode Available	0
ERU-KG: Efficient Reference-aligned Unsupervised Keyphrase Generation	May 30, 2025	InformativenessKeyphrase Generation	CodeCode Available	0
One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory	May 29, 2025	Contrastive LearningText Retrieval	CodeCode Available	2
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval	May 26, 2025	Image RetrievalLarge Language Model	—Unverified	0
Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation	May 25, 2025	Contrastive LearningImage-text Retrieval	—Unverified	0
EvdCLIP: Improving Vision-Language Retrieval with Entity Visual Descriptions from Large Language Models	May 24, 2025	Image-text RetrievalLanguage Modeling	—Unverified	0
Representation Discrepancy Bridging Method for Remote Sensing Image-Text Retrieval	May 22, 2025	cross-modal alignmentImage-text Retrieval	—Unverified	0
LoVR: A Benchmark for Long Video Retrieval in Multimodal Contexts	May 20, 2025	Caption GenerationRetrieval	CodeCode Available	1
Breaking Language Barriers or Reinforcing Bias? A Study of Gender and Racial Disparities in Multilingual Contrastive Vision Language Models	May 20, 2025	Image-text RetrievalText Retrieval	—Unverified	0
mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs	May 16, 2025	Information RetrievalKnowledge Graphs	CodeCode Available	1
Towards Cross-modal Retrieval in Chinese Cultural Heritage Documents: Dataset and Solution	May 16, 2025	Cross-Modal RetrievalImage to text	—Unverified	0
Reproducibility, Replicability, and Insights into Visual Document Retrieval with Late Interaction	May 12, 2025	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	0
A Vision-Language Foundation Model for Leaf Disease Identification	May 11, 2025	Contrastive Learningimage-classification	CodeCode Available	0
FG-CLIP: Fine-Grained Visual and Textual Alignment	May 8, 2025	Image-text Retrievalobject-detection	CodeCode Available	4
QBD-RankedDataGen: Generating Custom Ranked Datasets for Improving Query-By-Document Search Using LLM-Reranking with Reduced Human Effort	May 7, 2025	Information RetrievalReranking	—Unverified	0
AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection	Apr 28, 2025	Adversarial AttackAnomaly Detection	—Unverified	0
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs	Apr 24, 2025	Image-text RetrievalInstruction Following	—Unverified	0
Towards Understanding Camera Motions in Any Video	Apr 21, 2025	Question AnsweringText Retrieval	—Unverified	0
SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs	Apr 17, 2025	Cross-Modal RetrievalImage Retrieval	—Unverified	0
DART: Disease-aware Image-Text Alignment and Self-correcting Re-alignment for Trustworthy Radiology Report Generation	Apr 16, 2025	Contrastive LearningImage to text	—Unverified	0
FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations	Apr 11, 2025	image-classificationImage Classification	—Unverified	0
Bridging Queries and Tables through Entities in Table Retrieval	Apr 9, 2025	RetrievalTable Retrieval	—Unverified	0
LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders	Apr 4, 2025	Self-Supervised LearningText Retrieval	—Unverified	0
Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval	Apr 3, 2025	Information RetrievalRepresentation Learning	—Unverified	0
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	—Unverified	0
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models	Mar 25, 2025	BenchmarkingImage Captioning	CodeCode Available	1
SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI	Mar 25, 2025	Contrastive LearningImage Segmentation	—Unverified	0
Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis	Mar 25, 2025	Contrastive LearningImage-text Retrieval	CodeCode Available	2
GOAL: Global-local Object Alignment Learning	Mar 22, 2025	DescriptiveObject	CodeCode Available	1
Anatomy-Aware Conditional Image-Text Retrieval	Mar 10, 2025	AnatomyContrastive Learning	—Unverified	0
Bridging Classical and Quantum String Matching: A Computational Reformulation of Bit-Parallelism	Mar 7, 2025	Text Retrieval	—Unverified	0
Variance-Aware Loss Scheduling for Multimodal Alignment in Low-Data Settings	Mar 5, 2025	Contrastive LearningImage-text Retrieval	—Unverified	0
Tailoring Table Retrieval from a Field-aware Hybrid Matching Perspective	Mar 4, 2025	RetrievalSentence	—Unverified	0
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning	Mar 4, 2025	Contrastive LearningImage-text Retrieval	—Unverified	0
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Mar 3, 2025	Contrastive LearningText Retrieval	—Unverified	0
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations	Mar 2, 2025	image-classificationImage Classification	—Unverified	0
ABC: Achieving Better Control of Multimodal Embeddings using VLMs	Mar 1, 2025	Image to textImage-to-Text Retrieval	—Unverified	0
How Vital is the Jurisprudential Relevance: Law Article Intervened Legal Case Retrieval and Matching	Feb 25, 2025	Multi-Task LearningRetrieval	—Unverified	0
Progressive Local Alignment for Medical Multimodal Pre-training	Feb 25, 2025	Contrastive LearningImage-text Retrieval	—Unverified	0

Show:10 25 50

← PrevPage 1 of 14Next →

No leaderboard results yet.