Text Retrieval

Text Retrieval is the task of finding the most text result (such as an answer, paragraph, or passage) given a query (which could be a question, keywords, or any relevant text)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 671 papers

Title	Date	Tasks	Status	Hype
MedCLIP: Contrastive Learning from Unpaired Medical Images and Text	Oct 18, 2022	Contrastive LearningImage-text Retrieval	CodeCode Available	2
FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation	Jun 10, 2025	Image-text RetrievalQuestion Answering	CodeCode Available	2
Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis	Mar 25, 2025	Contrastive LearningImage-text Retrieval	CodeCode Available	2
Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing	Dec 21, 2022	Contrastive LearningDrug Design	CodeCode Available	2
Gramian Multimodal Representation Learning and Alignment	Dec 16, 2024	Contrastive LearningRepresentation Learning	CodeCode Available	2
Cross-Modal and Uni-Modal Soft-Label Alignment for Image-Text Retrieval	Mar 8, 2024	Image-text RetrievalRetrieval	CodeCode Available	2
AudioSetCaps: An Enriched Audio-Caption Dataset using Automated Generation Pipeline with Large Audio and Language Models	Nov 28, 2024	Audio captioningAudio to Text Retrieval	CodeCode Available	2
GLAP: General contrastive audio-text pretraining across domains and languages	Jun 12, 2025	AudioCapsKeyword Spotting	CodeCode Available	2
M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval	Jan 31, 2024	RetrievalText Retrieval	CodeCode Available	2
TableRAG: A Retrieval Augmented Generation Framework for Heterogeneous Document Reasoning	Jun 12, 2025	Answer GenerationChunking	CodeCode Available	2
Audio Retrieval with WavText5K and CLAP Training	Sep 28, 2022	AudioCapsAudio captioning	CodeCode Available	1
Audio Retrieval with Natural Language Queries: A Benchmark Study	Dec 17, 2021	AudioCapsAudio captioning	CodeCode Available	1
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation	Jul 16, 2021	Cross-Modal RetrievalGrounded language learning	CodeCode Available	1
Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration	May 26, 2024	Information RetrievalRetrieval	CodeCode Available	1
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports	Sep 3, 2020	Image-text RetrievalMedical Visual Question Answering	CodeCode Available	1
From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping	Apr 26, 2023	DecoderImage Captioning	CodeCode Available	1
COCO-DR: Combating Distribution Shifts in Zero-Shot Dense Retrieval with Contrastive and Distributionally Robust Learning	Oct 27, 2022	Language ModelingLanguage Modelling	CodeCode Available	1
Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval	Aug 1, 2024	AttributeOptical Character Recognition	CodeCode Available	1
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark	Aug 5, 2024	Dense Video CaptioningDiversity	CodeCode Available	1
A Survey of Medical Vision-and-Language Applications and Their Techniques	Nov 19, 2024	Decision MakingDiagnostic	CodeCode Available	1
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone	Jun 15, 2022	Described Object DetectionImage Captioning	CodeCode Available	1
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning	Mar 1, 2020	Cross-Modal RetrievalRetrieval	CodeCode Available	1
Fine-Tuning LLaMA for Multi-Stage Text Retrieval	Oct 12, 2023	Passage RetrievalRetrieval	CodeCode Available	1
FILIP: Fine-grained Interactive Language-Image Pre-Training	Nov 9, 2021	image-classificationImage Classification	CodeCode Available	1
Fine-Grained Image-Text Matching by Cross-Modal Hard Aligning Network	Jan 1, 2023	Image-text matchingRetrieval	CodeCode Available	1
Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift	Dec 15, 2022	BenchmarkingImage Captioning	CodeCode Available	1
mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs	May 16, 2025	Information RetrievalKnowledge Graphs	CodeCode Available	1
FETA: Towards Specializing Foundation Models for Expert Task Applications	Sep 8, 2022	Domain GeneralizationFew-Shot Learning	CodeCode Available	1
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning	Mar 19, 2024	Diagnosticimage-classification	CodeCode Available	1
AdvCLIP: Downstream-agnostic Adversarial Examples in Multimodal Contrastive Learning	Aug 14, 2023	Contrastive LearningGenerative Adversarial Network	CodeCode Available	1
Exploring Classic and Neural Lexical Translation Models for Information Retrieval: Interpretability, Effectiveness, and Efficiency Benefits	Feb 12, 2021	CPUDocument Ranking	CodeCode Available	1
Fast and Light-Weight Answer Text Retrieval in Dialogue Systems	May 27, 2022	Re-RankingRetrieval	CodeCode Available	1
FlexiViT: One Model for All Patch Sizes	Dec 15, 2022	AllImage-text Retrieval	CodeCode Available	1
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment	Aug 29, 2022	cross-modal alignmentImage-text Retrieval	CodeCode Available	1
Building an Open-Vocabulary Video CLIP Model with Better Architectures, Optimization and Data	Oct 8, 2023	Action RecognitionContinual Learning	CodeCode Available	1
Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval	Jul 1, 2020	Contrastive LearningPassage Retrieval	CodeCode Available	1
A Comprehensive Review of the Video-to-Text Problem	Mar 27, 2021	Question AnsweringRetrieval	CodeCode Available	1
Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models	Jun 10, 2025	Contrastive LearningImage-text matching	CodeCode Available	1
Bridging Language Gaps in Audio-Text Retrieval	Jun 11, 2024	AudioCapsRetrieval	CodeCode Available	1
Efficiently Teaching an Effective Dense Retriever with Balanced Topic Aware Sampling	Apr 14, 2021	GPURe-Ranking	CodeCode Available	1
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training	Jun 15, 2023	Image-text RetrievalRepresentation Learning	CodeCode Available	1
A Prior Instruction Representation Framework for Remote Sensing Image-text Retrieval	Oct 27, 2023	Cross-Modal RetrievalImage-text Retrieval	CodeCode Available	1
A Dense Representation Framework for Lexical and Semantic Matching	Jun 20, 2022	RetrievalSemantic Text Matching	CodeCode Available	1
Enhancing Vision-Language Pre-Training with Jointly Learned Questioner and Dense Captioner	May 19, 2023	Dense CaptioningImage Captioning	CodeCode Available	1
Bridging Video-text Retrieval with Multiple Choice Questions	Jan 13, 2022	Action RecognitionLinear evaluation	CodeCode Available	1
ArabicaQA: A Comprehensive Dataset for Arabic Question Answering	Mar 26, 2024	BenchmarkingMachine Reading Comprehension	CodeCode Available	1
Extending Multi-modal Contrastive Representations	Oct 13, 2023	3D Object ClassificationRepresentation Learning	CodeCode Available	1
CLASP: Contrastive Language-Speech Pretraining for Multilingual Multimodal Information Retrieval	Dec 17, 2024	Contrastive LearningInformation Retrieval	CodeCode Available	1
DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset	Dec 8, 2022	DiversityImage Description	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 14Next →

No leaderboard results yet.