Document Classification

Document Classification is a procedure of assigning one or more labels to a document from a predetermined set of labels.

Source: Long-length Legal Document Classification

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 641 papers

Title	Date	Tasks	Status	Hype
NextLevelBERT: Masked Language Modeling with Higher-Level Representations for Long Documents	Feb 27, 2024	Document ClassificationLanguage Modeling	CodeCode Available	1
Prompted Contextual Vectors for Spear-Phishing Detection	Feb 13, 2024	Document Classification	CodeCode Available	1
NLP for Knowledge Discovery and Information Extraction from Energetics Corpora	Feb 10, 2024	ArticlesDocument Classification	—Unverified	0
Efficient Models for the Detection of Hate, Abuse and Profanity	Feb 8, 2024	Document Classificationnamed-entity-recognition	—Unverified	0
Generalized Sobolev Transport for Probability Measures on a Graph	Feb 7, 2024	Document ClassificationTopological Data Analysis	CodeCode Available	0
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models	Feb 6, 2024	Document Classification	CodeCode Available	1
L3Cube-IndicNews: News-based Short Text and Long Document Classification Datasets in Indic Languages	Jan 4, 2024	ArticlesClassification	CodeCode Available	1
GeoGalactica: A Scientific Large Language Model in Geoscience	Dec 31, 2023	Document ClassificationGeneral Knowledge	CodeCode Available	1
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs	Dec 21, 2023	Document ClassificationKnowledge Graphs	—Unverified	0
A Learning oriented DLP System based on Classification Model	Dec 21, 2023	ClassificationDocument Classification	—Unverified	0
MELO: Enhancing Model Editing with Neuron-Indexed Dynamic LoRA	Dec 19, 2023	Document ClassificationHallucination	CodeCode Available	0
Large language models in healthcare and medical domain: A review	Dec 12, 2023	Document Classificationnamed-entity-recognition	—Unverified	0
Summarization-based Data Augmentation for Document Classification	Dec 1, 2023	ClassificationData Augmentation	CodeCode Available	0
SUT: a new multi-purpose synthetic dataset for Farsi document image analysis	Nov 27, 2023	Document Classificationdocument-image-classification	CodeCode Available	0
Learning Section Weights for Multi-Label Document Classification	Nov 26, 2023	ArticlesClassification	—Unverified	0
Causality is all you need	Nov 21, 2023	AllDocument Classification	—Unverified	0
ATLANTIC: Structure-Aware Retrieval-Augmented Language Model for Interdisciplinary Science	Nov 21, 2023	Document ClassificationGraph Neural Network	—Unverified	0
ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models	Nov 15, 2023	Document ClassificationQuestion Answering	CodeCode Available	1
Explainable Text Classification Techniques in Legal Document Review: Locating Rationales without Using Human Annotated Training Text Snippets	Nov 15, 2023	Document Classificationtext-classification	—Unverified	0
A Multi-Modal Multilingual Benchmark for Document Image Classification	Oct 25, 2023	ClassificationCross-Lingual Transfer	—Unverified	0
Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents	Oct 25, 2023	AllDocument Classification	—Unverified	0
Optimal Transport for Measures with Noisy Tree Metric	Oct 20, 2023	Document ClassificationTopological Data Analysis	CodeCode Available	0
BibRank: Automatic Keyphrase Extraction Platform Using~Metadata	Oct 13, 2023	ClusteringDocument Classification	CodeCode Available	0
An Analysis on Large Language Models in Healthcare: A Case Study of BioBERT	Oct 11, 2023	Document ClassificationInformation Retrieval	—Unverified	0
KoBigBird-large: Transformation of Transformer for Korean Language Understanding	Sep 19, 2023	Document ClassificationQuestion Answering	—Unverified	0
Beyond Document Page Classification: Design, Datasets, and Challenges	Aug 24, 2023	BenchmarkingClassification	CodeCode Available	0
Feature Extraction Using Deep Generative Models for Bangla Text Classification on a New Comprehensive Dataset	Aug 21, 2023	Document ClassificationGenerative Adversarial Network	—Unverified	0
Taken by Surprise: Contrast effect for Similarity Scores	Aug 18, 2023	ClassificationDocument Classification	CodeCode Available	1
Accelerated materials language processing enabled by GPT	Aug 18, 2023	Document ClassificationExtractive Question-Answering	—Unverified	0
Large Language Model Prompt Chaining for Long Legal Document Classification	Aug 8, 2023	Document ClassificationIn-Context Learning	—Unverified	0
LaFiCMIL: Rethinking Large File Classification from the Perspective of Correlated Multiple Instance Learning	Jul 30, 2023	Android Malware DetectionClassification	—Unverified	0
Incrementally-Computable Neural Networks: Efficient Inference for Dynamic Inputs	Jul 27, 2023	Document ClassificationKnowledge Distillation	—Unverified	0
UMLS-KGI-BERT: Data-Centric Knowledge Integration in Transformers for Biomedical Entity Recognition	Jul 20, 2023	Document Classificationnamed-entity-recognition	—Unverified	0
Can Model Fusing Help Transformers in Long Document Classification? An Empirical Study	Jul 18, 2023	ClassificationDocument Classification	CodeCode Available	0
Attention over pre-trained Sentence Embeddings for Long Document Classification	Jul 18, 2023	Document ClassificationSentence	—Unverified	0
MDACE: MIMIC Documents Annotated with Code Evidence	Jul 7, 2023	Document ClassificationExtreme Multi-Label Classification	CodeCode Available	0
Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts	Jul 5, 2023	Document ClassificationSentiment Analysis	—Unverified	0
On Evaluation of Document Classification using RVL-CDIP	Jun 21, 2023	BenchmarkingClassification	—Unverified	0
Weakly-Supervised Scientific Document Classification via Retrieval-Augmented Multi-Stage Training	Jun 12, 2023	Document ClassificationRetrieval	CodeCode Available	1
Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers	Jun 7, 2023	Document ClassificationLanguage Modeling	—Unverified	0
Transformer-Based UNet with Multi-Headed Cross-Attention Skip Connections to Eliminate Artifacts in Scanned Documents	Jun 5, 2023	DenoisingDocument Classification	—Unverified	0
End-to-End Document Classification and Key Information Extraction using Assignment Optimization	Jun 1, 2023	ClassificationDocument Classification	—Unverified	0
GVdoc: Graph-based Visual Document Classification	May 26, 2023	ClassificationDocument Classification	CodeCode Available	0
Neural Natural Language Processing for Long Texts: A Survey on Classification and Summarization	May 25, 2023	Document ClassificationDocument Summarization	—Unverified	0
DUBLIN -- Document Understanding By Language-Image Network	May 23, 2023	Document Classificationdocument understanding	—Unverified	0
DLUE: Benchmarking Document Language Understanding	May 16, 2023	BenchmarkingDocument Classification	—Unverified	0
CWTM: Leveraging Contextualized Word Embeddings from BERT for Neural Topic Modeling	May 16, 2023	Document ClassificationLanguage Modelling	CodeCode Available	0
A General-Purpose Multilingual Document Encoder	May 11, 2023	Cross-Lingual TransferDocument Classification	CodeCode Available	0
Benchmarking large language models for biomedical natural language processing applications and recommendations	May 10, 2023	BenchmarkingDocument Classification	CodeCode Available	1
HiPool: Modeling Long Documents Using Graph Neural Networks	May 5, 2023	Document ClassificationSentence	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 13Next →

All datasets Reuters-21578 Cora HOC BBCSport Amazon Twitter AAPD Classic IMDb-M Recipe SciDocs (MAG)SciDocs (MeSH)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	97.17	—	Unverified
2	REL-RWMD k-NN	Accuracy	95.61	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	92.65	—	Unverified
4	MAGNET	F1	89.9	—	Unverified
5	VLAWE	F1	89.3	—	Unverified
6	KD-LSTMreg	F1	88.9	—	Unverified
7	LSTM-reg (single model)	F1	87	—	Unverified
8	SCDV-MS	F1	82.71	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACNet	Accuracy	83.5	—	Unverified
2	LGCN	Accuracy	83.3	—	Unverified
3	GAT	Accuracy	83	—	Unverified
4	MoNet	Accuracy	81.7	—	Unverified
5	DeepWalk	Accuracy	67.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	F1	88.1	—	Unverified
2	NCBI_BERT(large) (P)	F1	87.3	—	Unverified
3	SciFive-large	F1	86.08	—	Unverified
4	BioGPT	Micro F1	85.12	—	Unverified
5	PubMedBERT uncased	Micro F1	82.32	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	99.59	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	97.73	—	Unverified
3	ApproxRepSet	Accuracy	95.73	—	Unverified
4	REL-RWMD k-NN	Accuracy	95.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	94.31	—	Unverified
2	Orthogonalized Soft VSM	Accuracy	93.42	—	Unverified
3	REL-RWMD k-NN	Accuracy	93.03	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	72.6	—	Unverified
2	REL-RWMD k-NN	Accuracy	71.05	—	Unverified
3	Orthogonalized Soft VSM	Accuracy	69.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	F1	72.9	—	Unverified
2	MAGNET	F1	69.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	REL-RWMD k-NN	Accuracy	96.85	—	Unverified
2	ApproxRepSet	Accuracy	96.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Document Classification Using Importance of Sentences	Accuracy	54.8	—	Unverified
2	LSTM-reg (single model)	Accuracy	52.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ApproxRepSet	Accuracy	59.06	—	Unverified
2	REL-RWMD k-NN	Accuracy	56.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SPECTER	F1 (micro)	82	—	Unverified
2	SciNCL	F1 (micro)	81.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SciNCL	F1 (micro)	88.7	—	Unverified
2	SPECTER	F1 (micro)	86.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ConvTextTM	Accuracy	91.28	—	Unverified
2	HDLTex	Accuracy	90.93	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	95.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ChuLo	Accuracy	64.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MPAD-path	Accuracy	89.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BilBOWA	Accuracy	86.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	86.07	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	HDLTex	Accuracy	76.58	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	KD-LSTMreg	Accuracy	69.4	—	Unverified