基于双编码器的医学文本中文分词(Chinese word segmentation of medical text based on dual-encoder)
2021-08-01CCL 2021Unverified0· sign in to hype
Yuan Zong, Baobao Chang
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
“中文分词是自然语言处理领域的基础工作,然而前人的医学文本分词工作都只是直接套用通用分词的方法,而医学文本多专用术语的特点让分词系统需要对医学专用术语和医学文本中的非医学术语文本提供不同的分词粒度。本文提出了双编码器医学文本中文分词模型,利用辅助编码器为医学专有术语提供粗粒度表示。模型将需要粗粒度分词的医学专用术语和需要通用分词粒度的文本分开,在提升医学专用术语的分词能力的同时最大限度地避免了其粗粒度对于医学文本中通用文本分词的干扰。”