• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
成果搜索

author:

陈可嘉 (陈可嘉.) [1] (Scholars:陈可嘉) | 夏瑞东 (夏瑞东.) [2] | 林鸿熙 (林鸿熙.) [3]

Indexed by:

PKU

Abstract:

针对原始深度嵌入聚类(DEC)算法中聚类层得出的初始聚类数目和聚类中心有很强的随机性,从而影响DEC算法效果的问题,提出一种基于改进DEC的评论文本聚类算法,对无类别标注的电商评论数据进行无监督聚类.首先获得融合句子嵌入向量和主题分布向量的BERT-LDA数据集向量化表示;然后改进DEC算法,通过自动编码器进行降维处理,在编码器后堆叠聚类层,其中聚类层的聚类数目基于主题连贯性选择,同时使用主题特征向量作为 自定义聚类中心,再进行编码器和聚类层的联合训练以提高聚类的准确度;最后利用可视化工具直观展示聚类效果.为验证算法的有效性,将该算法与6个对比算法在无标注的产品评论数据集上进行无监督聚类训练,结果表明,该算法在轮廓系数和Calinski-Harabaz(CH)指标上取得了 0.213 5和2 958.18的最佳效果,说明其可有效处理电商评论数据,反映用户对产品的关注情况.

Keyword:

BERT模型 LDA模型 深度嵌入聚类 聚类 自动编码器

Community:

  • [ 1 ] [林鸿熙]莆田学院
  • [ 2 ] [夏瑞东]福州大学
  • [ 3 ] [陈可嘉]福州大学

Reprint 's Address:

Email:

Show more details

Version:

Related Keywords:

Related Article:

Source :

吉林大学学报(理学版)

ISSN: 1671-5489

CN: 22-1340/O

Year: 2023

Issue: 5

Volume: 61

Page: 1147-1158

Cited Count:

WoS CC Cited Count: 0

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count:

Chinese Cited Count:

30 Days PV: 23

Online/Total:91/9985104
Address:FZU Library(No.2 Xuyuan Road, Fuzhou, Fujian, PRC Post Code:350116) Contact Us:0591-22865326
Copyright:FZU Library Technical Support:Beijing Aegean Software Co., Ltd. 闽ICP备05005463号-1