基于密度Canopy的评论文本主题识别方法
DOI:
作者:
作者单位:

1.河北科技大学经济管理学院;2.河北政法职业学院图书馆;3.电子科技大学格拉斯哥学院;4.南京警察学院信息技术学院;5.中国人民解放军空军预警学院

作者简介:

通讯作者:

中图分类号:

TP393

基金项目:

国家文化和旅游科技创新工程项目(2020年度);河北省省级科技计划资助项目(20310802D,21310101D)


Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    评论文本主题识别是AI技术应用于互联网数据的典型范例,它通过自然语言处理算法和技术,从评论文本中提取出潜在的主题信息。然而,评论文本普遍具有长度短、语义稀疏、情感词多、用词较为随意等特征,会导致基于概率计算的主题模型效果并不理想。一些学者提出了融合Sentence-BERT和LDA的评论文本主题识别(SBERT-LDA)方法,将上下文信息与主题特征融合,取得了较好效果。但该方法将LDA的主题数作为K-means算法中的k值,导致了算法可解释性较差、主题一致性较低等问题。本文提出基于密度Canopy的SBERT-LDA优化方法(SBERT-LDA-DC),利用密度Canopy来改进K-means算法。实验结果表明,本文提出的方法在一致性指标上要优于使用K-means以及K-means++对特征向量聚类的同类方法;与SBERT-LDA方法比较,在1852条戏剧评论数据集上,一致性指标值提升了22.9%。

    Abstract:

    参考文献
    相似文献
    引证文献
引用本文
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-09-04
  • 最后修改日期:2023-09-04
  • 录用日期:2023-09-20
  • 在线发布日期:
  • 出版日期:
文章二维码