基于机器学习的HSK阅读文本自动分级模型研究
DOI:
作者:
作者单位:

河北师范大学计算机与网络空间安全学院

作者简介:

通讯作者:

中图分类号:

TP391.77

基金项目:

国家自然科学基金(61572170);河北省高等学校科学研究项目(SQ2024119)


Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对HSK各类阅读材料难度判定与等级对应中缺乏有效参照标准和分析工具的问题,以历年HSK真题阅读文本为研究对象,利用Python编程软件提取文本可读性特征,采用支持向量机、决策树、K近邻、极端梯度增强等9种机器学习算法,确定与HSK等级相关的可读性特征,使用Python 3.11软件Sklearn模块编写机器学习算法代码,依据Z-Score方法对各项数据进行标准化处理,采用准确率、AUC等多项指标评价各模型的分级效果,建立可将自选文本自动归类于相应HSK等级的模型,并制成可通过互联网访问的在线工具。在同等数据条件下使用SPSS 27.0软件进行Logistic回归分析,比较机器学习和传统回归算法的差异。结果表明,词汇比例是影响阅读文本分级的主要因素,机器学习在HSK阅读材料文本分析及分级方面具有较高性能,9种机器学习模型中极端梯度增强的分级效果最好,准确率为0.913,AUC为0.994。所建立的分级模型和在线工具能够以较高的准确率对HSK自选文本进行等级分类,帮助用户有针对性地遴选文本,提高学习效率。

    Abstract:

    参考文献
    相似文献
    引证文献
引用本文
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2024-01-28
  • 最后修改日期:2024-01-28
  • 录用日期:2024-04-22
  • 在线发布日期:
  • 出版日期:
文章二维码