摘要:针对HSK各类阅读材料难度判定与等级对应中缺乏有效参照标准和分析工具的问题,以历年HSK真题阅读文本为研究对象,利用Python编程软件提取文本可读性特征,采用支持向量机、决策树、K近邻、极端梯度增强等9种机器学习算法,确定与HSK等级相关的可读性特征,使用Python 3.11软件Sklearn模块编写机器学习算法代码,依据Z-Score方法对各项数据进行标准化处理,采用准确率、AUC等多项指标评价各模型的分级效果,建立可将自选文本自动归类于相应HSK等级的模型,并制成可通过互联网访问的在线工具。在同等数据条件下使用SPSS 27.0软件进行Logistic回归分析,比较机器学习和传统回归算法的差异。结果表明,词汇比例是影响阅读文本分级的主要因素,机器学习在HSK阅读材料文本分析及分级方面具有较高性能,9种机器学习模型中极端梯度增强的分级效果最好,准确率为0.913,AUC为0.994。所建立的分级模型和在线工具能够以较高的准确率对HSK自选文本进行等级分类,帮助用户有针对性地遴选文本,提高学习效率。