当前位置: 首页 > 期刊 > 《世界中医药》 > 202019
编号:13801814
240例肌萎缩侧索硬化的中医病位与伦敦分期的相关性研究(3)
http://www.100md.com 2020年10月1日 《世界中医药》 202019
     1.7 统计学方法 首先,通过专家经验辨证归纳出3组中医病位,3组病位的相应症状群以词频-逆向文档频率(Term Frequency-inverse Document Frequency,TF-IDF)的统计方法进行提取。TF-IDF是一种用于信息检索与文本挖掘的常用加权技术。TF为词频,即文本中某个词的出现频率,一般而言,重要的词在当前文本中的出现频率较高,然而,并非TF越高则该词越重要,如“我的”等常用词。因此,以IDF协助TF反映词语的重要性。IDF为逆向文档频率,能够反馈某词在所有文本中出现的频率,如果某词在众多文本中出现,那么它的IDF值则低。TF-IDF即TF和IDF的乘积,某个词对文本的重要性越高,它的TF-IDF值就越大。因此,本研究借助TF-IDF模型分别提取不同中医病位的症状群。其次,进行四诊信息系统聚类分析。系统聚类变量过多将影响结果呈现效果,因此,将101个四诊信息变量进行整体TF-IDF模型运算,筛选TF-IDF取值大且出现频率大于5%的四诊信息变量(共计44个)以备聚类。使用SPSS Statistics 20.0对44个变量采用ward法(又称离差平方和法)进行系统聚类。系统聚类是按照事物属性的内在联系规律和要求对事物进行分类的方法 ......
上一页1 2 3 4 5下一页

您现在查看是摘要页,全文长 4614 字符