進捗状況 †ゼミより抜粋 英語の項目名をすべて除外しているように見えるので、もっと絞った方がいいのでは? たとえば、 "^Unnamed: \d+$" 上記より正規表現を変更 re.search('^[Ⅰ-Ⅹ0-90-9①-⑳%%×,,..::\"’〜~―ー-−‐○〇…〒-]+$',item):#記号・数字等#記号・数字等 →英語のほうを削除 re.search("^[Unnamed:|H]+\d+$",item)#Unnamed: 0,1,2,3…、H16...H25 re.search('[.]+[0-90-9]+$',item)#特殊文字:事業所数.1,従業者数.1 re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
おかしいものなので、除外する ,287,28, ➡ if(name ==''): continue 結果について †2個自治体以上 †
3個自治体以上 †
クラスタ数50の結果 †
備考:EXCELで統計し、一番多いクラスタを判断
*再度クラスタリング †
クラスタ数100の結果 †*再度クラスタリング †参考資料 † |