ゼミより抜粋
項目名を出現する地自体ごとにカウントした。 1つの自治体だけに使われている項目名は削除した。 2つの自治体だけのものも削除していよさそうだ。
➡ 2つの自治体だけのものも 全体CSVより抽出:
re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒 -]+$',item)#記号・英語・数字等
➡上記より
if re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒 -]+$',item):#記号・英語・数字等 return False elif re.search('[.]+[0-90-9]+$',item):#特殊文字:事業所数.1,従業者数.1 return False elif re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字 return False
1〜4人, 5〜9人, 10〜19人, 20〜29人 小学生, 中学生, 高校生, 要支援1, 要介護1, 要介護2, 要介護3 要介護4, 要介護5 区分 区 分 区 分 区 分 男 女 男(人) 女(人) 人口(総数) 人口 総数 総 数 総 数 総数[人]
name =name.replace(' ', '').replace(' ', '')#空白を削除 re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字➡「人」を追加 re.search('[0-90-9]+[人|歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
要介護1 要介護2 要介護3 要介護4 要介護5 →要介護?