個人ページ
N班ゼミ
進捗状況 †
ゼミより抜粋
項目名を出現する地自体ごとにカウントした。
1つの自治体だけに使われている項目名は削除した。
2つの自治体だけのものも削除していよさそうだ。
➡ 2つの自治体だけのものも
全体CSVより抽出:
- times_all_619_no_extract.csv
- 2896個項目名
- 変なデータがあり(項目名として妥当ではないか)
- Unnamed: 0,1,2,3…(52,51,47個等自治体)
- 男.1,男.2,男.3,男.4,男.5,男.6…,女.1,女.2,女.3,女.4,女.5,女.6...(8,9個等自治体)
- 0-4歳の男性,0-4歳の女性,5-9歳の男性,5-9歳の女性,10-14歳の男性,10-14歳の女性,15-19歳の男性,15-19歳の女性...(6個等自治体)
- 1歳,2歳,3歳,4歳,5歳,6歳,7歳,8歳,9歳,10歳...(3,4,5個等自治体)
- 数字関連:3,600,1,217、 - .1,-.30,-.31,-.32,―.2,―.3(3個等自治体)、70〜74(5個等自治体),○.1,○.2,○.3,○(4,5個等自治体)
- 年、月、日付、年度、時間:2016年(3個等自治体)、201604(13個自治体)、23年度(5個等自治体)、2月~9月(13個等自治体)、H16~H22(4個等自治体)、6時,7時~21時(3個自治体)
- 県名:宮城県、秋田県、山形県、栃木県(3個等自治体)
- 事業所数.27~35(3個等自治体)
- 除外処理する必要である
- 上記の正規表現で除外したデータ(項目名):1434個項目名
➡上記より
if re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒 -]+$',item):#記号・英語・数字等
return False
elif re.search('[.]+[0-90-9]+$',item):#特殊文字:事業所数.1,従業者数.1
return False
elif re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
return False
➡ 3つの自治体だけのものへ変更 †
- 除外したデータ(項目名):616個項目名
- 実際の処理したCSVファイルを確認し、気になる項目名は
1〜4人,
5〜9人,
10〜19人,
20〜29人
小学生,
中学生,
高校生,
要支援1,
要介護1,
要介護2,
要介護3
要介護4,
要介護5
区分
区 分
区 分
区 分
男
女
男(人)
女(人)
人口(総数)
人口
総数
総 数
総 数
総数[人]
- 空白を削除
name =name.replace(' ', '').replace(' ', '')#空白を削除
re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字➡「人」を追加
re.search('[0-90-9]+[人|歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
- 除外したデータ(項目名):635個項目名
疑問 †
クラスタリング †
|