#author("2020-06-19T02:33:30+00:00","default:f-lab","f-lab") #author("2020-06-19T08:00:33+00:00","default:f-lab","f-lab") [[個人ページ>seminar-personal/chin2017]] &br; [[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]] |~目次| |#contents| &br; *進捗状況 [#y0ad0ef3] ゼミより抜粋 項目名を出現する地自体ごとにカウントした。 1つの自治体だけに使われている項目名は削除した。 2つの自治体だけのものも削除していよさそうだ。 ➡ 2つの自治体だけのものも 全体CSVより抽出: -&ref(times_all_619_no_extract.csv); -2896個項目名 -変なデータがあり(項目名として妥当ではないか) --Unnamed: 0,1,2,3…(52,51,47個等自治体) --男.1,男.2,男.3,男.4,男.5,男.6…,女.1,女.2,女.3,女.4,女.5,女.6...(8,9個等自治体) --0-4歳の男性,0-4歳の女性,5-9歳の男性,5-9歳の女性,10-14歳の男性,10-14歳の女性,15-19歳の男性,15-19歳の女性...(6個等自治体) --1歳,2歳,3歳,4歳,5歳,6歳,7歳,8歳,9歳,10歳...(3,4,5個等自治体) --数字関連:3,600,1,217、 - .1,-.30,-.31,-.32,―.2,―.3(3個等自治体)、70〜74(5個等自治体),○.1,○.2,○.3,○(4,5個等自治体) --年、月、日付、年度、時間:2016年(3個等自治体)、201604(13個自治体)、23年度(5個等自治体)、2月~9月(13個等自治体)、H16~H22(4個等自治体)、6時,7時~21時(3個自治体) --県名:宮城県、秋田県、山形県、栃木県(3個等自治体) --事業所数.27~35(3個等自治体) -除外処理する必要である --正規表現で除外 re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒 -]+$',item)#記号・英語・数字等 -上記の正規表現で除外したデータ(項目名):1434個項目名 --&ref(times_all_619_2times_re_2.csv); --&ref(extract_data_alllist_item_name_2.py); --残った変な項目名 ---事業所数.1,2,3,4,5...(個数:113) ---0-4歳の男性,0-4歳の女性…80-84歳の男性,80-84歳の女性(個数:36) ---従業者数.1~19(個数:19) ---6時、7時、8時~23時(個数:19) ---平成25年度,平成17年度,平成21年度...(個数:58) ---21年度,2009年度...(個数:51) ---県名:宮城県、栃木...(3個等自治体→個数:24) ➡上記より if re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒 -]+$',item):#記号・英語・数字等 return False elif re.search('[.]+[0-90-9]+$',item):#特殊文字:事業所数.1,従業者数.1 return False elif re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字 return False -除外したデータ(項目名):1110個項目名 --&ref(times_all_619_2times_re_3.csv); --&ref(extract_data_alllist_item_name_2times.py); **➡ 3つの自治体だけのものへ変更 [#x255b4aa] -除外したデータ(項目名):616個項目名 --&ref(times_all_619_3times_re.csv); --&ref(extract_data_alllist_item_name_3times.py); -実際の処理したCSVファイルを確認し、気になる項目名は 1〜4人, 5〜9人, 10〜19人, 20〜29人 小学生, 中学生, 高校生, 要支援1, 要介護1, 要介護2, 要介護3 要介護4, 要介護5 区分 区 分 区 分 区 分 男 女 男(人) 女(人) 人口(総数) 人口 総数 総 数 総 数 総数[人] -空白を削除 name =name.replace(' ', '').replace(' ', '')#空白を削除 re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字➡「人」を追加 re.search('[0-90-9]+[人|歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字 -除外したデータ(項目名):635個項目名 --616個より増える --理由として、上記のCSVより減ったと思うが、 2つの自治体以下の項目名から「3つの自治体以上」へ変更され、残っていると考えられる --&ref(times_all_619_3times_re_2.csv); --&ref(extract_data_alllist_item_name_3times_2.py); --上記の正規表現、空白の除外も同様で(2つの自治体以下)処理すれば ---除外したデータ(項目名):1156個項目名 ---&ref(times_all_619_2times_re_4.csv); ---&ref(extract_data_alllist_item_name_2times_4.py); **疑問 [#s800b6c4] -下記の項目名はまとめる必要でしょうか? 要介護1 要介護2 要介護3 要介護4 要介護5 →要介護? **クラスタリング [#gd4c80cd] -クラスタ数:50 &ref(label_average_cosine_50_cluter.csv); -クラスタ数:150 &ref(label_average_cosine_150_cluter.csv);