chin2017-20200619
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[個人ページ>seminar-personal/chin2017]]
&br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*進捗状況 [#y0ad0ef3]
ゼミより抜粋
項目名を出現する地自体ごとにカウントした。
1つの自治体だけに使われている項目名は削除した。
2つの自治体だけのものも削除していよさそうだ。
➡ 2つの自治体だけのものも
全体CSVより抽出:
-&ref(times_all_619_no_extract.csv);
-2896個項目名
-変なデータがあり(項目名として妥当ではないか)
--Unnamed: 0,1,2,3…(52,51,47個等自治体)
--男.1,男.2,男.3,男.4,男.5,男.6…,女.1,女.2,女.3,女.4,女.5...
--0-4歳の男性,0-4歳の女性,5-9歳の男性,5-9歳の女性,10-14歳...
--1歳,2歳,3歳,4歳,5歳,6歳,7歳,8歳,9歳,10歳...(3,4,5個等自...
--数字関連:3,600,1,217、 - .1,-.30,-.31,-.32,―.2,―.3(3個...
--年、月、日付、年度、時間:2016年(3個等自治体)、201604(1...
--県名:宮城県、秋田県、山形県、栃木県(3個等自治体)
--事業所数.27~35(3個等自治体)
-除外処理する必要である
--正規表現で除外
re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::\"’...
-上記の正規表現で除外したデータ(項目名):1434個項目名
--&ref(times_all_619_2times_re_2.csv);
--&ref(extract_data_alllist_item_name_2.py);
--残った変な項目名
---事業所数.1,2,3,4,5...(個数:113)
---0-4歳の男性,0-4歳の女性…80-84歳の男性,80-84歳の女性(...
---従業者数.1~19(個数:19)
---6時、7時、8時~23時(個数:19)
---平成25年度,平成17年度,平成21年度...(個数:58)
---21年度,2009年度...(個数:51)
---県名:宮城県、栃木...(3個等自治体→個数:24)
➡上記より
if re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::...
return False
elif re.search('[.]+[0-90-9]+$',item):#特殊文字:事業所...
return False
elif re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性...
return False
-除外したデータ(項目名):1110個項目名
--&ref(times_all_619_2times_re_3.csv);
--&ref(extract_data_alllist_item_name_2times.py);
**➡ 3つの自治体だけのものへ変更 [#x255b4aa]
-除外したデータ(項目名):616個項目名
--&ref(times_all_619_3times_re.csv);
--&ref(extract_data_alllist_item_name_3times.py);
-実際の処理したCSVファイルを確認し、気になる項目名は
1〜4人,
5〜9人,
10〜19人,
20〜29人
小学生,
中学生,
高校生,
要支援1,
要介護1,
要介護2,
要介護3
要介護4,
要介護5
区分
区 分
区 分
区 分
男
女
男(人)
女(人)
人口(総数)
人口
総数
総 数
総 数
総数[人]
-空白を削除
name =name.replace(' ', '').replace(' ', '')#空白を削除
re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女...
re.search('[0-90-9]+[人|歳|年|年度|月|時|歳代|の男性|...
-除外したデータ(項目名):635個項目名
--616個より増える
--理由として、上記のCSVより減ったと思うが、 2つの自治体以...
--&ref(times_all_619_3times_re_2.csv);
--&ref(extract_data_alllist_item_name_3times_2.py);
--上記の正規表現、空白の除外も同様で(2つの自治体以下)処理...
---除外したデータ(項目名):1156個項目名
---&ref(times_all_619_2times_re_4.csv);
---&ref(extract_data_alllist_item_name_2times_4.py);
**疑問 [#s800b6c4]
-下記の項目名はまとめる必要でしょうか?
要介護1
要介護2
要介護3
要介護4
要介護5
→要介護?
**クラスタリング [#gd4c80cd]
-クラスタ数:50 &ref(label_average_cosine_50_cluter.csv);
-クラスタ数:150 &ref(label_average_cosine_150_cluter.csv);
終了行:
[[個人ページ>seminar-personal/chin2017]]
&br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*進捗状況 [#y0ad0ef3]
ゼミより抜粋
項目名を出現する地自体ごとにカウントした。
1つの自治体だけに使われている項目名は削除した。
2つの自治体だけのものも削除していよさそうだ。
➡ 2つの自治体だけのものも
全体CSVより抽出:
-&ref(times_all_619_no_extract.csv);
-2896個項目名
-変なデータがあり(項目名として妥当ではないか)
--Unnamed: 0,1,2,3…(52,51,47個等自治体)
--男.1,男.2,男.3,男.4,男.5,男.6…,女.1,女.2,女.3,女.4,女.5...
--0-4歳の男性,0-4歳の女性,5-9歳の男性,5-9歳の女性,10-14歳...
--1歳,2歳,3歳,4歳,5歳,6歳,7歳,8歳,9歳,10歳...(3,4,5個等自...
--数字関連:3,600,1,217、 - .1,-.30,-.31,-.32,―.2,―.3(3個...
--年、月、日付、年度、時間:2016年(3個等自治体)、201604(1...
--県名:宮城県、秋田県、山形県、栃木県(3個等自治体)
--事業所数.27~35(3個等自治体)
-除外処理する必要である
--正規表現で除外
re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::\"’...
-上記の正規表現で除外したデータ(項目名):1434個項目名
--&ref(times_all_619_2times_re_2.csv);
--&ref(extract_data_alllist_item_name_2.py);
--残った変な項目名
---事業所数.1,2,3,4,5...(個数:113)
---0-4歳の男性,0-4歳の女性…80-84歳の男性,80-84歳の女性(...
---従業者数.1~19(個数:19)
---6時、7時、8時~23時(個数:19)
---平成25年度,平成17年度,平成21年度...(個数:58)
---21年度,2009年度...(個数:51)
---県名:宮城県、栃木...(3個等自治体→個数:24)
➡上記より
if re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::...
return False
elif re.search('[.]+[0-90-9]+$',item):#特殊文字:事業所...
return False
elif re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性...
return False
-除外したデータ(項目名):1110個項目名
--&ref(times_all_619_2times_re_3.csv);
--&ref(extract_data_alllist_item_name_2times.py);
**➡ 3つの自治体だけのものへ変更 [#x255b4aa]
-除外したデータ(項目名):616個項目名
--&ref(times_all_619_3times_re.csv);
--&ref(extract_data_alllist_item_name_3times.py);
-実際の処理したCSVファイルを確認し、気になる項目名は
1〜4人,
5〜9人,
10〜19人,
20〜29人
小学生,
中学生,
高校生,
要支援1,
要介護1,
要介護2,
要介護3
要介護4,
要介護5
区分
区 分
区 分
区 分
男
女
男(人)
女(人)
人口(総数)
人口
総数
総 数
総 数
総数[人]
-空白を削除
name =name.replace(' ', '').replace(' ', '')#空白を削除
re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女...
re.search('[0-90-9]+[人|歳|年|年度|月|時|歳代|の男性|...
-除外したデータ(項目名):635個項目名
--616個より増える
--理由として、上記のCSVより減ったと思うが、 2つの自治体以...
--&ref(times_all_619_3times_re_2.csv);
--&ref(extract_data_alllist_item_name_3times_2.py);
--上記の正規表現、空白の除外も同様で(2つの自治体以下)処理...
---除外したデータ(項目名):1156個項目名
---&ref(times_all_619_2times_re_4.csv);
---&ref(extract_data_alllist_item_name_2times_4.py);
**疑問 [#s800b6c4]
-下記の項目名はまとめる必要でしょうか?
要介護1
要介護2
要介護3
要介護4
要介護5
→要介護?
**クラスタリング [#gd4c80cd]
-クラスタ数:50 &ref(label_average_cosine_50_cluter.csv);
-クラスタ数:150 &ref(label_average_cosine_150_cluter.csv);
ページ名: