個人ページ
N班ゼミ


進捗状況

ゼミより抜粋

項目名を出現する地自体ごとにカウントした。
1つの自治体だけに使われている項目名は削除した。
2つの自治体だけのものも削除していよさそうだ。

➡ 2つの自治体だけのものも 全体CSVより抽出:

  • filetimes_all_619_no_extract.csv
  • 2896個項目名
  • 変なデータがあり(項目名として妥当ではないか)
    • Unnamed: 0,1,2,3…(52,51,47個等自治体)
    • 男.1,男.2,男.3,男.4,男.5,男.6…,女.1,女.2,女.3,女.4,女.5,女.6...(8,9個等自治体)
    • 0-4歳の男性,0-4歳の女性,5-9歳の男性,5-9歳の女性,10-14歳の男性,10-14歳の女性,15-19歳の男性,15-19歳の女性...(6個等自治体)
    • 1歳,2歳,3歳,4歳,5歳,6歳,7歳,8歳,9歳,10歳...(3,4,5個等自治体)
    • 数字関連:3,600,1,217、 - .1,-.30,-.31,-.32,―.2,―.3(3個等自治体)、70〜74(5個等自治体),○.1,○.2,○.3,○(4,5個等自治体)
    • 年、月、日付、年度、時間:2016年(3個等自治体)、201604(13個自治体)、23年度(5個等自治体)、2月~9月(13個等自治体)、H16~H22(4個等自治体)、6時,7時~21時(3個自治体)
    • 県名:宮城県、秋田県、山形県、栃木県(3個等自治体)
    • 事業所数.27~35(3個等自治体)
  • 除外処理する必要である
    • 正規表現で除外
      re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒  	-]+$',item)#記号・英語・数字等
  • 上記の正規表現で除外したデータ(項目名):1434個項目名
    • filetimes_all_619_2times_re_2.csv
    • fileextract_data_alllist_item_name_2.py
    • 残った変な項目名
      • 事業所数.1,2,3,4,5...(個数:113)
      • 0-4歳の男性,0-4歳の女性…80-84歳の男性,80-84歳の女性(個数:36)
      • 従業者数.1~19(個数:19)
      • 6時、7時、8時~23時(個数:19)
      • 平成25年度,平成17年度,平成21年度...(個数:58)
      • 21年度,2009年度...(個数:51)
      • 県名:宮城県、栃木...(3個等自治体→個数:24)

➡上記より

if re.search('^[A-ZA-Za-za-zⅠ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒  	-]+$',item):#記号・英語・数字等
           return False
elif re.search('[.]+[0-90-9]+$',item):#特殊文字:事業所数.1,従業者数.1
          return False
elif re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
          return False

➡ 3つの自治体だけのものへ変更

  • 除外したデータ(項目名):616個項目名
  • 実際の処理したCSVファイルを確認し、気になる項目名は
    1〜4人,
    5〜9人,
    10〜19人,
    20〜29人
     小学生,
    中学生,
    高校生,
    要支援1,
    要介護1,
    要介護2,
    要介護3
    要介護4,
    要介護5
    区分
    区 分
    区  分
    区   分
    男
    女
    男(人)
    女(人)
    人口(総数)
    人口
    総数
    総 数
    総  数
    総数[人]
  • 空白を削除
    name =name.replace(' ', '').replace(' ', '')#空白を削除
    re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字➡「人」を追加
    re.search('[0-90-9]+[人|歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
  • 除外したデータ(項目名):635個項目名

疑問

  • 下記の項目名はまとめる必要でしょうか?
    要介護1
    要介護2
    要介護3
    要介護4
    要介護5
    →要介護?

クラスタリング


添付ファイル: filelabel_average_cosine_150_cluter.csv 141件 [詳細] filelabel_average_cosine_50_cluter.csv 138件 [詳細] filetimes_all_619_2times_re_4.csv 148件 [詳細] fileextract_data_alllist_item_name_2times_4.py 154件 [詳細] fileextract_data_alllist_item_name_3times_2.py 182件 [詳細] filetimes_all_619_3times_re_2.csv 190件 [詳細] fileextract_data_alllist_item_name_3times.py 171件 [詳細] filetimes_all_619_3times_re.csv 207件 [詳細] fileextract_data_alllist_item_name_2times.py 180件 [詳細] filetimes_all_619_2times_re_3.csv 206件 [詳細] filetimes_all_619_2times_re_2.csv 217件 [詳細] fileextract_data_alllist_item_name_2.py 180件 [詳細] filetimes_all_619_no_extract.csv 254件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-06-19 (金) 17:00:55