#author("2020-06-05T02:02:34+00:00","default:f-lab","f-lab") #author("2020-06-05T02:04:14+00:00","default:f-lab","f-lab") [[個人ページ>seminar-personal/chin2017]] &br; [[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]] |~目次| |#contents| &br; *進捗状況 [#ca0be209] [[ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-20200529]]より抜粋 クラスタ内の単語について 1つのクラスタ内にある単語を一覧表示する。 その中で仲間外れの単語はないか? 項目名を除外する ひとつの自治体のCSVにだけ含まれているような項目名はいらないのでは? -単語を一覧:&ref(items_name_all_vec_150_191212.xlsx); - import os filepath = "./opendata_l_5-prep2/opendata.pref.miyazaki.lg.jp/dataset/767/resource/3648/29320002_交通量_5_11(2005.4~2015.5:東九州自動車道 清武JCT~宮崎IC 月別日平均交通量(参照元:公益財団法人高速道路調査会「高速道路と自動車」)).csv" print(len(filepath)) basename = os.path.basename(filepath)#パス文字列からファイル名を取得 print(basename) print(len(basename)) print (filepath[0:len(filepath)-len(basename)]) --除外のソースコード:&ref(extract_data_100_item_name.py); --除外しない場合:&ref(times_100_1.csv); --除外(3回以上):&ref(times_100_2.csv); 町丁名 123 11 0〜4歳 計 123 11 0〜4歳 男 123 11 0〜4歳 女 123 11 5〜9歳 計 123 11 5〜9歳 男 123 11 5〜9歳 女 123 11 10〜14歳 計 123 11 10〜14歳 男 123 11 10〜14歳 女 123 11 年少人口 計 123 11 年少人口 男 123 11 年少人口 女 123 11 15〜19歳 計 123 11 15〜19歳 男 123 11 15〜19歳 女 123 11 20〜24歳 計 123 11 20〜24歳 男 123 11 20〜24歳 女 123 11 25〜29歳 計 123 11 25〜29歳 男 123 11 25〜29歳 女 123 11 30〜34歳 計 123 11 30〜34歳 男 123 11 30〜34歳 女 123 11 35〜39歳 計 123 11 35〜39歳 男 123 11 上記のほうは手動でCSVを削除? 例: --例:&ref(2401.csv);