- 追加された行はこの色です。
- 削除された行はこの色です。
#author("2020-06-02T10:44:15+00:00","default:f-lab","f-lab")
[[seminar-personal/chin2017]]
#author("2020-06-05T02:04:14+00:00","default:f-lab","f-lab")
[[個人ページ>seminar-personal/chin2017]] &br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*進捗状況 [#ca0be209]
[[ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-20200529]]より抜粋
クラスタ内の単語について
1つのクラスタ内にある単語を一覧表示する。
その中で仲間外れの単語はないか?
項目名を除外する
ひとつの自治体のCSVにだけ含まれているような項目名はいらないのでは?
-単語を一覧:&ref(items_name_all_vec_150_191212.xlsx);
-
import os
filepath = "./opendata_l_5-prep2/opendata.pref.miyazaki.lg.jp/dataset/767/resource/3648/29320002_交通量_5_11(2005.4~2015.5:東九州自動車道 清武JCT~宮崎IC 月別日平均交通量(参照元:公益財団法人高速道路調査会「高速道路と自動車」)).csv"
print(len(filepath))
basename = os.path.basename(filepath)#パス文字列からファイル名を取得
print(basename)
print(len(basename))
print (filepath[0:len(filepath)-len(basename)])
--除外のソースコード:&ref(extract_data_100_item_name.py);
--除外しない場合:&ref(times_100_1.csv);
--除外(3回以上):&ref(times_100_2.csv);
町丁名 123 11
0〜4歳 計 123 11
0〜4歳 男 123 11
0〜4歳 女 123 11
5〜9歳 計 123 11
5〜9歳 男 123 11
5〜9歳 女 123 11
10〜14歳 計 123 11
10〜14歳 男 123 11
10〜14歳 女 123 11
年少人口 計 123 11
年少人口 男 123 11
年少人口 女 123 11
15〜19歳 計 123 11
15〜19歳 男 123 11
15〜19歳 女 123 11
20〜24歳 計 123 11
20〜24歳 男 123 11
20〜24歳 女 123 11
25〜29歳 計 123 11
25〜29歳 男 123 11
25〜29歳 女 123 11
30〜34歳 計 123 11
30〜34歳 男 123 11
30〜34歳 女 123 11
35〜39歳 計 123 11
35〜39歳 男 123 11
上記のほうは手動でCSVを削除?
--例:&ref(2401.csv);