chin2017-20200605 のバックアップの現在との差分(No.1)

バックアップ一覧
差分を表示
ソースを表示
バックアップを表示
chin2017-20200605 へ行く。
- 1 (2020-06-03 (水) 04:44:15)
- 2 (2020-06-03 (水) 06:13:25)

追加された行はこの色です。
削除された行はこの色です。

#author("2020-06-02T10:44:15+00:00","default:f-lab","f-lab")
[[seminar-personal/chin2017]]
#author("2020-06-05T02:04:14+00:00","default:f-lab","f-lab")
[[個人ページ>seminar-personal/chin2017]] &br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*進捗状況 [#ca0be209]
[[ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-20200529]]より抜粋
 クラスタ内の単語について
 1つのクラスタ内にある単語を一覧表示する。
 その中で仲間外れの単語はないか？
 項目名を除外する 
 ひとつの自治体のCSVにだけ含まれているような項目名はいらないのでは？
-単語を一覧:&ref(items_name_all_vec_150_191212.xlsx);
-
 import os
 filepath =  "./opendata_l_5-prep2/opendata.pref.miyazaki.lg.jp/dataset/767/resource/3648/29320002_交通量_5_11(2005.4～2015.5：東九州自動車道 清武JCT～宮崎IC 月別日平均交通量（参照元：公益財団法人高速道路調査会「高速道路と自動車」）).csv"
 print(len(filepath))
 basename = os.path.basename(filepath)#パス文字列からファイル名を取得
 print(basename)
 print(len(basename))
 print (filepath[0:len(filepath)-len(basename)])
--除外のソースコード：&ref(extract_data_100_item_name.py);
--除外しない場合：&ref(times_100_1.csv);
--除外(3回以上)：&ref(times_100_2.csv);
 町丁名　　　　	123	11
 ０〜４歳　計　	123	11
 ０〜４歳　男　	123	11
 ０〜４歳　女　	123	11
 ５〜９歳　計　	123	11
 ５〜９歳　男　	123	11
 ５〜９歳　女　	123	11
 １０〜１４歳　計　	123	11
 １０〜１４歳　男　	123	11
 １０〜１４歳　女　	123	11
 年少人口　計　	123	11
 年少人口　男　	123	11
 年少人口　女　	123	11
 １５〜１９歳　計　	123	11
 １５〜１９歳　男　	123	11
 １５〜１９歳　女　	123	11
 ２０〜２４歳　計　	123	11
 ２０〜２４歳　男　	123	11
 ２０〜２４歳　女　	123	11
 ２５〜２９歳　計　	123	11
 ２５〜２９歳　男　	123	11
 ２５〜２９歳　女　	123	11
 ３０〜３４歳　計　	123	11
 ３０〜３４歳　男　	123	11
 ３０〜３４歳　女　	123	11
 ３５〜３９歳　計　	123	11
 ３５〜３９歳　男　	123	11

上記のほうは手動でCSVを削除？
--例：&ref(2401.csv);