#author("2020-02-28T01:59:06+00:00","","") [[seminar-personal/chin2017]] |~目次| |#contents| &br; *おさらい [#p71808b9] -[[前回ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-20200221]] -クラスタ内のデータ数が5以下のもののCSVファイルを特定し、1つにフォルダに抽出した。 --Z:\N\chin\20200221\tmp抽出したリスト.txt --Z:\N\chin\20200221\tmp\*.csv -次はこれらのファイルの中身を調べる。 --以下のようなCSVファイルを作成する。 番号,CSVへのPath,項目名,有効なCSV,内容 1,./opendata_l_5-prep2/www.city.yokohama.lg.jp/tsuzuki/soumu/toukei/csv/01.csv,統計で見るつづき,false,都筑区統計要覧という本の目次 2,./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/kokusaikouryu/file/01-01.csv,目標方向,true,水資源に関するデータ -上記の中で有効なCSVがfalseであるデータは削除して、再度クラスタリングする。 *CSVの除外 [#s8e97986] **前処理(例) [#e71b4785] import shutil # 対象の文字列 src = "./opendata_l_5-prep2/www.town.eiheiji.lg.jp/900/905/p002092_d/fil/kouiki.csv" # すべて置換 dst = src.replace("./", "@") dst = dst.replace("/", "--") print(dst) shutil.copy(src, './tmp/'+dst) &br;結果 @opendata_l_5-prep2--www.town.eiheiji.lg.jp--900--905--p002092_d--fil--kouiki.csv './tmp/@opendata_l_5-prep2--www.town.eiheiji.lg.jp--900--905--p002092_d--fil--kouiki.csv'