seminar-personal/chin2017
おさらい †
-クラスタ内のデータ数が5以下のもののCSVファイルを特定し、1つにフォルダに抽出した。
--Z:\N\chin\20200221\tmp抽出したリスト.txt
--Z:\N\chin\20200221\tmp\*.csv
-次はこれらのファイルの中身を調べる。
--以下のようなCSVファイルを作成する。
番号,CSVへのPath,項目名,有効なCSV,内容
1,./opendata_l_5-prep2/www.city.yokohama.lg.jp/tsuzuki/soumu/toukei/csv/01.csv,統計で見るつづき,false,都筑区統計要覧という本の目次
2,./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/kokusaikouryu/file/01-01.csv,目標方向,true,水資源に関するデータ
-上記の中で有効なCSVがfalseであるデータは削除して、再度クラスタリングする。
CSVの除外 †
前処理(例) †
- 前回ゼミより/⇒--を置換
- また./=>@を置換
import shutil
# 対象の文字列
src = "./opendata_l_5-prep2/www.town.eiheiji.lg.jp/900/905/p002092_d/fil/kouiki.csv"
# すべて置換
dst = src.replace("./", "@")
dst = dst.replace("/", "--")
print(dst)
shutil.copy(src, './tmp/'+dst)
結果
@opendata_l_5-prep2--www.town.eiheiji.lg.jp--900--905--p002092_d--fil--kouiki.csv
'./tmp/@opendata_l_5-prep2--www.town.eiheiji.lg.jp--900--905--p002092_d--fil--kouiki.csv'
処理手順 †
- ①項目名を抽出
- ②クラスタリングを行う
- ③クラスタに項目名の数を計算
- ④少ないクラスタ(項目名)のパスを抽出、除外
- ②~④を繰り返す
上記の手順について懸念点(疑問点):収束の条件は?何回まで?