#author("2020-02-28T07:01:25+00:00","default:f-lab","f-lab")
[[seminar-personal/chin2017]]

|~目次|
|#contents|
&br;
*おさらい [#p71808b9]
-[[前回ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-20200221]]

 -クラスタ内のデータ数が5以下のもののCSVファイルを特定し、1つにフォルダに抽出した。
 --Z:\N\chin\20200221\tmp抽出したリスト.txt
 --Z:\N\chin\20200221\tmp\*.csv
 -次はこれらのファイルの中身を調べる。
 --以下のようなCSVファイルを作成する。
  番号,CSVへのPath,項目名,有効なCSV,内容
  1,./opendata_l_5-prep2/www.city.yokohama.lg.jp/tsuzuki/soumu/toukei/csv/01.csv,統計で見るつづき,false,都筑区統計要覧という本の目次
  2,./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/kokusaikouryu/file/01-01.csv,目標方向,true,水資源に関するデータ
 -上記の中で有効なCSVがfalseであるデータは削除して、再度クラスタリングする。
*CSVの除外 [#s8e97986]
**前処理(例) [#e71b4785]
--前回ゼミより/⇒--を置換
--また./=>@を置換
 import shutil
 # 対象の文字列
 src = "./opendata_l_5-prep2/www.town.eiheiji.lg.jp/900/905/p002092_d/fil/kouiki.csv"
 # すべて置換
 dst = src.replace("./", "@")
 dst = dst.replace("/", "--")
 print(dst)  
 shutil.copy(src, './tmp/'+dst)
&br;結果
 @opendata_l_5-prep2--www.town.eiheiji.lg.jp--900--905--p002092_d--fil--kouiki.csv
 './tmp/@opendata_l_5-prep2--www.town.eiheiji.lg.jp--900--905--p002092_d--fil--kouiki.csv'
*処理手順 [#sd553797]
-①項目名を抽出
-②クラスタリングを行う
-③クラスタに項目名の数を計算
-④少ないクラスタ(項目名)のパスを抽出、除外
-②~④を繰り返す
--疑問点:収束の条件は?
---以前:5個項目名以下?=>10等を考慮
---有効なCSVのtrue,flaseの判断は手作業で?
---内容の判断は?(とりあえず項目データへ保存)->見ないとどのようなデータは不明なので)
---一回目の結果:
---[[ソースコード>https://colab.research.google.com/drive/1RRtd1pfwlHhi7s0HUt4kTy8jz7AOYIQ1#scrollTo=toDzLUhjsmi2]]

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS