chin2017-20200228 のバックアップ(No.7)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
chin2017-20200228 へ行く。
- 1 (2020-02-26 (水) 04:30:15)
- 2 (2020-02-26 (水) 05:14:54)
- 3 (2020-02-28 (金) 01:30:59)
- 4 (2020-02-28 (金) 17:32:13)
- 5 (2020-02-28 (金) 20:57:52)
- 6 (2020-02-29 (土) 01:01:25)
- 7 (2020-02-29 (土) 02:10:11)

seminar-personal/chin2017

目次
おさらい CSVの除外前処理(例) 処理手順

おさらい †

前回ゼミ

-クラスタ内のデータ数が5以下のもののCSVファイルを特定し、1つにフォルダに抽出した。
--Z:\N\chin\20200221\tmp抽出したリスト.txt
--Z:\N\chin\20200221\tmp\*.csv
-次はこれらのファイルの中身を調べる。
--以下のようなCSVファイルを作成する。
 番号,CSVへのPath,項目名,有効なCSV,内容
 1,./opendata_l_5-prep2/www.city.yokohama.lg.jp/tsuzuki/soumu/toukei/csv/01.csv,統計で見るつづき,false,都筑区統計要覧という本の目次
 2,./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/kokusaikouryu/file/01-01.csv,目標方向,true,水資源に関するデータ
-上記の中で有効なCSVがfalseであるデータは削除して、再度クラスタリングする。

↑

CSVの除外 †

↑

前処理(例) †

前回ゼミより/⇒--を置換

また./＝＞@を置換

import shutil
# 対象の文字列
src = "./opendata_l_5-prep2/www.town.eiheiji.lg.jp/900/905/p002092_d/fil/kouiki.csv"
# すべて置換
dst = src.replace("./", "@")
dst = dst.replace("/", "--")
print(dst)  
shutil.copy(src, './tmp/'+dst)

結果

@opendata_l_5-prep2--www.town.eiheiji.lg.jp--900--905--p002092_d--fil--kouiki.csv
'./tmp/@opendata_l_5-prep2--www.town.eiheiji.lg.jp--900--905--p002092_d--fil--kouiki.csv'

↑

処理手順 †

①項目名を抽出
②クラスタリングを行う
③クラスタに項目名の数を計算
④少ないクラスタ(項目名)のパスを抽出、除外
②～④を繰り返す
上記の手順について懸念点(疑問点)：収束の条件は?何回まで？
- 有効なCSVのtrue,flaseの判断は手作業？
- 内容の判断は？(とりあえず項目データへ保存)->見ないとどのようなデータは不明なので)
- 以前：5個項目名以下?10個は？⇒項目名の出現回数で除外すれば楽？
- 1回目のクラスタ(4443個項目名)：label_average_cosine_150_cluter_one.csv
- 1回目の結果：results_one_time.csv
- 1回目で抽出した219個ファイル:\\10.200.11.9\home\N\chin\20200228\tmp\one
- 2回目のクラスタ(4309個項目名)：label_average_cosine_150_cluter_two.csv
- 2回目の結果：results_two_time.csv
- 2回目で抽出した199個ファイル:\\10.200.11.9\home\N\chin\20200228\tmp\two
- ソースコード