seminar-personal/chin2017

おさらい

前回ゼミより抜粋

いまやっていること
少ないクラスタに分類されたペアが所属しているCSVファイルを特定する。
少ないクラスタを排除
基準がわからない。
10個以下のクラスタ数
100個以下のクラスタ数
1000個以下のクラスタ数、はそれぞれ何個か?

調査について

  • 5回以下(一部のみ)
    クラスタ回数中身path
    41北中./opendata_l_5-prep2/www.pref.fukui.lg.jp/doc/toukei-jouhou/opendata/list1_jikokusuii_d/fil/jikokusuii2009.csv
    52なす、見出し./opendata_l_5-prep2/www.pref.kanagawa.jp/osirase/1197/ktv/csv/pickup.csv
    63歳入出、県内の出./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/toukei/file/toukei_27.csv
    74当落./opendata_l_5-prep2/www.city.setagaya.lg.jp/kurashi/107/788/790/d00138488_d/fil/senkan.csv
    132で医療対./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/19-01,26.csv
    152特にない、簡舗を含まない./opendata_l_5-prep2/www.city.kawasaki.jp/170/cmsfiles/contents/0000066/66733/shimin2015-02-q-all.csv
    152特にない、簡舗を含まない./opendata_l_5-prep2/www.pref.fukushima.lg.jp/uploaded/attachment/155133.csv
    382る世帯./opendata_l_5-prep2/www.city.kobe.lg.jp/information/data/statistics/toukei/kokutyou/7data/073k10.csv
    462動機付け支援./opendata_l_5-prep2/www.city.sumida.lg.jp/kuseijoho/sumida_info/opendata/opendata_ichiran/gyoseikisosiryo/20160401/7.files/7-1-2.csv
    745ページアクセス総計、全部公開、稼働世帯./opendata_l_5-prep2/opendata.pref.miyazaki.lg.jp/dataset/414/resource/2724/10803007 考古博物館ホームページアクセス統計(H27.7作成).csv
    745ページアクセス総計、全部公開、稼働世帯./opendata_l_5-prep2/www.city.sumida.lg.jp/kuseijoho/sumida_info/opendata/opendata_ichiran/gyoseikisosiryo/20160401/1-5.files/1-5-1.csv
    745ページアクセス総計、全部公開、稼働世帯./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/04-03,10.csv
    745ページアクセス総計、全部公開、稼働世帯./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/04-08,28.csv
    1101残留農薬./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/499/648/23-04,0.csv
    1491交流./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/kokusaikouryu/file/01-01.csv
    1501よりみちクルーズ./opendata_l_5-prep2/www.city.kagoshima.lg.jp/jousys/documents/3-29_feri-jikokuhyoukagoshimakousyukkou.csv
  • path:\\10.200.11.9\home\N\chin\20200207
  • 前回報告
  • 上記のCSVを見ると、変なファイルが多いので、除外する必要である。
    • 方法として、手作業で確認?(手間がかかると思う)
    • 出現する回数より除外?10回?100回?200回?よりノイズとして削除を検討

調査について

1)項目名(以前のデータを統計)

  • ファイル:pre2_csv_items_all1206.csv
  • 1245709個:項目-項目名(ペア)
  • 5548個項目名
  • 1245709個データセットで
    • 出現5回以下:2444個項目名
    • 出現10回以下:3216個項目名
    • 出現50回以下:4481個項目名
    • 出現100回以下:4813個項目名
    • 出現500回以下:5268個項目名
    • 出現1000回以下:5385個項目名
    • 出現5000回以下:5510個項目名
    • 出現10000回以下:5533個項目名
    • 出現5w回以下:5544個項目名
    • 出現10w回以下:5547個項目名
    • 020701.JPG
    • ソース:filecount_datasets.txt
      • cluster_150_h.png

2)項目名について

  • 下記はゼミより抜粋
    基準がわからない。
    10個以下のクラスタ数
    100個以下のクラスタ数
    1000個以下のクラスタ数、はそれぞれ何個か?
  • 新しい作成したファイル:pre2_csv_items_all2020.csv
    • 正規表現を変更すると、抽出した結果が変わる
  • 842389個:項目-項目名(ペア)
  • 4481個項目名
  • 842389個データセットで
    • 出現5回以下:2230個項目名
    • 出現10回以下:2822個項目名
    • 出現50回以下:3736個項目名
    • 出現100回以下:3961個項目名
    • 出現500回以下:4295個項目名
    • 出現1000回以下:4372個項目名
    • 出現5000回以下:4452個項目名
    • 出現10000回以下:4468個項目名
    • 出現5w回以下:4479個項目名
    • 出現10w回以下:4481個項目名
    • 020702.JPG

添付ファイル: file020702.JPG 298件 [詳細] file020701.JPG 308件 [詳細] fileextract_datasets.txt 294件 [詳細] filecount_datasets.txt 283件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-02-07 (金) 16:41:46