seminar-personal/chin2017
おさらい †
前回ゼミより抜粋
いまやっていること
少ないクラスタに分類されたペアが所属しているCSVファイルを特定する。
少ないクラスタを排除
基準がわからない。
10個以下のクラスタ数
100個以下のクラスタ数
1000個以下のクラスタ数、はそれぞれ何個か?
調査について †
- 5回以下(一部のみ)
クラスタ | 回数 | 中身 | path |
4 | 1 | 北中 | ./opendata_l_5-prep2/www.pref.fukui.lg.jp/doc/toukei-jouhou/opendata/list1_jikokusuii_d/fil/jikokusuii2009.csv |
5 | 2 | なす、見出し | ./opendata_l_5-prep2/www.pref.kanagawa.jp/osirase/1197/ktv/csv/pickup.csv |
6 | 3 | 歳入出、県内の出 | ./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/toukei/file/toukei_27.csv |
7 | 4 | 当落 | ./opendata_l_5-prep2/www.city.setagaya.lg.jp/kurashi/107/788/790/d00138488_d/fil/senkan.csv |
13 | 2 | で医療対 | ./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/19-01,26.csv |
15 | 2 | 特にない、簡舗を含まない | ./opendata_l_5-prep2/www.city.kawasaki.jp/170/cmsfiles/contents/0000066/66733/shimin2015-02-q-all.csv |
15 | 2 | 特にない、簡舗を含まない | ./opendata_l_5-prep2/www.pref.fukushima.lg.jp/uploaded/attachment/155133.csv |
38 | 2 | る世帯 | ./opendata_l_5-prep2/www.city.kobe.lg.jp/information/data/statistics/toukei/kokutyou/7data/073k10.csv |
46 | 2 | 動機付け支援 | ./opendata_l_5-prep2/www.city.sumida.lg.jp/kuseijoho/sumida_info/opendata/opendata_ichiran/gyoseikisosiryo/20160401/7.files/7-1-2.csv |
74 | 5 | ページアクセス総計、全部公開、稼働世帯 | ./opendata_l_5-prep2/opendata.pref.miyazaki.lg.jp/dataset/414/resource/2724/10803007 考古博物館ホームページアクセス統計(H27.7作成).csv |
74 | 5 | ページアクセス総計、全部公開、稼働世帯 | ./opendata_l_5-prep2/www.city.sumida.lg.jp/kuseijoho/sumida_info/opendata/opendata_ichiran/gyoseikisosiryo/20160401/1-5.files/1-5-1.csv |
74 | 5 | ページアクセス総計、全部公開、稼働世帯 | ./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/04-03,10.csv |
74 | 5 | ページアクセス総計、全部公開、稼働世帯 | ./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/04-08,28.csv |
110 | 1 | 残留農薬 | ./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/499/648/23-04,0.csv |
149 | 1 | 交流 | ./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/kokusaikouryu/file/01-01.csv |
150 | 1 | よりみちクルーズ | ./opendata_l_5-prep2/www.city.kagoshima.lg.jp/jousys/documents/3-29_feri-jikokuhyoukagoshimakousyukkou.csv |
- path:\\10.200.11.9\home\N\chin\20200207
- 前回報告
- 上記のCSVを見ると、変なファイルが多いので、除外する必要である。
- 方法として、手作業で確認?(手間がかかると思う)
- 出現する回数より除外?10回?100回?200回?よりノイズとして削除を検討
調査について †
1)項目名(以前のデータを統計) †
- ファイル:pre2_csv_items_all1206.csv
- 1245709個:項目-項目名(ペア)
- 5548個項目名
- 1245709個データセットで
- 出現5回以下:2444個項目名
- 出現10回以下:3216個項目名
- 出現50回以下:4481個項目名
- 出現100回以下:4813個項目名
- 出現500回以下:5268個項目名
- 出現1000回以下:5385個項目名
- 出現5000回以下:5510個項目名
- 出現10000回以下:5533個項目名
- 出現5w回以下:5544個項目名
- 出現10w回以下:5547個項目名
- ソース:count_datasets.txt
2)項目名について †