#author("2020-02-07T07:38:28+00:00","default:f-lab","f-lab")
#author("2020-02-07T07:41:35+00:00","default:f-lab","f-lab")
[[seminar-personal/chin2017]]
**おさらい [#o52b72da]
前回ゼミより抜粋
 いまやっていること
 少ないクラスタに分類されたペアが所属しているCSVファイルを特定する。
 少ないクラスタを排除
 基準がわからない。
 10個以下のクラスタ数
 100個以下のクラスタ数
 1000個以下のクラスタ数、はそれぞれ何個か?
--テータを抽出するソースコード:&ref(chin2017-20200130/extract_datasets.txt);
**調査について [#pe5c981e]
-5回以下(一部のみ)
|クラスタ|回数|中身|path|
|4|1|北中|./opendata_l_5-prep2/www.pref.fukui.lg.jp/doc/toukei-jouhou/opendata/list1_jikokusuii_d/fil/jikokusuii2009.csv|
|5|2|なす、見出し|./opendata_l_5-prep2/www.pref.kanagawa.jp/osirase/1197/ktv/csv/pickup.csv|
|6|3|歳入出、県内の出|./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/toukei/file/toukei_27.csv|
|7|4|当落|./opendata_l_5-prep2/www.city.setagaya.lg.jp/kurashi/107/788/790/d00138488_d/fil/senkan.csv|
|13|2|で医療対|./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/19-01,26.csv|
|15|2|特にない、簡舗を含まない|./opendata_l_5-prep2/www.city.kawasaki.jp/170/cmsfiles/contents/0000066/66733/shimin2015-02-q-all.csv|
|15|2|特にない、簡舗を含まない|./opendata_l_5-prep2/www.pref.fukushima.lg.jp/uploaded/attachment/155133.csv|
|38|2|る世帯|./opendata_l_5-prep2/www.city.kobe.lg.jp/information/data/statistics/toukei/kokutyou/7data/073k10.csv|
|46|2|動機付け支援|./opendata_l_5-prep2/www.city.sumida.lg.jp/kuseijoho/sumida_info/opendata/opendata_ichiran/gyoseikisosiryo/20160401/7.files/7-1-2.csv|
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l_5-prep2/opendata.pref.miyazaki.lg.jp/dataset/414/resource/2724/10803007 考古博物館ホームページアクセス統計(H27.7作成).csv|
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l_5-prep2/www.city.sumida.lg.jp/kuseijoho/sumida_info/opendata/opendata_ichiran/gyoseikisosiryo/20160401/1-5.files/1-5-1.csv|
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/04-03,10.csv|
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/04-08,28.csv|
|110|1|残留農薬|./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/499/648/23-04,0.csv|
|149|1|交流|./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/kokusaikouryu/file/01-01.csv|
|150|1|よりみちクルーズ|./opendata_l_5-prep2/www.city.kagoshima.lg.jp/jousys/documents/3-29_feri-jikokuhyoukagoshimakousyukkou.csv|
-path:\\10.200.11.9\home\N\chin\20200207
-[[前回報告>http://f-lab.mydns.jp/index.php?chin2017-20200110]]
-上記のCSVを見ると、変なファイルが多いので、除外する必要である。
--方法として、手作業で確認?(手間がかかると思う)
--出現する回数より除外?10回?100回?200回?よりノイズとして削除を検討
*調査について [#a308bd64]
**1)項目名(以前のデータを統計) [#n163a5ec]
-ファイル:pre2_csv_items_all1206.csv
-1245709個:項目-項目名(ペア)
-5548個項目名
-1245709個データセットで
--出現5回以下:2444個項目名
--出現10回以下:3216個項目名
--出現50回以下:4481個項目名
--出現100回以下:4813個項目名
--出現500回以下:5268個項目名
--出現1000回以下:5385個項目名
--出現5000回以下:5510個項目名
--出現10000回以下:5533個項目名
--出現5w回以下:5544個項目名
--出現10w回以下:5547個項目名
--&ref(chin2017-20200130/020701.JPG,100%);
--ソース:&ref(chin2017-20200130/count_datasets.txt);
---&ref(chin2017-20200110/cluster_150_h.png,100%);
**2)項目名について [#qbd9f1a6]
-下記はゼミより抜粋
 基準がわからない。
 10個以下のクラスタ数
 100個以下のクラスタ数
 1000個以下のクラスタ数、はそれぞれ何個か?
-新しい作成したファイル:pre2_csv_items_all2020.csv
--正規表現を変更すると、抽出した結果が変わる
-842389個:項目-項目名(ペア)
-4481個項目名
-842389個データセットで
--出現5回以下:2230個項目名 
--出現10回以下:2822個項目名
--出現50回以下:3736個項目名
--出現100回以下:3961個項目名
--出現500回以下:4295個項目名
--出現1000回以下:4372個項目名
--出現5000回以下:4452個項目名
--出現10000回以下:4468個項目名
--出現5w回以下:4479個項目名
--出現10w回以下:4481個項目名

--&ref(chin2017-20200130/020702.JPG,100%);

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS