#author("2020-02-07T07:38:28+00:00","default:f-lab","f-lab") #author("2020-02-07T07:41:35+00:00","default:f-lab","f-lab") [[seminar-personal/chin2017]] **おさらい [#o52b72da] 前回ゼミより抜粋 いまやっていること 少ないクラスタに分類されたペアが所属しているCSVファイルを特定する。 少ないクラスタを排除 基準がわからない。 10個以下のクラスタ数 100個以下のクラスタ数 1000個以下のクラスタ数、はそれぞれ何個か? --テータを抽出するソースコード:&ref(chin2017-20200130/extract_datasets.txt); **調査について [#pe5c981e] -5回以下(一部のみ) |クラスタ|回数|中身|path| |4|1|北中|./opendata_l_5-prep2/www.pref.fukui.lg.jp/doc/toukei-jouhou/opendata/list1_jikokusuii_d/fil/jikokusuii2009.csv| |5|2|なす、見出し|./opendata_l_5-prep2/www.pref.kanagawa.jp/osirase/1197/ktv/csv/pickup.csv| |6|3|歳入出、県内の出|./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/toukei/file/toukei_27.csv| |7|4|当落|./opendata_l_5-prep2/www.city.setagaya.lg.jp/kurashi/107/788/790/d00138488_d/fil/senkan.csv| |13|2|で医療対|./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/19-01,26.csv| |15|2|特にない、簡舗を含まない|./opendata_l_5-prep2/www.city.kawasaki.jp/170/cmsfiles/contents/0000066/66733/shimin2015-02-q-all.csv| |15|2|特にない、簡舗を含まない|./opendata_l_5-prep2/www.pref.fukushima.lg.jp/uploaded/attachment/155133.csv| |38|2|る世帯|./opendata_l_5-prep2/www.city.kobe.lg.jp/information/data/statistics/toukei/kokutyou/7data/073k10.csv| |46|2|動機付け支援|./opendata_l_5-prep2/www.city.sumida.lg.jp/kuseijoho/sumida_info/opendata/opendata_ichiran/gyoseikisosiryo/20160401/7.files/7-1-2.csv| |74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l_5-prep2/opendata.pref.miyazaki.lg.jp/dataset/414/resource/2724/10803007 考古博物館ホームページアクセス統計(H27.7作成).csv| |74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l_5-prep2/www.city.sumida.lg.jp/kuseijoho/sumida_info/opendata/opendata_ichiran/gyoseikisosiryo/20160401/1-5.files/1-5-1.csv| |74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/04-03,10.csv| |74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/04-08,28.csv| |110|1|残留農薬|./opendata_l_5-prep2/www.pref.niigata.lg.jp/HTML_Article/499/648/23-04,0.csv| |149|1|交流|./opendata_l_5-prep2/www.city.nagaoka.niigata.jp/shisei/cate10/kokusaikouryu/file/01-01.csv| |150|1|よりみちクルーズ|./opendata_l_5-prep2/www.city.kagoshima.lg.jp/jousys/documents/3-29_feri-jikokuhyoukagoshimakousyukkou.csv| -path:\\10.200.11.9\home\N\chin\20200207 -[[前回報告>http://f-lab.mydns.jp/index.php?chin2017-20200110]] -上記のCSVを見ると、変なファイルが多いので、除外する必要である。 --方法として、手作業で確認?(手間がかかると思う) --出現する回数より除外?10回?100回?200回?よりノイズとして削除を検討 *調査について [#a308bd64] **1)項目名(以前のデータを統計) [#n163a5ec] -ファイル:pre2_csv_items_all1206.csv -1245709個:項目-項目名(ペア) -5548個項目名 -1245709個データセットで --出現5回以下:2444個項目名 --出現10回以下:3216個項目名 --出現50回以下:4481個項目名 --出現100回以下:4813個項目名 --出現500回以下:5268個項目名 --出現1000回以下:5385個項目名 --出現5000回以下:5510個項目名 --出現10000回以下:5533個項目名 --出現5w回以下:5544個項目名 --出現10w回以下:5547個項目名 --&ref(chin2017-20200130/020701.JPG,100%); --ソース:&ref(chin2017-20200130/count_datasets.txt); ---&ref(chin2017-20200110/cluster_150_h.png,100%); **2)項目名について [#qbd9f1a6] -下記はゼミより抜粋 基準がわからない。 10個以下のクラスタ数 100個以下のクラスタ数 1000個以下のクラスタ数、はそれぞれ何個か? -新しい作成したファイル:pre2_csv_items_all2020.csv --正規表現を変更すると、抽出した結果が変わる -842389個:項目-項目名(ペア) -4481個項目名 -842389個データセットで --出現5回以下:2230個項目名 --出現10回以下:2822個項目名 --出現50回以下:3736個項目名 --出現100回以下:3961個項目名 --出現500回以下:4295個項目名 --出現1000回以下:4372個項目名 --出現5000回以下:4452個項目名 --出現10000回以下:4468個項目名 --出現5w回以下:4479個項目名 --出現10w回以下:4481個項目名 --&ref(chin2017-20200130/020702.JPG,100%);