chin2017-20200130
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
|
ログイン
]
開始行:
[[seminar-personal/chin2017]]
**おさらい [#o52b72da]
前回ゼミより抜粋
いまやっていること
少ないクラスタに分類されたペアが所属しているCSVファイル...
少ないクラスタを排除
基準がわからない。
10個以下のクラスタ数
100個以下のクラスタ数
1000個以下のクラスタ数、はそれぞれ何個か?
--テータを抽出するソースコード:&ref(chin2017-20200130/ext...
**調査について [#pe5c981e]
-5回以下(一部のみ)
|クラスタ|回数|中身|path|
|4|1|北中|./opendata_l_5-prep2/www.pref.fukui.lg.jp/doc/t...
|5|2|なす、見出し|./opendata_l_5-prep2/www.pref.kanagawa....
|6|3|歳入出、県内の出|./opendata_l_5-prep2/www.city.nagao...
|7|4|当落|./opendata_l_5-prep2/www.city.setagaya.lg.jp/ku...
|13|2|で医療対|./opendata_l_5-prep2/www.pref.niigata.lg.j...
|15|2|特にない、簡舗を含まない|./opendata_l_5-prep2/www.c...
|15|2|特にない、簡舗を含まない|./opendata_l_5-prep2/www.p...
|38|2|る世帯|./opendata_l_5-prep2/www.city.kobe.lg.jp/inf...
|46|2|動機付け支援|./opendata_l_5-prep2/www.city.sumida.l...
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l...
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l...
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l...
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l...
|110|1|残留農薬|./opendata_l_5-prep2/www.pref.niigata.lg....
|149|1|交流|./opendata_l_5-prep2/www.city.nagaoka.niigata...
|150|1|よりみちクルーズ|./opendata_l_5-prep2/www.city.kag...
-path:\\10.200.11.9\home\N\chin\20200207
-[[前回報告>http://f-lab.mydns.jp/index.php?chin2017-2020...
-上記のCSVを見ると、変なファイルが多いので、除外する必要...
--方法として、手作業で確認?(手間がかかると思う)
--出現する回数より除外?10回?100回?200回?よりノイズと...
*調査について [#a308bd64]
**1)項目名(以前のデータを統計) [#n163a5ec]
-ファイル:pre2_csv_items_all1206.csv
-1245709個:項目-項目名(ペア)
-5548個項目名
-1245709個データセットで
--出現5回以下:2444個項目名
--出現10回以下:3216個項目名
--出現50回以下:4481個項目名
--出現100回以下:4813個項目名
--出現500回以下:5268個項目名
--出現1000回以下:5385個項目名
--出現5000回以下:5510個項目名
--出現10000回以下:5533個項目名
--出現5w回以下:5544個項目名
--出現10w回以下:5547個項目名
--&ref(chin2017-20200130/020701.JPG,100%);
--ソース:&ref(chin2017-20200130/count_datasets.txt);
---&ref(chin2017-20200110/cluster_150_h.png,100%);
**2)項目名について [#qbd9f1a6]
-下記はゼミより抜粋
基準がわからない。
10個以下のクラスタ数
100個以下のクラスタ数
1000個以下のクラスタ数、はそれぞれ何個か?
-新しい作成したファイル:pre2_csv_items_all2020.csv
--正規表現を変更すると、抽出した結果が変わる
-842389個:項目-項目名(ペア)
-4481個項目名
-842389個データセットで
--出現5回以下:2230個項目名
--出現10回以下:2822個項目名
--出現50回以下:3736個項目名
--出現100回以下:3961個項目名
--出現500回以下:4295個項目名
--出現1000回以下:4372個項目名
--出現5000回以下:4452個項目名
--出現10000回以下:4468個項目名
--出現5w回以下:4479個項目名
--出現10w回以下:4481個項目名
--&ref(chin2017-20200130/020702.JPG,100%);
終了行:
[[seminar-personal/chin2017]]
**おさらい [#o52b72da]
前回ゼミより抜粋
いまやっていること
少ないクラスタに分類されたペアが所属しているCSVファイル...
少ないクラスタを排除
基準がわからない。
10個以下のクラスタ数
100個以下のクラスタ数
1000個以下のクラスタ数、はそれぞれ何個か?
--テータを抽出するソースコード:&ref(chin2017-20200130/ext...
**調査について [#pe5c981e]
-5回以下(一部のみ)
|クラスタ|回数|中身|path|
|4|1|北中|./opendata_l_5-prep2/www.pref.fukui.lg.jp/doc/t...
|5|2|なす、見出し|./opendata_l_5-prep2/www.pref.kanagawa....
|6|3|歳入出、県内の出|./opendata_l_5-prep2/www.city.nagao...
|7|4|当落|./opendata_l_5-prep2/www.city.setagaya.lg.jp/ku...
|13|2|で医療対|./opendata_l_5-prep2/www.pref.niigata.lg.j...
|15|2|特にない、簡舗を含まない|./opendata_l_5-prep2/www.c...
|15|2|特にない、簡舗を含まない|./opendata_l_5-prep2/www.p...
|38|2|る世帯|./opendata_l_5-prep2/www.city.kobe.lg.jp/inf...
|46|2|動機付け支援|./opendata_l_5-prep2/www.city.sumida.l...
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l...
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l...
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l...
|74|5|ページアクセス総計、全部公開、稼働世帯|./opendata_l...
|110|1|残留農薬|./opendata_l_5-prep2/www.pref.niigata.lg....
|149|1|交流|./opendata_l_5-prep2/www.city.nagaoka.niigata...
|150|1|よりみちクルーズ|./opendata_l_5-prep2/www.city.kag...
-path:\\10.200.11.9\home\N\chin\20200207
-[[前回報告>http://f-lab.mydns.jp/index.php?chin2017-2020...
-上記のCSVを見ると、変なファイルが多いので、除外する必要...
--方法として、手作業で確認?(手間がかかると思う)
--出現する回数より除外?10回?100回?200回?よりノイズと...
*調査について [#a308bd64]
**1)項目名(以前のデータを統計) [#n163a5ec]
-ファイル:pre2_csv_items_all1206.csv
-1245709個:項目-項目名(ペア)
-5548個項目名
-1245709個データセットで
--出現5回以下:2444個項目名
--出現10回以下:3216個項目名
--出現50回以下:4481個項目名
--出現100回以下:4813個項目名
--出現500回以下:5268個項目名
--出現1000回以下:5385個項目名
--出現5000回以下:5510個項目名
--出現10000回以下:5533個項目名
--出現5w回以下:5544個項目名
--出現10w回以下:5547個項目名
--&ref(chin2017-20200130/020701.JPG,100%);
--ソース:&ref(chin2017-20200130/count_datasets.txt);
---&ref(chin2017-20200110/cluster_150_h.png,100%);
**2)項目名について [#qbd9f1a6]
-下記はゼミより抜粋
基準がわからない。
10個以下のクラスタ数
100個以下のクラスタ数
1000個以下のクラスタ数、はそれぞれ何個か?
-新しい作成したファイル:pre2_csv_items_all2020.csv
--正規表現を変更すると、抽出した結果が変わる
-842389個:項目-項目名(ペア)
-4481個項目名
-842389個データセットで
--出現5回以下:2230個項目名
--出現10回以下:2822個項目名
--出現50回以下:3736個項目名
--出現100回以下:3961個項目名
--出現500回以下:4295個項目名
--出現1000回以下:4372個項目名
--出現5000回以下:4452個項目名
--出現10000回以下:4468個項目名
--出現5w回以下:4479個項目名
--出現10w回以下:4481個項目名
--&ref(chin2017-20200130/020702.JPG,100%);
ページ名: