chin2017-20200515 のバックアップソース(No.3)

バックアップ一覧
差分を表示
現在との差分を表示
バックアップを表示
chin2017-20200515 へ行く。
- 1 (2020-05-13 (水) 05:24:12)
- 2 (2020-05-15 (金) 04:23:48)
- 3 (2020-05-15 (金) 05:56:02)

#author("2020-05-14T11:56:02+00:00","default:f-lab","f-lab")
[[seminar-personal/chin2017]]
[[第6回N班ゼミより抜粋>http://f-lab.mydns.jp/index.php?seminar-N-20200508]]
 項目名の多い方から50種類のデータを使うとどうなるか？
 ペアではなくて項目名だけに着目して順位付けする。
 実験2は、よく使われている項目名についてやってみるのがいいのでは？
*データを抽出 [#a8f00ddd]
-①ken_list.txt:&ref(ken_list.txt);より50項目名
--&ref(times_50.csv); 
--&ref(itemname_list_50.txt); 
-②ken_list.txt:&ref(ken_list.txt);より上位100個項目名&ref(times_100.csv);
-経度、緯度、総数、電話番号、世帯数、人口総数[人]、年齢[歳]、郵便番号等数字の項目データを使えない
-50個項目名の中に40を使用した。
 ['名称', '住所', '施設名', '所在地', '備考', '区分', '町名', '都道府県名', '電話番号', '計', '性別', '項目', '類型', '地区', '気温', '総数', '郵便番号', '世帯数', '町丁目', '経度', '鉛', '砒素', '区名', '緯度', '年度', '順位', '市区名', '天候', 'ﾌﾘｶﾞﾅ', '採取水深', '水温', '全水深', '大腸菌群数', '全窒素', '総水銀', ' 四塩化炭素', '亜硝酸性窒素', '硝酸性窒素', '銅', '電気伝導率']
-項目データ・項目名の1245710ペアから333274ペアを抽出した。
*学習結果 [#kaf1e932]