#author("2020-05-14T11:56:02+00:00","default:f-lab","f-lab")
[[seminar-personal/chin2017]]
[[第6回N班ゼミより抜粋>http://f-lab.mydns.jp/index.php?seminar-N-20200508]]
 項目名の多い方から50種類のデータを使うとどうなるか?
 ペアではなくて項目名だけに着目して順位付けする。
 実験2は、よく使われている項目名についてやってみるのがいいのでは?
*データを抽出 [#a8f00ddd]
-①ken_list.txt:&ref(ken_list.txt);より50項目名
--&ref(times_50.csv); 
--&ref(itemname_list_50.txt); 
-②ken_list.txt:&ref(ken_list.txt);より上位100個項目名&ref(times_100.csv);
-経度、緯度、総数、電話番号、世帯数、人口総数[人]、年齢[歳]、郵便番号等数字の項目データを使えない
-50個項目名の中に40を使用した。
 ['名称', '住所', '施設名', '所在地', '備考', '区分', '町名', '都道府県名', '電話番号', '計', '性別', '項目', '類型', '地区', '気温', '総数', '郵便番号', '世帯数', '町丁目', '経度', '鉛', '砒素', '区名', '緯度', '年度', '順位', '市区名', '天候', 'フリガナ', '採取水深', '水温', '全水深', '大腸菌群数', '全窒素', '総水銀', ' 四塩化炭素', '亜硝酸性窒素', '硝酸性窒素', '銅', '電気伝導率']
-項目データ・項目名の1245710ペアから333274ペアを抽出した。
*学習結果 [#kaf1e932]


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS