#author("2020-05-15T06:37:44+00:00","default:f-lab","f-lab") #author("2020-05-15T06:42:38+00:00","default:f-lab","f-lab") [[seminar-personal/chin2017]] [[第6回N班ゼミより抜粋>http://f-lab.mydns.jp/index.php?seminar-N-20200508]] 項目名の多い方から50種類のデータを使うとどうなるか? ペアではなくて項目名だけに着目して順位付けする。 実験2は、よく使われている項目名についてやってみるのがいいのでは? *データを抽出 [#a8f00ddd] -①ken_list.txt:&ref(ken_list.txt);より50項目名 --&ref(times_50.csv); --&ref(itemname_list_50.txt); -②ken_list.txt:&ref(ken_list.txt);より上位100個項目名&ref(times_100.csv); -経度、緯度、総数、電話番号、世帯数、人口総数[人]、年齢[歳]、郵便番号等数字の項目データを使えない -50個項目名の中に31を使用した。 ['世帯数' '住所' '備考' '全窒素' '区分' '区名' '名称' '地区' '大腸菌群数' '天候' '市区名' '年度' '性別' '所在地' '施設名' '気温' '町丁目' '町名' '砒素' '経度' '総数' '緯度' '計' '郵便番号' '都道府県名' '鉛' '電話番号' '項目' '順位' '類型' 'フリガナ'] -項目データ・項目名の1245710ペアから333274ペアを抽出した。 *学習結果 [#kaf1e932] 訓練 損失率loss=0.32973142086581025 精度accuracy=0.8535898923873901 テスト 損失率loss=0.46957738642349417 精度accuracy=0.7940617799758911 比較 |比較内容|acc|loss|予測結果| |項目名の多い方から50種類|&ref(acc_no_cluter_50.png);|&ref(loss_no_cluter_50.png);|&ref(results_no_cluter_50.png);| |クラスタ数が50|&ref(acc_of_cluter_50.png);|&ref(loss_of_cluter_50.png);|&ref(results_of_cluter_50.png);| 表示用 |項目データ|予測結果|○×| |日高病院|名称|○?| |鹿児島中央クリニック|名称|○?| |のぼり病院|名称|○?| |高橋|町名|×?| |陳|名称|×?| |中島|町名|×?| |北寺尾三丁目|町名|〇?| |西田1丁目|町名|〇?| |鴨池1丁目|町名|〇?| |鹿児島大学|名称|〇?|