#author("2020-05-15T06:37:44+00:00","default:f-lab","f-lab")
#author("2020-05-15T06:42:38+00:00","default:f-lab","f-lab")
[[seminar-personal/chin2017]]
[[第6回N班ゼミより抜粋>http://f-lab.mydns.jp/index.php?seminar-N-20200508]]
 項目名の多い方から50種類のデータを使うとどうなるか?
 ペアではなくて項目名だけに着目して順位付けする。
 実験2は、よく使われている項目名についてやってみるのがいいのでは?
*データを抽出 [#a8f00ddd]
-①ken_list.txt:&ref(ken_list.txt);より50項目名
--&ref(times_50.csv); 
--&ref(itemname_list_50.txt); 
-②ken_list.txt:&ref(ken_list.txt);より上位100個項目名&ref(times_100.csv);
-経度、緯度、総数、電話番号、世帯数、人口総数[人]、年齢[歳]、郵便番号等数字の項目データを使えない
-50個項目名の中に31を使用した。
 ['世帯数' '住所' '備考' '全窒素' '区分' '区名' '名称' '地区' '大腸菌群数' '天候' '市区名' '年度' '性別' '所在地' '施設名' '気温' '町丁目' '町名' '砒素' '経度' '総数' '緯度' '計' '郵便番号' '都道府県名' '鉛' '電話番号' '項目' '順位' '類型' 'フリガナ']
-項目データ・項目名の1245710ペアから333274ペアを抽出した。
*学習結果 [#kaf1e932]
 訓練
 損失率loss=0.32973142086581025 精度accuracy=0.8535898923873901
 テスト
 損失率loss=0.46957738642349417 精度accuracy=0.7940617799758911
比較
|比較内容|acc|loss|予測結果|
|項目名の多い方から50種類|&ref(acc_no_cluter_50.png);|&ref(loss_no_cluter_50.png);|&ref(results_no_cluter_50.png);|
|クラスタ数が50|&ref(acc_of_cluter_50.png);|&ref(loss_of_cluter_50.png);|&ref(results_of_cluter_50.png);|
表示用
|項目データ|予測結果|○×|
|日高病院|名称|○?|
|鹿児島中央クリニック|名称|○?|
|のぼり病院|名称|○?|
|高橋|町名|×?|
|陳|名称|×?|
|中島|町名|×?|
|北寺尾三丁目|町名|〇?|
|西田1丁目|町名|〇?|
|鴨池1丁目|町名|〇?|
|鹿児島大学|名称|〇?|

トップ   編集 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS