seminar-personal/chin2017 第6回N班ゼミより抜粋

項目名の多い方から50種類のデータを使うとどうなるか?
ペアではなくて項目名だけに着目して順位付けする。
実験2は、よく使われている項目名についてやってみるのがいいのでは?

データを抽出

  • ①ken_list.txt:fileken_list.txtより50項目名
  • ②ken_list.txt:fileken_list.txtより上位100個項目名filetimes_100.csv
  • 経度、緯度、総数、電話番号、世帯数、人口総数[人]、年齢[歳]、郵便番号等数字の項目データを使えない
  • 50個項目名の中に31を使用した。
    ['世帯数' '住所' '備考' '全窒素' '区分' '区名' '名称' '地区' '大腸菌群数' '天候' '市区名' '年度' '性別' '所在地' '施設名' '気温' '町丁目' '町名' '砒素' '経度' '総数' '緯度' '計' '郵便番号' '都道府県名' '鉛' '電話番号' '項目' '順位' '類型' 'フリガナ']
  • 項目データ・項目名の1245710ペアから333274ペアを抽出した。

学習結果

訓練
損失率loss=0.32973142086581025 精度accuracy=0.8535898923873901
テスト
損失率loss=0.46957738642349417 精度accuracy=0.7940617799758911

比較

比較内容accloss予測結果
項目名の多い方から50種類acc_no_cluter_50.pngloss_no_cluter_50.pngresults_no_cluter_50.png
クラスタ数が50acc_of_cluter_50.pngloss_of_cluter_50.pngresults_of_cluter_50.png

表示用

項目データ予測結果○×
日高病院名称○?
鹿児島中央クリニック名称○?
のぼり病院名称○?
高橋町名×?
名称×?
中島町名×?
北寺尾三丁目町名〇?
西田1丁目町名〇?
鴨池1丁目町名〇?
鹿児島大学名称〇?

添付ファイル: fileresults_no_cluter_50.png 97件 [詳細] fileresults_of_cluter_50.png 88件 [詳細] fileloss_of_cluter_50.png 85件 [詳細] fileacc_of_cluter_50.png 85件 [詳細] fileloss_no_cluter_50.png 93件 [詳細] fileacc_no_cluter_50.png 75件 [詳細] filetimes_50.csv 100件 [詳細] fileitemname_list_50.txt 94件 [詳細] filetimes_100.csv 106件 [詳細] fileken_list.txt 180件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2020-05-15 (金) 15:42:38