#author("2020-06-26T07:48:06+00:00","default:f-lab","f-lab") #author("2020-06-26T07:53:58+00:00","default:f-lab","f-lab") [[個人ページ>seminar-personal/chin2017]] &br; [[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]] |~目次| |#contents| &br; *進捗状況 [#j054175b] ゼミより抜粋 英語の項目名をすべて除外しているように見えるので、もっと絞った方がいいのでは? たとえば、 "^Unnamed: \d+$" 上記より正規表現を変更 re.search('^[Ⅰ-Ⅹ0-90-9①-⑳%%×,,..::\"’〜~―ー-−‐○〇…〒-]+$',item):#記号・数字等#記号・数字等 →英語のほうを削除 re.search("^[Unnamed:|H]+\d+$",item)#Unnamed: 0,1,2,3…、H16...H25 re.search('[.]+[0-90-9]+$',item)#特殊文字:事業所数.1,従業者数.1 re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字 -比較用:&ref(chin2017-20200619/times_all_619_no_extract.csv); -英語のネーム: |項目名|CSV回数|自治体数| |SSID|4|4| |No.|4|3| |A7|4|3| |date|3|3| |A6|6|5| |A3|8|6| |TEL|14|3| |URL|18|9| |COD|18|3| |url|21|5| |FAX|28|11| |Y|36|8| |id|40|4| |X|49|11| |No|48|3| |ID|81|13| |x|84|3| |latitude|89|4| |longitude|90|4| |E-mail|91|6| |TEL|94|12| |NO|122|21| |A2|157|85| |URL|308|44| |No|319|32| -学習の辞書に上記の単語がないかもしれない? おかしいものなので、除外する ,287,28, ➡ if(name ==''): continue **結果について [#x32a0c06] ***2個自治体以上 [#v984507d] -除外した後のデータ(項目名):1198個項目名 --&ref(times_all_626_2times_re.csv); --&ref(extract_data_alllist_item_name_2times.py.txt); ***3個自治体以上 [#r5078c17] -除外した後のデータ(項目名):662個項目名 --&ref(times_all_626_3times_re.csv); --&ref(extract_data_alllist_item_name_3times.py.txt); ***クラスタ数50の結果 [#uaf94fe0] -2個自治体以上 --除外した後のデータ(項目名):1184個項目名(辞書に含まれていない単語があれば、除外) --&ref(chin2017-20200625/label_average_cosine_50_cluter_2times.csv,結果); --&ref(chin2017-20200625/label_average_cosine_50_cluter_2times.xlsx,結果分析より30というクラスタが一番多い); 30 149 34 143 48 131 ... -3個自治体以上 --除外した後のデータ(項目名):654個項目名(辞書に含まれていない単語があれば、除外) --&ref(chin2017-20200625/label_average_cosine_50_cluter_3times.csv,結果); --&ref(chin2017-20200625/label_average_cosine_50_cluter_3times.xlsx,結果分析より23と44というクラスタが一番多い); 23 68 44 68 38 55 備考:EXCELで統計し、一番多いクラスタを判断 -今回は自動化していない ****再度クラスタリング [#vf3b3db1] -2個自治体以上 --上記のクラスタ30を再度 --&ref(chin2017-20200625/50_cluter_2times_30.csv,クラスタ30の項目名); --&ref(chin2017-20200625/label_average_cosine_2_2times_30cluster.csv,結果30); --&ref(chin2017-20200625/label_average_cosine_2_2times_30cluster.xlsx,結果30_個数分析); --- |再度クラスタのバ番号|個数| |1|148| |2|1| ---結果は「?名称」は2となりますが、ほかにほぼ1となります。→おかしいと感じる? ---&color(red){項目名の除外する必要かも?「?」を含めている単語を除外するとか}; -3個自治体以上 --上記の23クラスタを再度 --&ref(chin2017-20200625/50_cluter_3times_23.csv,クラスタ23の項目名); --&ref(chin2017-20200625/label_average_cosine_2_3times_23cluster.xlsx,結果23_個数分析); --- |再度クラスタのバ番号|個数| |1|37| |2|31| --上記の44クラスタを再度 --&ref(chin2017-20200625/50_cluter_3times_44.csv,クラスタ44の項目名); --&ref(chin2017-20200625/label_average_cosine_2_3times_44cluster.xlsx,結果44_個数分析); -- |再度クラスタのバ番号|個数| |1|7| |2|61| ***クラスタ数100の結果 [#ue7b9995] -2個自治体以上 --&ref(chin2017-20200625/label_average_cosine_100_cluter_2times.csv,結果); --&ref(chin2017-20200625/label_average_cosine_100_cluter_2times.xlsx,結果_個数分析); -3個自治体以上 --&ref(chin2017-20200625/label_average_cosine_100_cluter_3times.csv,結果); --&ref(chin2017-20200625/label_average_cosine_100_cluter_3times.xlsx,結果_個数分析); ****再度クラスタリング [#jc0a56bd] *参考資料 [#l2f3b1fa] 1,[[いろんな空白文字を削除する【Python】>https://qiita.com/shimajiroxyz/items/1ecbae20cb5173761f4f]]