#author("2020-06-26T02:41:05+00:00","default:f-lab","f-lab")
#author("2020-06-26T07:53:58+00:00","default:f-lab","f-lab")
[[個人ページ>seminar-personal/chin2017]]
&br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*進捗状況 [#j054175b]
ゼミより抜粋
 英語の項目名をすべて除外しているように見えるので、もっと絞った方がいいのでは?
 たとえば、
 "^Unnamed: \d+$"
上記より正規表現を変更
 re.search('^[Ⅰ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒  	-]+$',item)#記号・数字等 →英語のほうを削除
 re.search('^[Ⅰ-Ⅹ0-90-9①-⑳%%×,,..::\"’〜~―ー-−‐○〇…〒-]+$',item):#記号・数字等#記号・数字等 →英語のほうを削除
 re.search("^[Unnamed:|H]+\d+$",item)#Unnamed: 0,1,2,3…、H16...H25
 re.search('[.]+[0-90-9]+$',item)#特殊文字:事業所数.1,従業者数.1
 re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
-比較用:&ref(chin2017-20200619/times_all_619_no_extract.csv);
-英語のネーム:
|項目名|CSV回数|自治体数|
|SSID|4|4|
|No.|4|3|
|A7|4|3|
|date|3|3|
|A6|6|5|
|A3|8|6|
|TEL|14|3|
|URL|18|9|
|COD|18|3|
|url|21|5|
|FAX|28|11|
|Y|36|8|
|id|40|4|
|X|49|11|
|No|48|3|
|ID|81|13|
|x|84|3|
|latitude|89|4|
|longitude|90|4|
|E-mail|91|6|
|TEL|94|12|
|NO|122|21|
|A2|157|85|
|URL|308|44|
|No|319|32|
-学習の辞書に上記の単語がないかもしれない?

おかしいものなので、除外する
 ,287,28,
 ➡
 if(name ==''):
     continue
**結果について [#x32a0c06]
***2個自治体以上 [#v984507d]
-除外した後のデータ(項目名):1205個項目名
-除外した後のデータ(項目名):1198個項目名
--&ref(times_all_626_2times_re.csv);
--&ref(extract_data_alllist_item_name_2times.py.txt);
***3個自治体以上 [#r5078c17]
-除外した後のデータ(項目名):662個項目名
--&ref(times_all_626_3times_re.csv);
--&ref(extract_data_alllist_item_name_3times.py.txt);
***クラスタ数50の結果 [#uaf94fe0]
-2個自治体以上 
--除外した後のデータ(項目名):1184個項目名(辞書に含まれていない単語があれば、除外)
--&ref(chin2017-20200625/label_average_cosine_50_cluter_2times.csv,結果);
--&ref(chin2017-20200625/label_average_cosine_50_cluter_2times.xlsx,結果分析より30というクラスタが一番多い);
 30	149
 34	143
 48	131
 ...
-3個自治体以上
--除外した後のデータ(項目名):654個項目名(辞書に含まれていない単語があれば、除外)
--&ref(chin2017-20200625/label_average_cosine_50_cluter_3times.csv,結果);
--&ref(chin2017-20200625/label_average_cosine_50_cluter_3times.xlsx,結果分析より23と44というクラスタが一番多い);
 23	68
 44	68
 38	55

備考:EXCELで統計し、一番多いクラスタを判断
-今回は自動化していない
****再度クラスタリング [#vf3b3db1]
-2個自治体以上 
--上記のクラスタ30を再度
--&ref(chin2017-20200625/50_cluter_2times_30.csv,クラスタ30の項目名);
--&ref(chin2017-20200625/label_average_cosine_2_2times_30cluster.csv,結果30);
--&ref(chin2017-20200625/label_average_cosine_2_2times_30cluster.xlsx,結果30_個数分析);
---
|再度クラスタのバ番号|個数|
|1|148|
|2|1|
---結果は「?名称」は2となりますが、ほかにほぼ1となります。→おかしいと感じる?
---&color(red){項目名の除外する必要かも?「?」を含めている単語を除外するとか};
-3個自治体以上
--上記の23クラスタを再度
--&ref(chin2017-20200625/50_cluter_3times_23.csv,クラスタ23の項目名);
--&ref(chin2017-20200625/label_average_cosine_2_3times_23cluster.xlsx,結果23_個数分析);
---
|再度クラスタのバ番号|個数|
|1|37|
|2|31|

--上記の44クラスタを再度
--&ref(chin2017-20200625/50_cluter_3times_44.csv,クラスタ44の項目名);
--&ref(chin2017-20200625/label_average_cosine_2_3times_44cluster.xlsx,結果44_個数分析);
--
|再度クラスタのバ番号|個数|
|1|7|
|2|61|

***クラスタ数100の結果 [#ue7b9995]
-2個自治体以上
--&ref(chin2017-20200625/label_average_cosine_100_cluter_2times.csv,結果); 
--&ref(chin2017-20200625/label_average_cosine_100_cluter_2times.xlsx,結果_個数分析); 
-3個自治体以上
--&ref(chin2017-20200625/label_average_cosine_100_cluter_3times.csv,結果);
--&ref(chin2017-20200625/label_average_cosine_100_cluter_3times.xlsx,結果_個数分析); 
****再度クラスタリング [#jc0a56bd]
*参考資料 [#l2f3b1fa]
1,[[いろんな空白文字を削除する【Python】>https://qiita.com/shimajiroxyz/items/1ecbae20cb5173761f4f]]


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS