#author("2020-06-26T00:49:09+00:00","default:f-lab","f-lab")
#author("2020-06-26T02:41:05+00:00","default:f-lab","f-lab")
[[個人ページ>seminar-personal/chin2017]]
&br;
[[N班ゼミ>http://f-lab.mydns.jp/index.php?seminar-N-2020]]
|~目次|
|#contents|
&br;
*進捗状況 [#j054175b]
ゼミより抜粋
 英語の項目名をすべて除外しているように見えるので、もっと絞った方がいいのでは?
 たとえば、
 "^Unnamed: \d+$"
上記より正規表現を変更
 re.search('^[Ⅰ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒  	-]+$',item)#記号・数字等 →英語のほうを削除
 re.search("^Unnamed: \d+$",item)#Unnamed: 0,1,2,3…
 re.search("^[Unnamed:|H]+\d+$",item)#Unnamed: 0,1,2,3…、H16...H25
 re.search('[.]+[0-90-9]+$',item)#特殊文字:事業所数.1,従業者数.1
 re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
-比較用:-&ref(chin2017-20200619/times_all_619_no_extract.csv);
-比較用:&ref(chin2017-20200619/times_all_619_no_extract.csv);
-英語のネーム:
|項目名|CSV回数|自治体数|
|SSID|4|4|
|No.|4|3|
|A7|4|3|
|date|3|3|
|A6|6|5|
|A3|8|6|
|TEL|14|3|
|URL|18|9|
|COD|18|3|
|url|21|5|
|FAX|28|11|
|Y|36|8|
|id|40|4|
|X|49|11|
|No|48|3|
|ID|81|13|
|x|84|3|
|latitude|89|4|
|longitude|90|4|
|E-mail|91|6|
|TEL|94|12|
|NO|122|21|
|A2|157|85|
|URL|308|44|
|No|319|32|
-学習の辞書に上記の単語がないかもしれない?

おかしいもの
おかしいものなので、除外する
 ,287,28,

 if(name ==''):
     continue
**結果について [#x32a0c06]
***2個自治体以上 [#v984507d]
-除外した後のデータ(項目名):1205個項目名
--&ref(times_all_626_2times_re.csv);
--&ref(extract_data_alllist_item_name_2times.py.txt);
*参考資料 [#l2f3b1fa]
1,[[いろんな空白文字を削除する【Python】>https://qiita.com/shimajiroxyz/items/1ecbae20cb5173761f4f]]


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS