chin2017-20200625 のバックアップ(No.5)

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
chin2017-20200625 へ行く。
- 1 (2020-06-26 (金) 02:18:51)
- 2 (2020-06-26 (金) 17:27:07)
- 3 (2020-06-26 (金) 18:49:09)
- 4 (2020-06-26 (金) 20:41:05)
- 5 (2020-06-26 (金) 22:49:01)

目次
進捗状況結果について 2個自治体以上 3個自治体以上参考資料

進捗状況 †

ゼミより抜粋

英語の項目名をすべて除外しているように見えるので、もっと絞った方がいいのでは？
たとえば、
"^Unnamed: \d+$"

上記より正規表現を変更

re.search('^[Ⅰ-Ⅹ0-9０-９%％×,，.．:：\"’〜～―ー－−‐○〇…〒　 	-]+$',item)#記号・数字等 →英語のほうを削除
re.search("^[Unnamed:|H]+\d+$",item)#Unnamed: 0,1,2,3…、H16...H25
re.search('[.]+[0-9０-９]+$',item)#特殊文字:事業所数.1,従業者数.1
re.search('[0-9０-９]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字

比較用：times_all_619_no_extract.csv

英語のネーム：

項目名	CSV回数	自治体数
SSID	4	4
Ｎｏ．	4	3
A7	4	3
date	3	3
A6	6	5
A3	8	6
ＴＥＬ	14	3
ＵＲＬ	18	9
ＣＯＤ	18	3
url	21	5
ＦＡＸ	28	11
Y	36	8
id	40	4
X	49	11
Ｎｏ	48	3
ID	81	13
x	84	3
latitude	89	4
longitude	90	4
E-mail	91	6
TEL	94	12
NO	122	21
A2	157	85
URL	308	44
No	319	32

学習の辞書に上記の単語がないかもしれない？

おかしいものなので、除外する

,287,28,
➡
if(name ==''):
    continue

↑

参考資料 †

1,いろんな空白文字を削除する【Python】

chin2017-20200625 のバックアップ(No.5)

進捗状況 †

結果について †

2個自治体以上 †

3個自治体以上 †

参考資料 †