ゼミより抜粋
英語の項目名をすべて除外しているように見えるので、もっと絞った方がいいのでは? たとえば、 "^Unnamed: \d+$"
上記より正規表現を変更
re.search('^[Ⅰ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒 -]+$',item)#記号・数字等 →英語のほうを削除 re.search("^[Unnamed:|H]+\d+$",item)#Unnamed: 0,1,2,3…、H16...H25 re.search('[.]+[0-90-9]+$',item)#特殊文字:事業所数.1,従業者数.1 re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字
項目名 | CSV回数 | 自治体数 |
SSID | 4 | 4 |
No. | 4 | 3 |
A7 | 4 | 3 |
date | 3 | 3 |
A6 | 6 | 5 |
A3 | 8 | 6 |
TEL | 14 | 3 |
URL | 18 | 9 |
COD | 18 | 3 |
url | 21 | 5 |
FAX | 28 | 11 |
Y | 36 | 8 |
id | 40 | 4 |
X | 49 | 11 |
No | 48 | 3 |
ID | 81 | 13 |
x | 84 | 3 |
latitude | 89 | 4 |
longitude | 90 | 4 |
91 | 6 | |
TEL | 94 | 12 |
NO | 122 | 21 |
A2 | 157 | 85 |
URL | 308 | 44 |
No | 319 | 32 |
おかしいものなので、除外する
,287,28, ➡ if(name ==''): continue