ゼミより抜粋
英語の項目名をすべて除外しているように見えるので、もっと絞った方がいいのでは? たとえば、 "^Unnamed: \d+$"
上記より正規表現を変更
re.search('^[Ⅰ-Ⅹ0-90-9%%×,,..::\"’〜~―ー-−‐○〇…〒 -]+$',item)#記号・数字等 →英語のほうを削除 re.search("^Unnamed: \d+$",item)#Unnamed: 0,1,2,3… re.search('[.]+[0-90-9]+$',item)#特殊文字:事業所数.1,従業者数.1 re.search('[0-90-9]+[歳|年|年度|月|時|歳代|の男性|の女性]+(以上)?$',item):#特殊文字