文字列マジック!正規表現でデータ整理を効率化しよう
更新日:
顧客リストの整理を行う場合に、日付やURL、電話番号などの情報を正確に抽出したいことはありませんか?
正規表現は、そんな多様なニーズに応える強力なツールです。
この記事を通じて、その使い方と応用例を学んで、効率的なデータ整理を実現しましょう!
正規表現とは?
正規表現とは、文字列の検索や置換を行うためのパターンを表す言語です。
特定の情報を抽出したり、不要な部分を取り除いたりするのに非常に役立ちます。
メールアドレスの整理
import re
text = "example1@gmail.com, test2@yahoo.co.jp, not_an_email"
emails = re.findall(r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}", text)
print(emails)
その他の一般的な正規表現の使用例
日付の検出
(\d{4}-\d{2}-\d{2})|(\d{2}/\d{2}/\d{4})
電話番号の検出
\d{2,4}[-\s]\d{2,4}[-\s]\d{4}
URLの検出
https?://[\w\-\.]+(\.[a-zA-Z]{2,4})+
HTMLタグの除去
<[^>]+>
カナ文字列の検出
[ァ-ヶー]+
郵便番号の検出
\d{3}-\d{4}
注意点
正規表現の利用は非常に強力ですが、完璧なパターンを作成するのは難しいことも。
そのため、作成した正規表現が期待通りの動作をするかを確認することは重要です。
まとめ
正規表現を使用することで、様々な文字列情報の整理や抽出が効率的に行えます。
日常のホームページ運営業務やデータ整理作業に、ぜひ活用してみてください。
一度覚えてしまえば、その強力さと便利さに驚くこと間違いなしです!
検索ボックスへキーワードを入力してください