[Python]文字列内のhtmlタグを除去する

正規表現を使用して除去することができる。

import re
reg_obj = re.compile(r"<[^>]*?>")
tag_str = "<p><div>hoge</p></div>"
reg_obj.sub("", tag_str)
# => hoge

サンプルプログラムではre.compile()を使用して指定した正規表現パターンで検索している。

re.compile()

compile()を使用すると他のreモジュールと同様、正規表現オブジェクトを返す。
この正規表現オブジェクトの関数を使用して、正規表現にマッチした文字列に対して各種の操作を行う。

正規表現オブジェクト

参考

PythonでHTMLタグを除去する方法

Pythonの正規表現モジュールreの使い方(match、search、subなど)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

four × 3 =

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください