【正規表現の基本】HTMLファイルのタグを取り除く正規表現の紹介！

正規表現

2022.10.27

正規表現を使うと、いろいろなテキスト処理が可能になるので、便利だ。

例えば、HTMLファイルのタグをすべて取り除き、テキストのみにすることもできる。

今回は、HTMLファイルのタグを取り除く正規表現を紹介したい。

正規表現を使ってHTMLファイルのタグを取り除く
1. テキストエディター Mery の起動
2. テキストエディター Mery での処理

正規表現を使ってHTMLファイルのタグを取り除く

テキストエディター Mery の起動

テキストエディターの Mery を起動する。

Mery については、以下を参照。

【ツール】正規表現も使える無料テキストエディター「Mery」の紹介！

以下の記事で正規表現をご紹介したが、正規表現が使えるテキストエディターがあれば便利だ。今回は、無料で使えるテキストエディター、「Mery」という便利なソフトを紹介したい。「Mery」のインストール方法以下から、「無料ダウンロード」をクリック...

テキストエディター Mery での処理

htmlコードのサンプルとして、以下の html コードを Mery に貼り付ける。

<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="utf-8">
<title>正規表現</title>
</head>
<body>
エスケープ文字とは？
</body>
</html>

貼り付けたあと、ショートカットの「Ctrl」+「R」キーで検索置換画面を表示させる。

検索置換画面の設定で、「正規表現を使用する」にチェック (✓) が入っていることを確認してから、「検索する文字列」の下のテキストボックスに、「 [ \t]*<.+?>」を入力し、「置換後の文字列」は、空欄のまま (つまり、置換後は、削除されることを意味する) にする。

※正規表現「 [ \t]*<.+?>」の意味

インデントの一致：[ \t] ➝ ブラケット([])の中に、スペースとタブ (\t)があるので、スペースまたはタブに一致する。
インデントがない場合の処理：＊➝ 直前の文字が０回以上 (これによって、インデントがない場合は、無視される)
タグの一致：<.+?> ➝ < のあとに、任意の一文字 (.) が１回以上続き (+)、最短一致で >を含む文字列)