[解決済み] awk を使ってバイトオーダーマークを削除する

2022-10-27 23:07:33

質問

どのように awk を削除するスクリプト (おそらくワンライナー) はどうなるでしょうか。 BOM のように見えますか？

仕様書です。

最初の行の次の行を表示する ( NR > 1 )
で始まる場合、最初の行はで始まる場合 #FE #FF または #FF #FE であれば、それらを削除し、残りを印刷します。

どのように解決するのですか？

これを試してみてください。

awk 'NR==1{sub(/^\xef\xbb\xbf/,"")}{print}' INFILE > OUTFILE

最初のレコード（行）で、BOM 文字を削除します。すべてのレコードを印刷します。

あるいは、awk のデフォルトの動作がレコードを印刷することであるという知識を使って、少し短くします。

awk 'NR==1{sub(/^\xef\xbb\xbf/,"")}1' INFILE > OUTFILE

1 は常に真と評価される最短の条件であるため、各レコードが出力されます。

お楽しみに

-- ADDENDUM --

Unicode バイトオーダーマーク (BOM) FAQ には、各エンコーディングの正確な BOM バイトをリストした以下の表があります。

Bytes         |  Encoding Form
--------------------------------------
00 00 FE FF   |  UTF-32, big-endian
FF FE 00 00   |  UTF-32, little-endian
FE FF         |  UTF-16, big-endian
FF FE         |  UTF-16, little-endian
EF BB BF      |  UTF-8

このように \xef\xbb\xbf に対応する EF BB BF UTF-8 上表のBOMバイト。

[解決済み] awk を使ってバイトオーダーマークを削除する

質問

どのように解決するのですか？

関連

[解決済み] 時間」を表すUnicodeの文字は？

[解決済み] 人を表すユニコード記号は？

[解決済み] 真ん中の大きな弾丸を表すユニコード文字は何になるのでしょうか？

[解決済み] Pythonのunicode文字列のアクセントを除去（正規化）する最良の方法は何ですか？

[解決済み] UTF-8とUnicodeの違いは何ですか？

[解決済み] awk を使って n 番目から最後までのすべての列を表示する

[解決済み] Windowsのコマンドラインでunicode文字を使うには？

[解決済み】Markdownの構文でディレクトリとファイル構造を表現する【終了しました

[解決済み】UnicodeとUTF-8の違いは何ですか？重複

[解決済み] 実際に使われている非BMPのUnicode文字で最も多いものは何ですか？[クローズド］

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み】このUnicode結合文字はどうなっているのか、どうすればフィルタリングできるのか？

[解決済み] 次の Unicode 文字列 \xe9 は何ですか。

[解決済み] ノンチャラクターU+FDD0～U+FDEFは何のためにあるのですか？

[解決済み] テキストがボックスで表示されるのはどういう意味ですか？

[解決済み] UTF-8とBOMなしUTF-8の違いは何ですか？

[解決済み] PHPで「Header already sent」エラーを修正する方法

[解決済み] UTF-8とUnicodeの違いは何ですか？

[解決済み】UnicodeとUTF-8の違いは何ですか？重複

[解決済み] ファイルの先頭からï "¿を削除するにはどうすればよいですか？

[解決済み] 実際に使われている非BMPのUnicode文字で最も多いものは何ですか？[クローズド］