第32回シェル芸勉強会 Q5 の解答

前置き

今日も今日とて第32回シェル芸勉強会の問題を解いていきます。
今日はQ5です。

第32回シェル芸勉強会の問題は次のURLにあります。
【問題のみ】jus共催第32回全くインスタ映えしないシェル芸勉強会 | 上田ブログ

思考を忠実にアウトプットすることを目標にしています。

Q5 問題(上記URLからコピー)

ウムラウトを含む単語だけ抽出してください。ワンライナー中にウムラウトを使用しないでください。

wäschst wash 山田x Schrödinger
y上田 Ö アイウエオ unko
Übel Ärztin hoge ｶｷｸｹｺ

問題を見た感想・補足

マルチバイト文字が来たらとりあえずバイナリが見たくなる。

入力はGitHub リポジトリにあった umlaut.txtを使います。

解答1（邪道）

cat umlaut.txt | tr \  \\n | LANG=C grep -v '^[a-z山田上アイウエオｶｷｸｹｺ]*$'

解説

感想で言っていることはさておき、「ワンライナー中にウムラウトを使用しないでください」ということはウムラウト以外ならいいはずです。

ウムラウトを含む列を引っ張ってくるなら grep '[ウムラウトたち]' をすればいいですが、grep -v '^[ウムラウト以外]*$' が等価になります。
ただ、私の環境ではäが[a-z]指定で何故か引っかかってくるのでLANG=Cを指定しています。（[a-z]は引っかかってaは引っかからないのに、[b-z]も引っかからない謎。）
f:id:nogiro_iota:20171210004613p:plain

それで、最終出力は行ではなく単語なので、tr ' ' '\n'で空白を改行コードに先に置き換えておいてやると、求めている結果になります。
まー結局ウムラウト書いてるのと変わらないのでこの解答ではダメでしょう。

解答2

cat umlaut.txt | grep -o . | sed 's#.#echo & | xxd -ps#' | sh | awk 'length==6' | xxd -r -p | grep -f - <(tr ' ' '\n' < umlaut.txt)

解説

ウムラウトを扱うコマンド系のことは何もわからないので、とりあえず汎用的なフォーマットであるバイナリから攻めて行くしか私には方法がありません。（ググれと言ってはいけない）

ウムラウトのバイナリ値と、入力ファイルのバイナリ値を見ていきます。
（長いのでたたんでいます。はてなブログでソースコードを折りたたむ方法 - おもちゃラボ）

▶ウムラウト

$ echo '¨ÄËÏÖÜäëïöüÿ' | grep -o . | sed 's#.#echo -n & | xxd -ps#' | sh | sort
c2a8
c384
c38b
c38f
c396
c39c
c3a4
c3ab
c3af
c3b6
c3bc
c3bf

▶元ファイル

$ cat umlaut.txt | grep -o . | sed 's#.#echo -n & | xxd -ps#' | sh | sort | uniq
53
61
62
63
64
65
67
68
69
6b
6c
6e
6f
72
73
74
75
77
78
79
7a
c384
c396
c39c
c3a4
c3b6
e382a2
e382a4
e382a6
e382a8
e382aa
e4b88a
e5b1b1
e794b0
efbdb6
efbdb7
efbdb8
efbdb9
efbdba

上記2つの結果を眺めると、ウムラウトは2バイト文字で、さらに元ファイルに含まれる2バイト文字はすべてウムラウトであることがわかります。

そのため、元ファイル中に含まれる2バイト文字でgrepすると答えが得られます。