住所のデータ加工の難しさについて

地図帳の深読み
今尾恵介
帝国書院
2020-06-15


ネット界隈でちょっと話題になっている話をちょっとだけ纏めました。

スタートは大臣の話。

河野大臣『問題は住所が「港区赤坂一丁目2の3」と書く人もいれば、「港区赤坂1-2-3」と書く人もいる…(中略)将来的にはAIの技術を使って表記揺れを判断することがあり得るかもしれない。』

はい、この表記揺れをAI使ってどうにかすることもあり得る、みたいな話ですが、
これに対し「AI使う必要ないじゃん」勢力がやってきて、excel使えば簡単、みたいな話をした人が現れたあたりから話題が大きくなってきました。

まあ、この「表記揺れ」というのはシステムエンジニアしていれば物凄い大変ということはわかるし、そうじゃないと宅配業者とか郵便局員くらいしか気にしないと思います。理由は「書く側」だから。要するに「凄い適当に書かれたものをどうにか使わないといけない側」じゃないと苦労があんまり分からない。

殆どの世界、業界で同じでしょうが、ちょっと知ると「簡単でしょ」みたいな人は居ますが、マック原価問題のようなものだと思ってください。

・マック原価問題
マックは原価数円のドリンクを売ってる
→ドリンクの液体の原価しかみてない。実際は裏に人件費など様々な要素があるが、液体だけでみたら確かにそうだ。

・似た事象1
アマゾンがやってるような販売サイト、もう存在するからエンジニアなら簡単に作れるでしょ?
→アマゾンがどれほど膨大な開発を行ってるかを無視してる

・似た事象2
簡単な修理で部品数百円なのに数千円取られた
→人件費が(略)、あと本当に簡単かどうかは場合による。これ言い出す人は自己責任で数百円で直せば良いのでは。


とまあ、炎上したのはあくまで「物凄い難しいことを、簡単だ」と言ったことが発端。
面白いのは、恐らく半分くらいはEXCELの加工で対応可能っていうのは嘘じゃない、っていう点。

まあそこまでにはいくつかの障壁があるけど。

・データ量的にEXCELでは多分無理(100万行までだから)。
マクロ組んで複数ファイルを〜ってやったりすれば一応可能。

・打率5割だったら多分可能。但しデータが破壊された部分を検知する方法も一緒に考える必要がある
住所情報なので全情報を持っている教科書データがあれば、編集距離など簡単な方法で打率8割いける気がする(無検証)

・そしてダメだったデータは合わないとして破棄する
ここが最も重要で、日本の行政の元設計は「出来るだけ寛容に」と設計されているけど、入力ミスしたらそっちが悪い、全く受け付けないぞ、っていう仕組みにしたら、まあ可能。

要するに「表記揺れをする入力者を許さない」ってすれば、提言通りのことはある程度可能(100%にはいかないでしょうが)それでもEXCELでやるのはかなり大変だとは思います。データ量が数万件ならいけるけど。


ちなみに本題の表記揺れについては、それはそれで面白い話がいっぱいあるので、こちらのサイトをご参照ください。

日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。