Search

全てのブログ記事一覧

TOPページへ


Creative Commons License
このウェブログのライセンス: Creative Commons License.

日本の住所のヤバさ・住所の正規化は如何にすべきか

マイナンバーカードを巡る河野デジタル大臣の発言をきっかけに、TwitterなどSNS上で「日本の住所がヤバい」という話題がトレンド入りしました。
日本の複雑かつ不規則な住所表記をどのように正規化するかという問題です。
これをマイナンバーカードにどのように紐づけるか・・・・
まずは、これに関する報道をご紹介し、そのあとで正規化に関するkameno案を提示します。


日本の住所が"ヤバい"!?"河野大臣発言"で注目、難しすぎる AIも把握困難?


マイナンバーカードを巡る、河野デジタル大臣の発言をきっかけに、SNSで「日本の住所がヤバい」という話題がトレンド入りしました。「日本の住所がヤバい」とは一体どういうことなのでしょうか?

■"河野大臣発言"で注目 日本の住所が"ヤバい"?

熊崎風斗キャスター:
マイナンバーカードを巡る河野デジタル大臣の発言をきっかけに、SNS上で「日本の住所がヤバい」という話題がトレンド入りしています。どういうことなのでしょうか?

マイナンバーの"誤登録"について河野デジタル大臣の発言
「問題は住所を『港区赤坂一丁目2の3』と書く人もいれば、『港区赤坂1-2-3』と書く人もいる。表記ゆれの判断をするみたいなことが、将来的にはAIの技術を使ったらあり得るかも」

この発言に対してトレンド入りしたワードが、コンテンツ投稿サイトに「とにかく日本の住所のヤバさをもっと知るべきだと思います」と挙げられました。「日本の住所のヤバさ」「住所の正規化」こういった言葉がSNSでトレンド入りをしている。一体どのようにヤバいのでしょうか。

■春日部市の「八丁目」?

まずは住所の基本形を「TBS」を例に見ていきます。「東京都港区赤坂5丁目3-6」と聞き馴染みのあるパターンの住所の並びです。

埼玉県春日部市立幸松小学校の住所です。「春日部市八丁目353-1」です。「八丁目」は字名ということで、TBSでの「赤坂」の部分が「八丁目」になっています。だから「8-353-1」ではないのです。

ホラン千秋キャスター:
『ハチ』を漢数字じゃなくて、数字で「8丁目」と書きそうですよね。

熊崎キャスター:
調べていくと岩手県花巻市にもありました。「十二丁目」と「東十二丁目」という場所があります。例えば「東十二丁目1の◯◯」のような住所になっています。「赤坂」と同じということです。

田中ウルヴェ京 スポーツ心理学者(博士):
自動で「八丁目」を「8-◯」とかにされても困るということですよね。

井上貴博キャスター:
「8丁目の信号で待ち合わせ」と言ったら分かんなくなりますよね。「8丁目の交差点」に行くのか「八丁目」という場所に行くのか。

■同じ市内に2つの"東栄町"

同じ住所表記なのに違う所があります。新潟県新潟市北区には「東栄町」と書いて「ひがしさかえまち」と読むところと「とうえいちょう」と読むところがあります。大体5キロぐらいの距離です。漢字3文字で書いたら、どっちか分からなくなるということです。

ホラン千秋キャスター:
ニュース原稿で書いてあったら、調べてもどっちも出てくるわけじゃないですか。だから「これは、こっちの読みなんだ」と思っても間違えてしまう可能性もありますね。

井上貴博キャスター:
「東栄町1-1」とふりがなが無かったら、どっちにもあるから郵便番号をマストで書かないとだめですよね。

熊崎キャスター:
地元の方は把握した上で、すぐこっちだ、こっちだと分かってらっしゃるということですよね。

次は兵庫県明石市です。これは隣接しています。「和坂」と書いて「かにがさか」と呼ぶ場所と「わさか」。

■難しすぎるカタカナ住所

熊崎キャスター:

次は、カタカナ書きに要注意です。千葉県に八街北中学校という学校があります。正式住所は「千葉県八街市八街は18-2」です。「は」の部分をカタカナにすると「八街市八街 ハ18-2」となります。さらに漢数字にすると「八街市八街 ハ十八-二」です。
さらに愛知県豊橋市神野新田町には「いのわり」で「イノ割」と「ヰノ割」と同じ読みで書き方が違う場所もあります。さらに「エノ割」と「ヱノ割」。「オノ割」と「ヲの割」。
複雑すぎてAIは大丈夫なのか。位置情報のベンチャー企業 株式会社「Geolonia」の宮内隆行社長は「住所・地名は、その土地の歴史に関わるもの。日常の言葉である住所表記を照合するのは、AIにとっては得意分野なはず」と話しています。

井上キャスター:
ややこしいですけど、ひらがながあってカタカナがあってローマ字があって古い仮名遣いがあって漢字があるという、世界にも稀な日本の良さな気もします。

(TBS NEWS DIG Powered by JNN 2023/06/12配信)




まず、思い浮かぶ手法は郵便番号7桁を利用する方法ですが、そもそも郵便番号は郵便物を配達するためにコード化したものであり、正規化にあたっては使い勝手が悪いと感じます。
そもそも、住居表示が実施されていない地域や、郵便番号の下4桁が0000となって、いわゆる「その他の地域」とされる地域が多く存在するからです。
そして、それぞれの郵便番号の表示する地域が明示できていないことが問題です。

そこで、提案したいのが Geoshapeリポジトリ - 地理形状データ共有サイト | ROIS-DS人文学オープンデータ共同利用センター (CODH)です。

20230612-01.jpg


これは「国勢調査町丁・字等別境界データ」を元にしており、5年に一度膨大な予算を使って行われる「国勢調査」にも関わるデータであり、日本全国が統一の基準に則って区切られています。

行政境界データセット ベクトルタイル地図 - 全国の市区町村から町丁・字までを連続的にズームイン/アウトできる地図

国勢調査町丁・字等別境界データセット 地名ビジュアル検索 | Geoshapeリポジトリ


例えば、貞昌院のある場所を、このコードを用いて示すと

[14111047005]
神奈川県横浜市港南区上永谷五丁目
20230612-04.jpg

上記コード以下を付加して
14111047005-1-3

となります。


地名情報を集約する地名情報処理システム
を用いて、地名を検索することもできます。

例えば、「八丁目」で検索すると、このように候補が表示され、話題になった埼玉県の「八丁目」地区も詳細を確認することができます。
20230612-02.jpg 20230612-03.jpg


また、かなり複雑な京都市街でも、このように、区分けされていますので、コード+コード以下の表記で簡略化できます。
20230612-05.jpg


つまり、一度、マイナンバー所持者の「住所」と「Geoshapeリポジトリのコード」とを紐づけてしまえば、あとは「Geoshapeリポジトリのコード」に対応する地名はシステムで持っていれば良いですし、「コード以降の番地」の正規化に関するルールを決めておけば、「Geoshapeリポジトリのコード」+「コード以降の番地」で日本全国統一した表記で特定できるはずです。

せっかく国の膨大な予算を投入してGeoshapeリポジトリの体系化が為されていますので、これを利用しないと勿体ないです。


投稿者: kameno 日時: 2023年6月13日 10:43

コメントを送る