電柱日報

日々の由無し事

データの統一性

現在職場では認証機構の統一を目指し、常勤/非常勤の職員を初めとした利用者の情報を、LDAP上に再構築しています。
ところが、職場内の各部署から送られてくる個人データがもうボロボロ。
氏名については漢字表記と半角カナによるフリガナの項目しか存在せず、UNIXなどに登録する英名はフリガナをローマ字変換するしかありません。
日本人であれば、そのままローマ字にしてもさほど問題はありませんが、外人さんすら同じデータをよこしてきますので、ロバートさんは「Robato」、スミスさんは「Sumisu」といった具合。
また、古い汎用機時代の名残か拗音などが小文字の「ャュョ」ではなく通常の「ヤユヨ」表記になって居たりしますので、ジョーンズさんは「Jiyonzu」になったりします。それも全部が全部そうなっているわけではなく、データをよこす部署によってはちゃんと小文字になっていたりして、全然データの入力ルールが統一されていません。
他にも、長音記号「ー」の代わりにハイフン「−」が入っていたり、外人さんのミドルネームとの区切りに中黒「・」を入れている部署があったり、はたまた中国系や東南アジア系の名前を性と名に分けずに1括りでフリガナを振っていたりともう散々……。
逆によくこんな状況でシステムが動いていたなぁと変な関心をしてしまうほどです。
上のほうでは、4月から施行される個人情報保護法に絡んで、取り扱っている個人情報の洗い出しと整理をすると(今頃)言っていますが、こんな状況で4月までに間に合うんですかネェ。