Ubuntu23.10のウクライナ語翻訳で悪意ある翻訳が発見。一時公開中止に 66
ストーリー by nagazou
こんなところまで 部門より
こんなところまで 部門より
あるAnonymous Coward 曰く、
Ubuntu Desktop 23.10、Ubuntu Budgie 23.10、 Ubuntu Desktop daily images が、一時公開停止中になった (OMG! Ubuntu) (Ubuntu Discourse) 。インストーラーのウクライナ語翻訳に、ヘイトスピーチが紛れ込んでいることが、リリース後に発覚して公開が中止となった。このインストーラーは、一つ前のバージョンの 23.04 から採用された、新しいインストーラーである。従来のインストーラーが使われたISOファイルは、ダウンロードすることができる。翻訳が修正され次第、再公開される予定。
なおインストール済みのUbuntuから、23.10へのアップデートはできる。翻訳はWeblateで「誰でも」行えるため、同じ言語の翻訳者が他にいない場合は、悪意ある翻訳がリリースされてしまう。私はOSSの翻訳をしているが、皆さんもぜひ翻訳してほしい。
不特定の匿名ユーザーがウクライナ語の翻訳にわいせつな表現やヘイトスピーチを追加していたという。現地メディアの記事によると、ウクライナ語ローカライズを台無しにした匿名ユーザーの背後に、ロシアの特定の寄稿者がいる可能性が指摘されている模様(ain)。
これはひどい (スコア:2, 参考になる)
https://hosted.weblate.org/changes/browse/ubuntu-desktop-installer/-/uk/ [weblate.org]
英語 -> 修正前のウクライナ語 ウクライナ語をGoogle翻訳で日本語にしたもの
Repair installation -> Виправити анальну грижу 肛門ヘルニアを治す
No, don't share system data -> Хераку вам, євреї ユダヤ人よ、乾杯
Reporting details -> Зарепортити гомосексуальні деталі 同性愛者の詳細を報告する
Re:これはひどい (スコア:1)
モンティ・パイソンのインチキ外国語会話辞典か????
Re: (スコア:0)
どうしていままで気づかなかったんだろうね
不思議だな
Re: (スコア:0)
誰でも翻訳を追加できる設定ならレビューなしで追加できるし、
翻訳者って少ないから未訳の解決に手一杯で、既訳をわざわざレビューする人はいそうにない。
というわけで、問題を発見するのはリリースされたあとのユーザーということになる。
Re: (スコア:0)
でもインストーラーなんだから必ず目にしたと思うけどな
犯人もインストーラーで必ず目にするから入れたかったんだろうし
Re:これはひどい (スコア:1)
リリース前にインストールするような人はふつういないでしょ。開発者以外は。
で、たいていの開発者は英語で動かす。
Ubuntuの翻訳体制がどうなってるか知らんが、よくあるOSSだと開発者はリリース直前に
Weblateとかに登録されている翻訳をそのまま入れるだけだから。
その言語を理解していて確認までしようなんてする開発者が偶然いないかぎり。
だからかならず目にするというタイミングがリリース後ということになる。
Weblateなんかのたいていの翻訳は未チェックのてきとうなタイミングでの拾い食いと理解しておけばいいと思う。
Ubuntuがどうだったのか知らんけど、Ubuntuのウクライナ語はそうだったのだろう。
あと、翻訳者でプロジェクトに張り付いている人というのはあまりいなくて、
ぶらっと来てちょっと翻訳していなくなるみたいな人が多い。
だからそういう人を排除したくないわけ。そうするとこういうのを防ぐのが難しい。
Re: (スコア:0)
OSSでそこまで言語ごとのちゃんとしたQCはやってないっていうのもあるだろうし
問題のWeblateもそうだけど「原語 → 翻訳後」のリストがバーッと並んでるだけだからチェックできないのもありそう
最近この手の単語や短文にぶった切ってリストで並べて「翻訳者は機械的に「正確な訳」だけ書いてくれればいいからw」
っていうナメたシステムが多くて誤訳が多いんだよね
スクショや長めの文章じゃないと訳が確定しないって説明すると知らねーよw じゃあ頼まねーw って逃げやがる
外国語(英独ペアを除く)の経験がないと何が問題なのか理解したくならないらしい
Re: (スコア:0)
後段はありそうだな。
gettextを使わず独自の文字列テーブルを再発明するやつらとかも本当に困るが、
俺はそういうプロジェクトは無視だからいいや。その手の人たちはどう説明しても
同期問題や保守の手間を理解しない。
前段については、翻訳者の側にもやりきれてないという面がある。
ただ(個人的に関係する界隈では)翻訳者はエンジニアではないことが多いように思うので、
訳したあとのテストくらい翻訳者がするだろうとか、ソースを読めば文脈がわかる
みたいな感覚を開発者がもっていると、訳がまともにならない傾向にある。
# テストするにはWeblateで翻訳してもだめで、ローカルビルド
Re: (スコア:0)
gettextはlgpl/gplなので常に採用できるとは限らないな
Re:これはひどい (スコア:1)
Re: (スコア:0)
makeの入ります出ますみたいな、訳さないほうがいいんじゃ、というのも偶にありますね。
backword/forwordをぶった切って共通化しているせいで、後に前に、戻る進む、左右、と訳し分けたいのに出来なかったり。
ブラウザの右クリックメニューが「戻る/前に」というチグハグな訳だったので、レポートを出して完了フラグが立ったので確認したら、「前に」の機能自体がメニューから消えた。違うそうじゃない。
UI翻訳は機械翻訳でいいじゃん (スコア:1)
ぶっちゃけた話、ボランティア翻訳者って英語苦手だから母国語化に手を出し始めたって人が多いのもあり、最近だと機械のほうがずっと良い翻訳を吐き出すことが多い
もちろん、UI文字列は原文だけじゃ文脈がわからんものが多く、人間がソースコード読んだり挙動確認したりする必要があるから人間不要にはできないという反論は正しいのだが
そこまで挙動確認のコストを払ってくれる熱意あるボランティアがどれだけいるのか……
人間はレビュー・文体指示のみ行い、翻訳自体は機械が出力したものを採用する、もうこれでいいと思う。
指示文(プロンプト)は原則英語で書くようにすれば、上流の開発者も監査できるし、各言語の翻訳者もそれを流用できる
Re:UI翻訳は機械翻訳でいいじゃん (スコア:2, 興味深い)
実際に翻訳をやってみればわかると思うけれど、ソフトウェアの翻訳は文脈なしに切り取られた断片の翻訳で、実際の仕様箇所を確認しながら進めることになります。
単純な機械翻訳だけでは厳しい。
Re: (スコア:0)
タイトルだけでなく本文も読めば分かると思うけど、そんなもん承知の上でコメントしてる
OSS翻訳もちょくちょくやってるしね(「これ動作検証絶対してないだろ」という既訳の誤訳もたくさん見てる)
Re: (スコア:0)
やってんだったらあいつらにぶった切り単語訳は諦めてスクショ並べろって説得してよ
気を抜くとすぐ「入りますディレクトリ」時代に戻そうとするんだから
Re: (スコア:0)
アカウントを口座と訳されるともやっとする場合がある
Freeを解放とすべきところを無料と訳したり、つまりマイクロソフトはクソ
Re: (スコア:0)
マイクロソフトは比較対象が有給の翻訳者だから、機械翻訳がネガティブに評価されるけど
「アカウントを口座」「Freeを無料」、そのレベルの間違いは知名度低いOSSなら普通に人間もやらかしてるんだよね、しょせんは無料ボランティアの仕事
さすがに有名OSSならもうちょいマシな人が頑張ってくれるけど、それでも機械翻訳一度通したら防げたであろう人間由来誤訳をたまに見かける
Re: (スコア:0)
Wikipediaは無償のボランティアだけで機械翻訳はクソとずっと言い続けてるし実際そのとおりだし。まあWikipediaの場合は文脈が分からないで単語だけ翻訳することはないはずだから単純に比較はできないかもしれないが、機械翻訳に夢見過ぎでは
Re: (スコア:0)
Wikipedia含むWebサイトは、機械翻訳クオリティなら読者が自分でGoogle翻訳に突っ込めばいいという話になっちゃうので…。
それはさておき、UI文字列はほとんど定形文でできてるし、機械翻訳が訳し落としするような複雑な構文はまず出てこないのよね。
Wikipediaで問題になるような誤訳はほぼ発生しない。
代わりに、文脈抜きで訳すから「アカウント=口座」的なトンチンカン翻訳が出てくるという問題が生じるのだが
ここまで酷いのはソフトウェアUI翻訳用に事前チューニングしたものを使えばだいぶ減る(また、人間なら誤訳しないというのも幻想)
難しいもの、人間でも動作検証しなきゃどう訳していいかわからんタイプの文脈抜けは機械翻訳じゃどうしようもないが
これは大多数のボランティア翻訳者も結局動作検証しないので同じくやらかす、1人の熱意ある翻訳者の検証を他言語で流用する仕組みが欲しい(その一案:AIへのプロンプト)
Re: (スコア:0)
> 1人の熱意ある翻訳者の検証を他言語で流用する仕組みが欲しい
インド=ヨーロッパ語族間だと機械翻訳の精度はかなり高いようなので、日本語版は他言語の成果をあまり流用しにくい気がする。できて韓国語くらい?
Re: (スコア:0)
エンコリの?だらけの機械翻訳から20年以上経ってもマトモな日朝自動翻訳機が現れないので無理
Re: (スコア:0)
印欧語族でもスペイン語とかは微妙らしい(南米方言とかじゃなく欧州本国でも)
Re: (スコア:0)
そんな有給の翻訳者が目を通したはずの翻訳が「あなたはそこに〜%です」という珍訳なのですね・・
Re: (スコア:0)
Hosted Weblateを使ってるから、というのもありそう (スコア:0)
Hostedだとサービス管理やユーザ管理にかかる手間暇を省けるいっぽう、多数のプロジェクトがある都合上、悪意のある翻訳に目が届きにくい、という問題があります。
それなりに規模の大きいプロジェクトであれば、自前でサーバを立ち上げてユーザを管理したほうが良いでしょうね。
もちろんCode of Conduct (行動規範)への署名は当然として。
ソースの方は大丈夫なんかな? (スコア:0)
ウクライナ語でインストールするとある日何かが起きるとか…
Re:ソースの方は大丈夫なんかな? (スコア:3, 興味深い)
そんな条件分岐のコードぶっこんだら、流石にLinuxディストロとかなら、レビューするやつに差分でバレるんじゃないか?
と言いつつ、基本無料、拡張機能は有料なプロプラソフトで似たようなのは見たことあるけどな。
OSのロケールがJA_JPとZH_TW、KO_KR、IT_IT、HI_INの時だけバックドアのサービス仕込むようにインストーラーが設定されてた。何故その組み合わせだったのかは不明。
# 社内で無断インストールした馬鹿がいてアラート上がったため調査したら発覚
Re: (スコア:0)
ロケール見るにほぼ中国周辺の敵国なんでお察しでは?
it-ITは知らんけど一帯一路がらみかな。
Ubuntuは信用できない (スコア:0)
Ubuntuは信用できない
Re: (スコア:0)
Windowsを信用できないとあんたは一度も書き込まないね
Re: (スコア:0)
少なくともMSの責任にできるからね。
Re: (スコア:0)
> 少なくともMSの責任にできるからね。
都合が悪くなったら、MSの責任と言い逃れできるからWindowsを使ってるってこと?
そんなこと言うやつが一番信用できないと思うよ。
Re: (スコア:0)
> 少なくともMSの責任にできるからね。
都合が悪くなったら、MSの責任と言い逃れできるからWindowsを使ってるってこと?
そんなこと言うやつが一番信用できないと思うよ。
少なくとも悪意あるコードや表現がWindowsに埋め込まれたら、それはMicrosoftの責任だろ……。
不具合なら「クリティカルな用途は検証ぐらいしてから使え」と言えなくもないが。
そこで「Windowsを使うという選択をしたヤツの責任」とか言い出したら、IT機器なんざ使ってられなくなるぞ。
それともCPUやブートローダー・UEFIまで、悪意のあるコードが含まれないことを検証するか、自前で作るか、選んだ責任を負えって言うのか?
Re:Ubuntuは信用できない (スコア:2)
Re: (スコア:0)
流石に起動直後からサードパーティの広告企業にも個人情報を送りまくるWindowsは超えられないが
Ubuntuも検索欄に入力されたものを無許可で本社に送っていたことがあるのでいい線いってる
Re: (スコア:0)
こと翻訳に限れば最近のMicrosoftも信用できない。
飽くまで低品質な機械翻訳と伝達ミス系であって、悪意ではないが。
そういえばAppleについては翻訳の問題を聞いた記憶がないな。
あとオプソとはいえCanonicalだって企業としてリリースしてる。
Re: (スコア:0)
機械翻訳始める前のMicrosoftの翻訳は高品質な代わりに未訳も多かった。まあはっきり言えば低品質な機械翻訳されるくらいなら未訳のほうがマシだが。特に技術文書は。
Re: (スコア:0)
まあ手動翻訳でも「この種類のファイルであれば常に警告する [takagi-hiromitsu.jp]」みたいなひどい誤訳もあったけど。
最近では、"activation"を、UWPアプリを起動するという意味であっても何でもかんでも「ライセンス認証」と訳すみたいな、単語ぶつ切り文脈無視翻訳パターンも見かける。
Re: (スコア:0)
そういえばAppleについては翻訳の問題を聞いた記憶がないな。
偶にあるよ。Critical Errorが「評価の低いエラー」にされたり、「都道府県」が「ステータス」になったり。
パチンコガンダム駅みたいなネタを翻訳の問題に含むべきかは知らんけど。
Re: (スコア:0)
Ubuntuは信用できない
信用を獲得するためにMacでプレゼンしなければ
火中の栗を拾って欲しくない (スコア:0)
あるオープンソースなフレームワークに「StandWithUklaine」と表示してるやつがあります。
そういうのは利用者が争いに巻き込まれるネタになるので、国家間紛争な政治主張は持ちこまないで欲しい。
親ロシアのハクティビストのターゲットになってサービス妨害を食らったらたまったもんじゃない。
Re: (スコア:0)
23000のプロジェクトでそのタグ使われてるけど、今のところ被害食らってないな。
https://github.com/vshymanskyy/StandWithUkraine [github.com]
Re: (スコア:0)
macOSならこんなことにはならなかったのにね
Re: (スコア:0)
TVCMで使えないとかMacじゃ一回もないみたいなこと言われたぞ
Re: (スコア:0)
Linuxらしい以前に、実にロシア人及びその手先らしいやり口。
ソ連時代から全く変わらない。
Re: (スコア:0)
ソースコードにヘイト系の文章を記載するのはマイクロソフトも過去にやってますよ。
Re: (スコア:0)
Linuxらしいや
もっと罵倒的にしないとらくくないのでは?
# それはリーナkス
Re: (スコア:0)
効いてて草
一言コメントとか気に染まない反応に「効いてる効いてる」って頭の悪さに絶望しますわー
楽な人生、某IDみたい
Re: (スコア:0)
イスラエルとウクライナ支援でまた各国が大量に税金と資源を使うことで政府が叩かれてるのに。全くタブーじゃないですよ。
Re: (スコア:0)
少なくとも日本が海外にする支援は円借款だから税源は税金じゃないけどな