Araştırmacılar, bilimkurgu dizisi Fringe’den esinlenerek hareketsiz manzaralardan ve sessiz görüntülerden ses çıkarmanın bir yolunu buldular.
Dizide FBI erimiş bir cam bölmeden kaydedilmiş sesleri çıkarabiliyordu. Den of Geek bu fikri “gülünç bir kelamda bilim tekniği” olarak nitelendirdi ki bu gereğince adil görünüyor. Fakat Northeastern Üniversitesi’nde elektrik ve bilgisayar mühendisliği ve bilgisayar bilimleri profesörü olan Kevin Fu bu incelemeyi gördü ve en azından manzaralardan ve sessiz görüntülerden ses çıkarmanın mümkün olduğunu kanıtlamaya koyuldu.
Fu, basın açıklamasında, “Birinin bir TikTok görüntüsü hazırladığını ve görüntüyü sessize alıp müzik eklediğini düşünün” dedi ve devam etti: “Gerçekte ne söylediklerini hiç merak ettiniz mi? Artlarında biri konuşuyor muydu? Aslında bunları anlayabilirsiniz.“
Peki, bu nasıl olabilir?
Kameralar, görsel bilgileri yakalamayı amaçlarken, istemeden de olsa ses bilgilerini de topluyor. Neredeyse tüm kameralı telefonlarda yerleşik manzara sabitleme teknolojisi var. Yaylar kamera lensini sıvı içinde asılı tutarken, bir elektromıknatıs kamera sarsıntısını azaltmak için kamera lensini itiyor.
Ses yakalamayı sağlayan da tam olarak bu. Kamera lensinin yakınında biri ya da bir şey ses çıkardığında, yaylar yavaşça titriyor ve ışığı çok az büküyor. Fu’ya nazaran “siz bakmadığınız sürece” fark edilmiyor. Bu, tek başına size faydalı bir ses sağlamıyor. Lakin çağdaş telefon kameralarının bir öteki özelliği bu sesi dinlemeye paha bir şeye dönüştürmeye yardımcı oluyor.
Fu, “Maliyeti düşürmek için günümüzde kameraların çalışma hali temelde bir imgenin tüm piksellerini tıpkı anda taramamaktır – bunu her seferinde bir satır yaparlar” diye açıklıyor ve ekliyor: “Bu, tek bir fotoğrafta yüz binlerce kere gerçekleşiyor. Bunun temel manası, elde edebileceğiniz frekans bilgisini, yani temelde sesin granülerliğini bin kattan fazla artırabilmenizdir.“
Fotoğrafların nasıl çekildiğinin bir yan eseri olarak yakalanan bu bilgiyi kullanarak, ışık içeren çabucak hemen her fotoğraftan epeyce boğuk bir ses çıkarmak mümkün. Ekip, Side Eye ismini verdikleri bir makine tahsili algoritması uygulayarak yararlı sesler elde edebiliyor.
Side Eye’ı eğitin ve sesleri duymasını sağlayın
Fu şöyle diyor: “Evet mi yoksa hayır mı dediğimi bilmek istiyorsanız, Side Eye’ı evet ve hayır diyen beşerler üzerinde eğitebilir ve akabinde kalıplara bakabilir ve daha sonra bir imaj aldığımda birinin evet mi yoksa hayır mı dediğini yüksek bir itimatla anlayabilirsiniz.“
Sistemlerini 10 farklı akıllı telefon üzerinde test eden Fu’nun grubu, sistemin konuşulan sayıları yüzde 80,66 doğrulukla tanıyabildiğini, kelimeleri 20 konuşmacıdan hangisinin söylediğini yüzde 91,28 doğrulukla tespit edebildiğini ve konuşmacıların cinsiyetini yüzde 99,67 doğrulukla iddia edebildiğini görmüş.
Elbette bu durum, makûs niyetli bireylerin sesin (kasıtlı olarak) yakalanmadığı hareketsiz imaj ve görüntülerden söylenenleri duyabilmesi halinde bir siber güvenlik kabusu da olabilir. Nihayetinde takım, çıkarılan sesin yasal davalarda nasıl kullanılabileceğiyle daha çok ilgileniyor.
Fu, “Belki bir mazeret vardır ve mahkemede kabul ediliyordur. Birisi orada olduğunu ya da olmadığını kanıtlamak istiyordur,” diyor ve ekliyor: “Elinizde vakit damgası bilinen doğrulanmış bir görüntü varsa bu tekniği kullanabilirsiniz. Şayet kişinin sesini duyuyorsanız, büyük olasılıkla oradadır.“
Çalışma ön baskı sunucusu arXiv’de yayınlandı ve 2023 IEEE Güvenlik ve Saklılık Sempozyumu’nda sunuldu.