W okresie pandemii wielu ludzi na całym świecie korzystało z rozmaitych narzędzi do wideorozmów i pracy zdalnej – niezależnie od branży czy specjalizacji. Wcześniej nikt specjalnie nie przyglądał się bezpieczeństwu tego rodzaju narzędzi, jednak gdy zaczęły być wykorzystywane na skalę masową, musiało się to zmienić. Sprawie postanowili się przyjrzeć badacze z trzech amerykańskich uniwersytetów – przeprowadzili oni badanie sprawdzające, czy przycisk wyciszania mikrofonu w popularnych narzędziach rzeczywiście robi to, co robić powinien. Wyniki jednoznacznie sugerują, że już najwyższy czas, by zmienić podejście do prywatności podczas rozmów zdalnych związanych z pracą.
Skąd wziął się pomysł na badanie?
Jeżeli kiedykolwiek korzystałeś z aplikacji Microsoft Teams, najprawdopodobniej znalazłeś się w sytuacji, w której podłączyłeś się do spotkania z wyciszonym mikrofonem, zapomniałeś wyłączyć tę funkcję i zacząłeś mówić, a program powiadomił cię, że twój mikrofon jest wyciszony. Cóż, jest dość oczywiste, że jeśli mikrofon rzeczywiście byłby całkowicie wyciszony, program nie mógłby wiedzieć, że zacząłeś mówić. Jak zatem faktycznie działa ta funkcja? Czy dźwięk z mikrofonu jest wysyłany na serwery dostawcy usługi nawet, gdy użyjesz funkcji wyciszenia? Między innymi takie pytania zadali sobie autorzy badania i aby na nie odpowiedzieć, przeanalizowali szczegóły związane z obsługą mikrofonu w dziesięciu usługach do komunikacji online. We wszystkich przypadkach wykorzystano wersje przeglądarkowe tych narzędzi.
Wyniki badania
Biorąc pod uwagę prywatność, rozwiązanie przeglądarkowe wydaje się być najlepszym rozwiązaniem do rozmów konferencyjnych online. Wszystkie webowe usługi konferencyjne zostały przetestowane w przeglądarce działającej w oparciu o silnik Chromium (jest to baza wielu przeglądarek, w tym Google Chrome oraz Microsoft Edge). Działając w takim trybie, wszystkie usługi konferencyjne muszą zachowywać zgodność z zasadami interakcji z mikrofonem skonfigurowanymi przez twórców silnika przeglądarki. To oznacza, że gdy w interfejsie webowym wciskany jest przycisk wyciszenia mikrofonu, nie powinien on rejestrować żadnych dźwięków. Warto dodać, że aplikacje działające bezpośrednio w systemie operacyjnym mogą mieć większe uprawnienia.
Badacze przeanalizowali, w jaki sposób i kiedy aplikacje wchodzą w interakcję z mikrofonem. Porównano w tym celu dane dźwiękowe przechwycone bezpośrednio z mikrofonu ze strumieniem informacji przesyłanych do serwera. Odkryto, że zachowanie różni się w poszczególnych usługach.
Zoom
Webowy klient usługi Zoom jest przykładem „poprawnego” zachowania. W trybie wyciszenia nie przechwytuje strumienia audio. Innymi słowy, nie podsłuchuje otoczenia mikrofonu. Jednak, co jakiś czas usługa żąda informacji, które pozwalają jej określić poziom hałasu w pobliżu mikrofonu. Jak tylko zostanie wykryty koniec ciszy (zaczniesz mówić lub pojawią się inne dźwięki), aplikacja przypomni ci, byś wyłączył wyciszenie.
Microsoft Teams
W przypadku aplikacji od Microsoftu sytuacja jest nieco bardziej skomplikowana: nie używa ona do interakcji z mikrofonem standardowego interfejsu systemowego, a zamiast tego komunikuje się bezpośrednio z systemem Windows. Z tego powodu badacze nie byli w stanie szczegółowo przeanalizować, w jaki sposób usługa Teams obsługuje funkcję wyciszania.
Cisco Webex
Klient usługi Cisco Webex wykazał najbardziej nietypowe zachowanie. W przeciwieństwie do pozostałych testowanych rozwiązań, Webex nieustannie przetwarza dźwięk z mikrofonu – niezależnie od włączenia funkcji wyciszania. Jednak bardziej szczegółowa analiza wykazała, że aplikacja nie podsłuchuje użytkownika. W trybie wyciszenia dźwięk nie jest transmitowany do serwera. Wysyłane są metadane, a w szczególności poziom głośności.
Może się wydawać, że nie jest to problem. Jednak wyłącznie w oparciu o te metadane, bez dostępu do właściwego strumienia dźwiękowego, badacze byli w stanie określić szereg parametrów dotyczących tego, co działo się w pobliżu „wyciszonego” mikrofonu. Na przykład, możliwe było wskazanie z wysokim stopniem wiarygodności, że użytkownik wyłączył mikrofon oraz kamerę, po czym włączył odkurzacz lub rozpoczął gotowanie. Wykryto również szczekanie psa. Można było określić, czy w pomieszczeniu znajdowały się inne osoby (np. czy rozmowa była prowadzona w miejscu publicznym). Badacze użyli w tym celu algorytmu podobnego w pewnych aspektach do technologii wykorzystywanej w popularnej usłudze Shazam, która pozwala na zidentyfikowanie odtwarzanego utworu poprzez „posłuchanie” go przez chwilę. Dla każdej „próbki hałasu” przygotowano odpowiednie wzorce i porównano je z danymi przesyłanymi przez przeglądarkową wersję Webexa do serwera po wyciszeniu mikrofonu.
Poziomy prywatności
Badanie oferuje przydatne porady praktyczne i potwierdza jeden oczywisty fakt: nie masz pełnej kontroli nad tym, jakie dane dźwiękowe są przesyłane i jakie technologie są do tego wykorzystywane. Pozytywem wynikającym z badania jest to, że w działaniu popularnych narzędzi konferencyjnych nie wykryto rażących zaniedbań, a wiele z nich traktuje dane z mikrofonu z należytą ostrożnością.
Jeżeli zatem niepokoi cię to, że aplikacja do rozmów online robi z mikrofonem to, co chce, skorzystaj z jej wersji przeglądarkowej. Owszem, funkcjonalność będzie ograniczona, ale prywatność ulegnie poprawie.
Inną opcją może być skorzystanie z fizycznego przycisku wyciszania mikrofonu, jeżeli twój komputer jest w taki wyposażony. Możesz także użyć zewnętrznego mikrofonu lub zestawu słuchawkowego – w tym przypadku przycisk wyciszania zwykle odłącza mikrofon sprzętowo, a nie programowo.
Ostatecznie, najlepiej co do zasady nie traktuj funkcji wyciszania w narzędziach do rozmów online jako całkowitego odcięcia dźwięku.