Egy új kutatás szerint egy hamis hírlevelekben szereplő figyelmeztető jelzések nyelvi útmutatásait azonosító algoritmusalapú rendszer új fegyvert biztosíthat a hírösszegész és a közösségi média oldalaihoz, például a Google Hírekhez a dezinformáció elleni küzdelemben.
A rendszert kifejlesztett kutatók bebizonyították, hogy összehasonlítható az emberekkel, és néha jobb is az, ha a hamis híreket helyesen azonosítja.
Egy nemrégiben elvégzett tanulmányban a rendszer sikeresen hamisítványokat talált az idő 76 százalékáig, szemben az 70 százalékos emberi sikerességi rátával. Ezenkívül nyelvi elemzési megközelítésük felhasználható azon hamis hírcikkek azonosítására, amelyek túlságosan újak ahhoz, hogy a tényeket más történetekkel való kereszthivatkozás útján felbukkanhassák.
Rada Mihalcea, a Michigan-i Egyetem számítástechnikai és mérnöki professzora, aki a projekt mögött áll, azt állítja, hogy az automatizált megoldás fontos eszköz lehet azoknak a webhelyeknek, amelyek küzdenek a hamis hírlevelek támadásával szemben, amelyeket az emberek gyakran kattintások létrehozására hoznak létre. vagy manipulálni a közvéleményt.
Nehéz lehet a hamis történetek begyűjtése, még mielőtt azok valódi következményekkel járnának, mivel az aggregáló és a közösségi média oldalai nagymértékben támaszkodnak az emberi szerkesztőkre, akik gyakran nem tudnak lépést tartani a hírek beáramlásával. Ezenkívül a jelenlegi debunking technikák gyakran függnek a tények külső ellenőrzésétől, ami a legújabb történetekkel nehéz lehet. Gyakran, amikor egy történet hamisnak bizonyul, a károkat már megtették.
A nyelvi elemzés más megközelítést alkalmaz, olyan mennyiségileg meghatározható tulajdonságok elemzésével, mint a nyelvtani szerkezet, a szóválasztás, az írásjelek és az összetettség. Gyorsabban működik, mint az emberek, és különféle különféle típusú hírekkel használható.
„Tetszőleges számú alkalmazást elképzelhet egy hír- vagy közösségi médiaoldal elején vagy hátulján” - mondja Mihalcea. „Ez lehetővé tenné a felhasználók számára az egyes történetek vagy egy teljes híroldal hitelességének becslését. Vagy lehet egy első védelmi vonal a híroldal hátsó részén, gyanús történeteket jelölve további áttekintés céljából. Az 76 százalékos sikerességi arány meglehetősen nagy hibahatárral jár, de mégis értékes betekintést nyújthat, ha emberekkel együtt alkalmazzák. ”
Az írt beszédet elemző nyelvi algoritmusok manapság meglehetősen általánosak - mondja Mihalcea. A hamis hírdetektor kiépítésének kihívása nem magának az algoritmusnak a felépítésében rejlik, hanem abban, hogy megtaláljuk a megfelelő adatokat, amelyekkel az algoritmus kiképezhető.
Hamis hírek jelennek meg és gyorsan eltűnnek, ami megnehezíti a gyűjtést. Sok műfajban is előfordul, tovább bonyolítva a gyűjtési folyamatot. Például a szatirikus híreket könnyű összegyűjteni, de az irónia és az abszurditás használata kevésbé hasznos egy olyan algoritmus képzésében, amely megtévesztő hamis híreket észlel.
Végül a Mihalcea csapata elkészítette a saját adatait, és egy online csapatot gyűjtött össze, amely visszafordított alapon hamisított hiteles történeteket hamisított. Így készülnek a legtöbb hamis hírek olyan egyének által, akik pénzbeli jutalom ellenére gyorsan megírják azokat - mondja Mihalcea.
A kutatók az Amazon Mechanical Turk segítségével toborozták a résztvevőket, és fizettek nekik, hogy a rövid, aktuális híreket hasonló, de hamis hírekké alakítsák át, utánozva a cikkek újságírói stílusát. A folyamat végén a kutatócsoportnak volt adatállománya az 500 valós és hamis hírekről.
Ezután ezeket a címkézett történeti párokat egy algoritmusba táplálták, amely elvégezte a nyelvi elemzést, megtanítva különbséget tenni a valódi és a hamis hírek között. Végül a csapat az algoritmusokat a közvetlenül az internetről lehívott valódi és hamis hírek adatkészletévé változtatta, és így megszámolta az 76 százalékos sikerességi arányát.
Az új rendszer és az adatkészlet részletei, amelyekkel a csapat felépítette, szabadon elérhetőek, és Mihalcea szerint a híroldalak vagy más szervezetek felhasználhatják ezeket saját hamis hírek észlelési rendszerének felépítésére. Azt mondja, hogy a metaadatok, például az adott online hírhez kapcsolódó linkek és megjegyzések beépítése tovább javíthatja a jövőbeli rendszereket.
A kutatók egy olyan cikkben fogják részletezni a rendszert, amelyet a New Mexico megyében, Santa Fe-ben, a 27th International Computational Linguistics konferencián mutatnak be.