Képzési AI: A hamis adatok olcsóbbak, mint a valódi adatok

A repüléstudomány falfestménye, a Sky Harbor repülőtér
Kérjük, ossza meg ezt a történetet!
A technokraták mindig is az adatok rabjai voltak, de ma már nincs elég valós adat ahhoz, hogy kielégítse a vágyat. A válasz? Hamis adatokat hozzon létre, amelyeket más AI-programok „szintetizálnak”, és más elsődleges AI-algoritmusokba táplálják be, amelyeket bizonyos eredményekre „tanítanak”. Tehát valóban jobbak a hamis adatok, mint a valódi adatok? Te döntesz. ⁃ TN szerkesztő

A csecsemők abból tanulnak meg beszélni, hogy más embereket – többnyire szüleiket – ismételten hangokat adnak ki. Lassan, az ismétlés és a minták felfedezése révén a csecsemők elkezdik összekapcsolni ezeket a hangokat a jelentéssel. Sok gyakorlással végül sikerül hasonló hangokat produkálniuk, amelyeket a körülöttük élő emberek megértenek.

Gépi tanulás Az algoritmusok nagyjából ugyanúgy működnek, de ahelyett, hogy néhány szülőről másolnának, adatokat használnak, amelyeket emberek ezrei gondosan kategorizálnak, akiknek kézzel kell átnézniük a dátum és mondd el a gépnek, hogy ez mit jelent.

Ez a fárasztó és időigényes folyamat azonban nem az egyetlen probléma a gépi tanulási algoritmusok betanításához használt valós adatokkal.

A biztosítási kárigényeknél a csalás felderítése. Ahhoz, hogy egy algoritmus pontosan meg tudja különböztetni a csalás esetét a jogos követelésektől, mindkettőt látnia kell. Ezer meg ezer mindkettő. És mert AI A rendszereket gyakran harmadik felek biztosítják – tehát nem maga a biztosítótársaság üzemelteti –, ezeknek a harmadik feleknek hozzáférést kell biztosítani az összes érzékeny adathoz. Megérted, hogy hová megy ez, mert ugyanez vonatkozik az egészségügyi nyilvántartásokra és a pénzügyi adatokra is.

Ezoterikusabb, de ugyanolyan aggasztó az összes szövegre, képekre és videókra kiképzett algoritmus. Eltekintve szerzői jogi kérdések, sokan az alkotók nem értenek egyet munkájukkal egy adathalmazba szippantják a képzést egy gép, amely végül elvállalhatja (egy részét) a munkájuknak. És ez azt feltételezi, hogy alkotásaik nem rasszisztikusak vagy más szempontból problematikusak – ami viszont problémás kimenetekhez vezethet.

És mi van akkor, ha egyszerűen nem áll rendelkezésre elegendő adat ahhoz, hogy egy mesterséges intelligenciát minden eshetőségre kioktasson? Az a A RAND Corporation 2016-es jelentése, a szerzők kiszámolták, hogy „a nap 100 órájában, az év 24 napján, 365 mérföld/órás átlagsebességgel közlekedő 25 autonóm járműből álló flottának hány mérföldet kell megtennie ahhoz, hogy megmutassa, a meghibásodási arányuk (ami halálesetek vagy sérülések), megbízhatóan alacsonyabb volt, mint az embereké. A válaszuk? 500 év és 11 milliárd mérföld.

Nem kell szuperagyú zseninek lenni ahhoz, hogy rájöjjünk, a jelenlegi folyamat nem ideális. Szóval mit tehetünk? Hogyan tudunk elegendő, a magánéletet tiszteletben tartó, problémamentes, minden eshetőséget lefedő, pontosan felcímkézett adatot létrehozni? Kitaláltad: több mesterséges intelligencia.

A hamis adatok segíthetnek az MI-nek a valós adatok kezelésében

Már a RAND-jelentés előtt teljesen egyértelmű volt az autonóm vezetéssel foglalkozó vállalatok számára, hogy sajnálatos módon nem voltak felszerelve ahhoz, hogy elegendő adatot gyűjtsenek az algoritmusok megbízható betanításához, hogy bármilyen körülmények között és körülmények között biztonságosan vezethessenek.

Vegyük a Waymo-t, az Alphabet autonóm vezetési vállalatát. Ahelyett, hogy kizárólag a valós járműveikre hagyatkoztak volna, egy teljesen szimulált világot hoztak létre, amelyben a szimulált érzékelőkkel szimulált autók a végtelenségig körbejárhattak, valódi adatokat gyűjtve szimulált útjukon. A vállalat szerint2020-ra 15 milliárd mérföldnyi szimulált vezetésről gyűjtött adatokat – szemben a valós vezetés alig 20 millió mérföldével.

A mesterséges intelligencia szóhasználatában ezt szintetikus adatoknak hívják, vagy „egy adott helyzetre alkalmazható, nem közvetlen méréssel nyert adatoknak”, ha technikai jellegűek akarunk lenni. Vagy kevésbé technikailag: a mesterséges intelligencia hamis adatokat állít elő, így más AI-k gyorsabban tanulhatnak a valós világról.

Egy példa Task2Sim, az MIT-IBM Watson AI Lab által épített mesterséges intelligencia modell, amely szintetikus adatokat hoz létre a képzési osztályozókhoz. Ahelyett, hogy megtanítaná az osztályozót egy objektum felismerésére, a modell képeket hoz létre, amelyek több feladat betanítására is használhatók. Az az ilyen típusú modellek méretezhetősége az adatgyűjtést kevésbé időigényessé és olcsóbbá teszi az adatra éhes vállalkozások számára.

Ehhez járul még Rogerio Feris, an IBM a Task2Sim című tanulmány társszerzője azt mondta:

A szintetikus képek szépsége abban rejlik, hogy szabályozhatja paramétereiket – a hátteret, a világítást és a tárgyak elhelyezésének módját.

A fent felsorolt ​​aggályok mindegyikének köszönhetően mindenféle szintetikus adat előállítása felgyorsult az elmúlt néhány évben, több tucat startup virágzik a területen és több száz millió dolláros befektetést von be.

A generált szintetikus adatok az „emberi adatoktól”, mint például az egészségügyi vagy pénzügyi nyilvántartások, az emberi arcok sokféleségét ábrázoló szintetizált képekig – a DNS szerkezetét utánzó, absztraktabb adathalmazokig, például genomi adatokig terjednek.

Hogyan készítsünk igazán hamis adatokat

Ennek a szintetikus adatgenerálásnak több módja is van, amelyek közül a leggyakoribb és legmegbízhatóbb az úgynevezett GAN vagy generatív ellenséges hálózat.

Egy GAN-ban két mesterséges intelligencia kerül egymással szembe. Az egyik mesterséges intelligencia szintetikus adatkészletet állít elő, míg a másik megpróbálja megállapítani, hogy a generált adatok valódiak-e. Az utóbbi visszacsatolása visszacsatol az előző „képzésbe”, hogy pontosabbá váljon a meggyőző hamis adatok előállításában. Valószínűleg már láttál egyet a sok közül ez-X-nem-létezik weboldalak – az emberektől a macskákon át az épületekig –, amelyek képeiket GAN-ok alapján generálják.

Az utóbbi időben egyre inkább teret hódítanak a szintetikus adatok előállításának módszerei. Az elsők ún diffúziós modellek, amelyben az MI-ket arra tanítják, hogy bizonyos típusú adatokat rekonstruáljanak, miközben egyre több zaj – az oktatási adatokat fokozatosan megrontó adat – adódik hozzá a valós adatokhoz. Végül az AI-t véletlenszerű adatokkal lehet betáplálni, amelyeket visszadolgozhat olyan formátumba, amelyre eredetileg betanították.

A hamis adatok olyanok, mint a valódi adatok, a valóság nélkül

A szintetikus adatok előállítása ellenére számos konkrét előnyt kínálnak a valós adatok használatával szemben. Először is, könnyebb sokkal többet gyűjteni belőle, mert nem kell az emberekre hagyatkozni, hogy létrehozzák. Másodszor, a szintetikus adatok tökéletesen címkézve vannak, így nem kell munkaigényes adatközpontokra hagyatkozni az adatok (néha helytelen) címkézésekor. Harmadszor, védheti a magánéletet és a szerzői jogokat, mivel az adatok szintetikusak. És végül, ami talán a legfontosabb, csökkentheti az elfogult eredményeket.

Mivel a mesterséges intelligencia egyre nagyobb szerepet játszik a technológiában és a társadalomban, a szintetikus adatokkal kapcsolatos elvárások meglehetősen optimisták. A Gartner híresen becsülte ezt 60-re az edzésadatok 2024%-a szintetikus adat lesz. Piaci elemző A Cognilytica értékelte a piacot A szintetikus adattermelés 110-ben 2021 millió dollár, 1.15-re pedig 2027 milliárd dollárra nő.

Az adatokat a digitális kor legértékesebb árujának nevezték. A nagytechnológia a felhasználói adatok hegyei között ült, ami előnyt jelentett számára a mesterséges intelligencia terén a kisebb versenyzőkkel szemben. A szintetikus adatok lehetőséget adnak a kisebb játékosoknak az asztalok megfordítására.

Ahogy sejtheti, a szintetikus adatokkal kapcsolatos nagy kérdés az úgynevezett hűség – vagy az, hogy mennyire egyezik meg a valós adatokkal – körül van. A zsűri még nem foglalkozik ezzel, de kutatás látszik hogy a szintetikus adatok valós adatokkal való kombinálása statisztikailag megalapozott eredményeket ad. Idén az MIT és a MIT-IBM AI Watson Lab kutatói kimutatták, hogy egy képosztályozó, amelyet előképzettek szintetikus adatokra valós adatokkal kombinálva, teljesített, valamint egy kizárólag valós adatokra betanított képosztályozó.

Összességében úgy tűnik, hogy a szintetikus és a valós világban működő féklámpák zöldek a szintetikus adatok közeljövőbeli dominanciája miatt a magánélet-barát és biztonságosabb mesterségesintelligencia-modellek képzésében, és ezzel az intelligensebb mesterséges intelligencia lehetséges jövője a láthatáron van. .

Olvassa el a teljes történetet itt ...

A szerkesztőről

Patrick Wood
Patrick Wood vezető és kritikus szakértő a fenntartható fejlődés, a zöld gazdaság, az Agenda 21, 2030 Agenda és a történelmi technológiák területén. A Technocracy Rising: A globális átalakulás trójai lójának (2015) szerzője, valamint a Trilaterals Washington felett, I. és II. Kötet (1978-1980), a késő Antony C. Sutton társszerzője.
Feliratkozás
Értesítés
vendég

3 Hozzászólások
Legrégebbi
legújabb A legtöbb szavazatot kapott
Inline visszajelzések
Az összes hozzászólás megtekintése

[…] Technocracy.news […]

[…] Képzési AI: A hamis adatok olcsóbbak, mint a valódi adatok […]