portaldacalheta.pt
  • Главни
  • Иновација
  • Алати И Упутства
  • Укс Дизајн
  • Рисе Оф Ремоте
Наука О Подацима И Базе Података

Уграђивање у машинско учење: Олакшавање сложених података



Рад са нумеричким подацима може бити тежак, чак и за искусни научници за податке . Типични модел машинског учења очекује да његове карактеристике буду бројеви, а не речи, имејлови, странице веб страница, листе, графикони или расподеле вероватноће. Да би били корисни, подаци се прво морају трансформисати у векторски простор. Али како?

Један од популарних приступа био би третирати ненумеричку особину као категоричку . Ово би могло добро функционисати ако је број категорија мали (на пример, ако подаци указују на професију или земљу). Међутим, ако покушамо да применимо ову методу на е-адресе, вероватно ћемо добити онолико категорија колико има узорака. Ниједна два имејла нису потпуно иста, па овај приступ не би био од користи.



претворити временску ознаку у датум јавасцрипт

Други приступ би био да дефинишу удаљеност између узорака података , функција која нам говори колико су близу било која два узорка. Или бисмо могли дефинисати а мера сличности , што би нам дало исте информације, осим што је растојање између два блиска узорка мало, а сличност велика. Рачунска удаљеност (сличност) између свих узорака података дала би нам матрицу удаљености (или сличности). Ово су нумерички подаци које бисмо могли користити.



Међутим, ови подаци би имали онолико димензија колико има узорака, што обично није сјајно ако га желимо користити као карактеристику (види проклетство димензионалности ) или да је визуализујете (док једна парцела може да поднесе чак и 6Д , Још нисам видео заплет од 100Д). Да ли бисмо могли да смањимо број димензија на разумну количину?



Одговор је да! То је оно што имамо уграђивања за.

Шта је уграђивање и зашто га користити?

Уграђивање је ниско-димензионални приказ високо-димензионалних података. Обично уграђивање неће обухватити све информације садржане у оригиналним подацима. Међутим, добро уграђивање ће ухватити довољно за решавање проблема који је пред вама.



Постоји много уграђених елемената прилагођених одређеној структури података. На пример, можда сте чули за ворд2вец за текстуалне податке или Фуријеови дескриптори за податке о слици облика. Уместо тога, разговараћемо о томе како применити уграђивање на било које податке где можемо дефинисати удаљеност или меру сличности. Све док можемо израчунати матрицу даљине, природа података је потпуно неважна. То ће радити исто, било е-маилови, листе, дрвеће или веб странице .

У овом чланку ћемо вас упознати са различитим врстама уграђивања и разговараћемо о томе како функционишу нека популарна уграђивања и како бисмо могли да их користимо за решавање стварних проблема који укључују сложене податке. Такође ћемо проћи кроз предности и недостатке ове методе, као и неке алтернативе. Да, неки проблеми се могу боље решити другим средствима, али нажалост, у машинском учењу нема сребра.



Хајде да почнемо.

Како функционишу уграђивања

Сва уграђивања покушавају да смање димензионалност података, истовремено задржавајући „битне“ информације у подацима, али свако уграђивање то чини на свој начин. Овде ћемо проћи кроз неколико популарних уграђивања која се могу применити на матрицу даљине или сличности.



Нећемо ни покушати да покријемо сва уграђивања. Постоји најмање десетак добро познатих уграђивања која то могу да ураде и још много мање познатих уграђивања и њихових варијација. Свака од њих има свој приступ, предности и недостатке.

Ако желите да видите која су још уграђења, можете започети овде:



  • Корисничко упутство за Сцикит-леарн
  • Елементи статистичког учења (друго издање) , 14. поглавље

Матрица растојања

Дотакнимо се укратко матрица растојања. Проналажење одговарајуће удаљености за податке захтева добро разумевање проблема, извесно знање из математике и понекад пука срећа . У приступу описаном у овом чланку, то би могао бити најважнији фактор који доприноси укупном успеху или неуспеху вашег пројекта.

Такође бисте требали имати на уму неколико техничких детаља. Многи алгоритми за уградњу претпостављају да је удаљеност (или несличност ) матрица $ тектбф {Д} $ има нуле на својој дијагонали и симетрична је. Ако није симетричан, уместо њега можемо користити $ ( тектбф {Д} + тектбф {Д} ^ Т) / 2 $. Алгоритми који користе трик са зрном такође ће претпоставити да је удаљеност метрика, што значи да важи неједнакост троугла:

[ за све а, б, ц ; ; д (а, ц) лек д (а, б) + д (б, ц) ]

Такође, ако алгоритам уместо тога захтева матрицу сличности, могли бисмо да применимо било коју функцију смањења монотона да трансформишемо матрицу растојања у матрицу сличности: на пример, $ екп -к $.

Анализа главне компоненте (ПЦА)

Главни анализа компоненти , или ПЦА, вероватно је најчешће кориштено уграђивање до данас. Идеја је једноставна: Пронаћи линеарну трансформацију карактеристика која максимизира забележену варијансу или (еквивалентно) минимизира квадратну грешку реконструкције .

Конкретно, нека функције буду пример матрице $ тектбф {Кс} ин матхбб {Р} ^ {н тимес п} $ имају $ н $ обележја и $ п $ димензије. Ради једноставности, претпоставимо да је средња вредност узорка података нула. Број димензија можемо смањити са $ п $ на $ к $ множењем $ тектбф {Кс} $ ортонормалном матрицом $ тектбф {В} _к ин матхбб {Р} ^ {п тимес к} $ :

[ шешир { тектбф {Кс}} = тектбф {Кс} тектбф {В} _к ]

Тада ће $ хат { тектбф {Кс}} ин матхбб {Р} ^ {н тимес к} $ бити нови скуп функција. Да бисте мапирали нове функције натраг у првобитни простор (зове се ова операција реконструкција ), једноставно га треба поново помножити са $ тектбф {В} _к ^ Т $.

Сада ћемо пронаћи матрицу $ тектбф {В} _к $ која минимизира грешку реконструкције:

[ мин _ { тектбф {В} _к} || тектбф {Кс} тектбф {В} _к тектбф {В} _к ^ Т - тектбф {Кс} || ^ 2 ]

Колоне матрице $ тектбф {В} _к $ називају се правцима главне компоненте, а колоне $ хат { тектбф {Кс}} $ главне компоненте. Нумерички можемо пронаћи $ тектбф {В} _к $ применом СВД-декомпозиције на $ тектбф {Кс} $, мада постоје и други једнако валидни начини да се то уради.

ПЦА се може применити директно на нумеричке карактеристике. Или, ако наше карактеристике нису нумеричке, можемо их применити на матрицу удаљености или сличности.

Ако користите Питхон, ПЦА је имплементиран у сцикит-леарн .

Предност ове методе је да је брз за израчунавање и прилично робустан према шуму података.

Недостатак било би да може да ухвати само линеарне структуре, па ће нелинеарне информације садржане у оригиналним подацима вероватно бити изгубљене.

Кернел ПЦА

Кернел ПЦА је нелинеарна верзија ПЦА. Идеја је да се користи трик са зрном , за коју сте вероватно чули ако сте упознати Подршка Вецтор Мацхинес СВМ .

шта је први корак капиталног буџетирања

Конкретно, постоји неколико различитих начина за израчунавање ПЦА. Један од њих је израчунавање сопственог декомпозиције двоструко центриране верзије грам матрице $ тектбф {Кс} тектбф {Кс} ^ Т ин матхбб {Р} ^ {н тимес н} $. Сада, ако израчунамо а матрица језгра $ тектбф {К} ин матхбб {Р} ^ {н тимес н} $ за наше податке, кернел ПЦА ће их третирати као грам матрицу како би пронашао главне компоненте.

Нека су $ к_и $, $ и ин {1, .., н} $ узорци карактеристика. Матрица језгра је дефинисана функцијом језгра $ К (к_и, к_ј) = лангле пхи (к_и), пхи (к_ј) рангле $.

Популаран избор је радијално језгро:

[К (к_и, к_ј) = екп - гама цдот д (к_и, к_ј) ]

где је $ д $ функција даљине.

Кернел ПЦА је од нас захтевао да одредимо удаљеност. На пример, за нумеричке карактеристике могли бисмо да користимо еуклидску удаљеност: $ д (к_и, к_ј) = верт верт к_и-к_ј верт верт ^ 2 $.

Што се тиче нумеричких карактеристика, можда ћемо морати да будемо креативни. Треба запамтити да овај алгоритам претпоставља да је наша удаљеност метрика.

Ако користите Питхон, Кернел ПЦА је имплементиран у сцикит-леарн .

Предност Кернел ПЦА методе је да може да ухвати нелинеарне структуре података.

Недостатак је да је осетљив на шум у подацима и да ће избор удаљености и функција језгра у великој мери утицати на резултате.

сатница вс калкулатор плата

Мултидимензионално скалирање (МДС)

Вишедимензионално скалирање (МДС) покушава глобално да сачува растојање између узорака. Идеја је прилично интуитивна и добро функционише са матрицама на даљину.

Конкретно, за дате узорке карактеристика $ к_и $, $ и ин {1, .., н} $ и функцију даљине $ д $, израчунавамо нове узорке карактеристика $ з_и ин матхбб {Р} ^ {к} $, $ и ин {1, .., н} $ минимизирањем а функција стреса :

[ мин_ {з_1, .., з_н} сум_ {1 лек иАко користите Питхон, МДС је имплементиран у сцикит-леарн . Међутим, сцикит-леарн не подржава трансформацију бодова ван узорка , што би могло бити незгодно ако желимо да користимо уграђивање заједно са моделом регресије или класификације. У принципу, међутим, могуће је .

Предност МДС-а је да се његова идеја савршено слаже са нашим оквиром и да на њу не утиче много бука у подацима.

Недостатак је да је његова примена у сцикит-леарну прилично спора и не подржава трансформацију ван узорка.

Случај употребе: праћење пошиљке

Неколико насеља на малом тропском острву развило је услуге слања пакета како би задовољило потребе локалне туристичке индустрије. Трговац у једном од ових насеља одлучио је да предузме мере како би постигао предност над конкуренцијом, па је успоставио систем сателитског надзора који прати све пошиљке пакета на острву. Једном када су подаци прикупљени, трговац је позвао научника за податке (то смо ми!) Да му помогне да одговори на следеће питање: Да ли можемо предвидети одредиште пакета који је тренутно на путу?

Скуп података садржи информације о 200 праћених пошиљки. За сваку праћену пошиљку постоји листа (к, и) -координата свих локација на којима је примећен пакет, што је обично негде између 20 и 50 посматрања. Графикон испод показује како изгледају ови подаци.

Случај употребе: праћење пошиљке

Ови подаци изгледају као невоља - заправо два различита укуса невоље.

Први проблем је што су подаци с којима имамо посла високо димензионални. На пример, ако је сваки пакет примећен на 50 локација, наши подаци би имали 100 димензија - звучи пуно, у поређењу са 200 узорака на вашем располагању.

Други проблем: Различите руте отпреме заправо имају различит број запажања, тако да не можемо једноставно сложити листе са координатама да бисмо податке представили у табеларном облику (а чак и да јесу, то и даље не би заиста имало смисла).

Трговац нестрпљиво бубња прстима по столу, а научник података се труди да не покаже никакве знаке панике.

Ту ће вам добро доћи матрице растојања и уграђивања. Само треба да пронађемо начин за упоређивање две руте отпреме. Фрецхет дистанце чини се разумним избором. Са растојањем можемо израчунати матрицу растојања.

Белешка: Овај корак може потрајати. Морамо израчунати $ О (н ^ 2) $ раздаљине при чему свака удаљеност има $ О (к ^ 2) $ итерација, где је $ н $ број узорака, а $ к $ број посматрања у једном узорку. Кључно је ефикасно писање функције даљине. На пример, у Питхону бисте могли да користите нумба да многоструко убрза ово рачунање.

Визуелизовање уграђивања

Сада помоћу уграђивања можемо смањити број димензија са 200 на само неколико. Јасно видимо да постоји само неколико трговинских рута, па се можемо надати да ћемо наћи добру заступљеност података чак и у две или три димензије. Користићемо уграђивања о којима смо раније разговарали: ПЦА, Кернел ПЦА и МДС.

На доњим графиконима можете видети означене податке о рути (дати ради демонстрације) и њихов приказ уграђивањем у 2Д и 3Д (с лева на десно). Означени подаци означавају четири трговинска места повезана шест трговинских путева. Два од шест трговачких путева су двосмерна, што укупно чини осам група за отпрему (6 + 2). Као што видите, добили смо прилично јасно раздвајање свих осам група отпреме са 3Д уграђивањима.

Визуелизовање уграђивања

Ово је добар почетак.

Уградње у модел цевовода

Сада смо спремни да обучимо уграђивање. Иако је МДС показао најбоље резултате, прилично је спор; такође, имплементација сцикит-леарн не подржава трансформацију ван узорка. То није проблем за истраживање, али може бити и за производњу, па ћемо уместо тога користити Кернел ПЦА. За Кернел ПЦА, не бисмо требали заборавити да претходно применимо радијално језгро на матрицу растојања.

Како се бира број излазних димензија? Анализа је показала да чак и 3Д функционише у реду. Да бисмо били на сигурној страни и не бисмо пропустили неке важне информације, поставимо излаз за уграђивање на 10Д. За најбоље перформансе, број излазних димензија може се поставити као хипер-параметар модела, а затим подесити унакрсном валидацијом.

Тако ћемо имати 10 нумеричких карактеристика које можемо користити као улаз за скоро сваки модел класификације. Шта кажете на један линеарни и један нелинеарни модел: рецимо, Логистичка регресија и појачавање градијента? За поређење, употребимо и ова два модела са матрицом пуне удаљености као улаз. Поврх тога, тестирајмо и СВМ (СВМ је дизајниран да директно ради са матрицом удаљености, тако да није потребно уграђивање).

Тачност модела на скупу тестова приказана је у наставку (генерисано је 10 скупова података о возовима и тестовима како бисмо могли да проценимо варијансу модела):

безбедносне политике према програмерима и веб програмерима су развојне политике.
  • Појачавање градијента упарен са уграђивањем (КернелПЦА + ГБ) добија прво место. Надмашио је Градиент Боостинг без уграђивања (ГБ). Овде се Кернел ПЦА показао корисним.
  • Логистичка регресија је добро. Занимљиво је да је Логистичка регресија без уграђивања (ЛР) прошла боље него са уграђивањем (КернелПЦА + ЛР). Ово није сасвим неочекивано. Линеарни модели нису врло флексибилни, али их је релативно тешко прекомерно опремити. Чини се да је овде губитак информација изазван уграђивањем већи од користи мање улазне димензионалности.
  • На крају, али не мање важно, СВМ добро изведен, иако је варијанса овог модела прилично значајна.

Тачност модела

Тачност модела

Питхон код за овај случај употребе је доступан на ГитХуб-у .

Закључак

Објаснили смо шта су уграђивања и показали како се они могу користити заједно са матрицама растојања за решавање проблема из стварног света. Време за пресуду:

Да ли су уграђивања нешто што би научник података требало да користи? Погледајмо обе стране приче.

Предности и недостаци коришћења уграђених уграђених елемената

Прос:

  • Овај приступ нам омогућава да радимо са необичним или сложеним структурама података све док можете да дефинишете удаљеност, коју - уз одређени степен знања, маште и среће - обично можете.
  • Резултат су ниско-димензионални нумерички подаци које можете лако анализирати, групирати или користити као карактеристике модела за скоро све постојеће моделе машинског учења.

Против:

  • Користећи овај приступ, нужно ћемо изгубити неке информације:

    • Током првог корака, када оригиналне податке замењујемо матрицом сличности
    • Током другог корака, када смањујемо димензионалност помоћу уграђивања
  • У зависности од података и функције растојања, израчунавање матрице растојања може бити дуготрајно. Ово се може ублажити ефикасно написаном функцијом растојања.
  • Нека уграђивања су врло осетљива на шум у подацима. Ово се може ублажити додатним чишћењем података.
  • Нека уграђивања су осетљива на избор хипер-параметара. Ово се може ублажити пажљивом анализом или подешавањем хипер-параметара.

Алтернативе: Зашто не користити ...?

  • Зашто једноставно не користити уграђивање директно у податке, уместо матрице растојања?
    Ако знате уграђивање које може ефикасно директно кодирати ваше податке, свакако га користите. Проблем је што не постоји увек.
  • Зашто једноставно не користити кластеризацију на матрици даљине?
    Ако је ваш једини циљ сегментирање скупа података, било би сасвим у реду да то учините. Неке методе кластеризације такође користе уграђивање (на пример, Спектрално кластерисање ). Ако желите да сазнате више, ево туторијал о кластеризацији .
  • Зашто једноставно не бисмо користили матрицу даљине као карактеристике?
    Величина матрице удаљености је $ (н_ {узорака}, н_ {узорака}) $. Не могу се сви модели носити са тим ефикасно - неки се могу прекомерно опремити, неки се споро уклапају, неки се можда не уклапају уопште. Модели са малом варијансом овде би били добар избор, попут линеарних и / или регуларисаних модела.
  • Зашто једноставно не користити СВМ са матрицом растојања?
    СВМ је сјајан модел, који се добро показао у нашем случају употребе. Међутим, постоје нека упозорења. Прво, ако желимо да додамо друге карактеристике (могу бити само једноставни нумерички бројеви), то нећемо моћи директно. Морали бисмо да их уврстимо у нашу матрицу сличности и потенцијално изгубимо неке драгоцене информације. Друго, колико год СВМ био добар, други модел може боље радити за ваш одређени проблем.
  • Зашто једноставно не користити дубоко учење?
    Истина је, за било који проблем можете пронаћи одговарајућу неуронску мрежу ако претражујете довољно дуго. Међутим, имајте на уму да процес проналажења, обуке, валидације и примене ове неуронске мреже неће нужно бити једноставан. Дакле, као и увек, користите своју најбољу процену.

У једној реченици

Уграђивање у комбинацији са матрицама растојања невероватно је корисно средство ако случајно радите са сложеним ненумеричким подацима, посебно када не можете директно трансформисати податке у векторски простор и радије бисте имали ниско-димензионални улаз за свој модел.

Разумевање основа

Шта је уграђивање?

Уграђивање је представљање података у ниској димензији. На пример, мапа света је 2Д приказ 3Д површине Земље, а Дискретна Фоуриерова серија је коначно-димензионални приказ бесконачно-димензионалног звучног таласа.

Која је сврха уграђивања?

Уграђивање може смањити број димензија података, а истовремено задржати важне унутрашње односе унутар података. На пример, мапа света чува релативни положај терена и океана.

Како се обучава уграђивање?

Уграђивање алгоритама у МЛ обично припада учењу без надзора. Раде на необележеним подацима, али захтевају ручно подешавање хипер-параметара, као што је број излазних димензија.

Зашто су уградње важне?

Висококвалитетне податке може бити тешко анализирати, зацртати или користити за обуку модела МЛ. Уграђивање може смањити број димензија и у великој мери поједноставити ове задатке за научника података.

како слати нежељену пошту за кредитне картице пдф

Да ли уграђивање функционише са нумеричким подацима?

Нека уграђивања су посебно дизајнирана за рад са нумеричким подацима. На пример, чувена уградбена реч2вец претвара речи у векторе. Овај чланак показује како уграђивања могу да раде са ненумеричким подацима у врло општим поставкама.

Стварамо ли несигуран Интернет ствари (ИоТ)? Изазови и забринутости за безбедност

Мобиле

Стварамо ли несигуран Интернет ствари (ИоТ)? Изазови и забринутости за безбедност
Ограничења за дизајн УКС-а за мобилне уређаје, најбоље праксе и рад са програмерима

Ограничења за дизајн УКС-а за мобилне уређаје, најбоље праксе и рад са програмерима

Мобиле Десигн

Популар Постс
Начело појединачне одговорности: рецепт за велики кодекс
Начело појединачне одговорности: рецепт за велики кодекс
Зашто размотрити редизајн веб странице - савети и препоруке
Зашто размотрити редизајн веб странице - савети и препоруке
Поуке из инвестиционе стратегије Варрена Буффетта и његове грешке
Поуке из инвестиционе стратегије Варрена Буффетта и његове грешке
Осам правила за ефикасну производњу софтвера
Осам правила за ефикасну производњу софтвера
Стварање нарације од бројева
Стварање нарације од бројева
 
Виши технички регрут
Виши технички регрут
Управљање удаљеним слободњацима? Ови принципи ће вам помоћи
Управљање удаљеним слободњацима? Ови принципи ће вам помоћи
Стратегије задржавања запослених 101: Образовање на радном месту
Стратегије задржавања запослених 101: Образовање на радном месту
Финансирање покретања за осниваче: Ваша пратећа контролна листа
Финансирање покретања за осниваче: Ваша пратећа контролна листа
Дизајн за интерактивно окружење и паметне просторе
Дизајн за интерактивно окружење и паметне просторе
Популар Постс
  • концепт ценовне еластичности тражње
  • стварни трошак калкулатора за запослене
  • с цорп вс ц цорп вс партнерсхип
  • идите на тржишну стратегију за стартапе
  • колико вреди индустрија лепоте 2017
  • хакирање кредитне картице са важећим цвв-ом
Категорије
  • Иновација
  • Алати И Упутства
  • Укс Дизајн
  • Рисе Оф Ремоте
  • © 2022 | Сва Права Задржана

    portaldacalheta.pt