portaldacalheta.pt
  • Главни
  • Агиле Талент
  • Финансијски Процеси
  • Дизајн Бренда
  • Трендови
Наука О Подацима И Базе Података

Твиттер Дата Мининг: Водич за аналитику великих података помоћу Питхона



Велики података је свуда. Раздобље. У процесу успешног пословања у данашње време, вероватно ћете наићи на то хтели то или не.

Без обзира да ли сте бизнисмен који покушава да ухвати корак са временом или чудо од кодирања које тражи свој следећи пројекат, ово упутство ће вам дати кратак преглед шта су велики подаци. Научићете како је то применљиво за вас и како можете брзо да започнете путем Твиттер АПИ-ја и Питхона.



Питхон змија чита Твиттер



Шта су велики подаци?

Велики података управо тако звучи - пуно података. Сама, једна тачка података не може вам дати много увида. Али терабајти података, комбиновани са сложеним математичким моделима и бучном рачунарском снагом, могу створити увид који људска бића нису у стању да произведу. Вредност коју Аналитика великих података пружа предузећу је нематеријална и сваког дана надмашује људске могућности.



Први корак до аналитике великих података је прикупљање самих података. Ово је познато као „рударење подацима“. Подаци могу доћи са било ког места. Већина предузећа се бави гигабајтима података о корисницима, производима и локацији. У овом упутству ћемо истражити како можемо да користимо технике рударења података за прикупљање података на Твиттеру, што може бити корисније него што мислите.

На пример, рецимо да водите Фацебоок и желите да користите Мессенгер податке да бисте пружили увид у то како можете боље да се оглашавате својој публици. Мессенгер има 1,2 милијарде месечно активни корисници . У овом случају, велики подаци су разговори између корисника. Ако бисте појединачно читали разговоре сваког корисника, могли бисте добро да схватите шта им се свиђа и да им у складу с тим препоручите производе. Коришћењем технике машинског учења познате као Обрада природног језика (НЛП), то можете учинити у великом обиму са целокупним аутоматизованим процесом и препустити машинама.



најбоље праксе за развој мобилних апликација

Ово је само један од безброј примера како машинско учење и аналитика великих података могу додати вредност вашој компанији.

Зашто подаци на Твиттеру?

Твиттер је златни рудник података. За разлику од других друштвених платформи, скоро сви твеетови корисника су потпуно јавни и доступни за објављивање. Ово је огроман плус ако покушавате да набавите велику количину података на којима се покреће аналитика. Твиттер подаци су такође прилично специфични. Твиттер-ов АПИ вам омогућава да направите сложене упите, попут повлачења сваког твита о одређеној теми у последњих двадесет минута, или повлачења не-ретвитованих твеетова одређеног корисника.



Једноставна примена овога може бити анализа начина на који је ваша компанија примљена у широј јавности. Можете да сакупите последњих 2.000 твитова у којима се помиње ваша компанија (или било који термин који волите) и да преко њега покренете алгоритам анализе расположења.

Такође можемо циљати кориснике који посебно живе на одређеној локацији, која је позната као просторни подаци. Још једна од ових примена може бити мапирање подручја на свету где се ваша компанија највише помиње.



Као што видите, подаци на Твиттеру могу бити велика врата у увида шире јавности , и како добијају тему. То, у комбинацији са отвореношћу и великодушним ограничењем брзине Твиттер-овог АПИ-ја, може донети моћне резултате.

Преглед алата

Користићемо Питхон 2.7 за ове примере. Идеално би било да имате ИДЕ за писање овог кода. Ја ћу користити ПиЦхарм - издање заједнице .



Да бисмо се повезали са Твиттер-овим АПИ-јем, користићемо Питхон библиотеку под називом Твеепи , коју ћемо за мало инсталирати.

Почетак

Твиттер налог програмера

Да бисмо користили Твиттер-ов АПИ, морамо да отворимо налог програмера на Веб локација за Твиттер апликације .



  1. Пријавите се или направите Твиттер налог на хттпс://аппс.твиттер.цом/ .
  2. Направите нову апликацију (дугме у горњем десном углу) Твеет садржај и везе на терминалу
  3. Попуните страницу за креирање апликације са јединствен име, назив веб локације (користите веб локацију са резервираним местима ако је немате) и опис пројекта. Прихватите услове и одредбе и пређите на следећу страницу. Твеет на који је повезана прва веза претходне слике
  4. Када је ваш пројекат креиран, кликните на картицу „Кључеви и токени за приступ“. Сада бисте могли да видите своју тајну и потрошачки кључ. Неки од атрибута које је вратио Твиттер АПИ
  5. Требаће вам и пар токена за приступ. Померите се надоле и затражите те жетоне. Страница би се требала освежити и сада бисте требали имати приступни токен и приступну тајну токена. Кориснички атрибути које је вратио Твиттер АПИ

Све ово ће нам требати касније, зато се побрините да ова картица остане отворена.

Инсталирање Твеепи-а

Твеепи је изврсно подржан алат за приступ Твиттер АПИ-ју. Подржава Питхон 2.6, 2.7, 3.3, 3.4, 3.5 и 3.6. Постоји неколико различитих начина за инсталирање Твеепи-а. Најлакши начин је коришћење pip.

Коришћење Пип-а

Једноставно укуцајте pip install tweepy у свој терминал.

Коришћење ГитХуб-а

Можете следити упутства на Твеепијево спремиште ГитХуб . Основни кораци су следећи:

git clone https://github.com/tweepy/tweepy.git cd tweepy python setup.py install

И тамо можете да решите проблеме са инсталацијом.

Аутентификација

Сада када имамо потребне алате, можемо почети са кодирањем! Основна линија сваке апликације коју ћемо данас изградити захтева употребу Твеепи-а за креирање АПИ објекта помоћу којег можемо позивати функције. Међутим, да бисмо креирали АПИ објекат, прво се морамо потврдити идентитетом помоћу података о програмерима.

Прво, увезимо Твеепи и додајте своје информације за потврду идентитета.

import tweepy consumer_key = 'wXXXXXXXXXXXXXXXXXXXXXXX1' consumer_secret = 'qXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXh' access_token = '9XXXXXXXX-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXi' access_token_secret = 'kXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXT'

Сада је време да креирамо наш АПИ објекат.

# Creating the authentication object auth = tweepy.OAuthHandler(consumer_key, consumer_secret) # Setting your access token and secret auth.set_access_token(access_token, access_token_secret) # Creating the API object while passing in auth information api = tweepy.API(auth)

Ово ће бити основа сваке апликације коју направимо, пазите да је не избришете.

Пример 1: Ваша хронологија

У овом примеру ћемо повући десет најновијих твеетова из вашег Твиттер фида. То ћемо урадити помоћу АПИ објекта home_timeline() функцију. Тада можемо резултат сместити у променљиву и провући се кроз њега да бисмо исписали резултате.

# Using the API object to get tweets from your timeline, and storing it in a variable called public_tweets public_tweets = api.home_timeline() # foreach through all tweets pulled for tweet in public_tweets: # printing the text stored inside the tweet object print tweet.text

Резултат би требао изгледати као гомила насумичних твеетова, праћених УРЛ-ом самог твита.

Документација за корисничку наредбу за временску линију

Праћење везе до твита често ће вас довести до самог твита. Пратећи везу из првог твита добили бисмо следећи резултат:

Садржај @НиТимес Твиттер налога у тренутку писања

Имајте на уму да ако ово покрећете путем терминала, а не ИДЕ-а попут ПиЦхарм-а, можда ћете имати проблема са форматирањем приликом покушаја штампања текста твита.

ЈСОН иза резултата

У горњем примеру, одштампали смо текст из сваког твита користећи tweet.text. Да бисмо се позвали на одређене атрибуте сваког твеет објекта, морамо погледати ЈСОН који је вратио Твиттер АПИ.

Резултат који добијате од Твиттер АПИ-ја је у ЈСОН формату и у прилогу је прилична количина информација. Ради једноставности, овај водич се углавном фокусира на атрибут „тект“ сваког твита и информације о високотонцу (кориснику који је креирао твеет). За горњи узорак можете видети цео враћени ЈСОН објекат овде .

Ево кратког прегледа неких атрибута које твит нуди.

Садржај временске линије корисника за @НиТимес

Ако желите да пронађете датум када је твит креиран, поставили бисте му упит са print tweet.created_at.

Такође можете видети да сваки твеет објекат садржи информације о високотонцу.

Документација за наредбу претраживања

Да бисте добили атрибут „име“ и „локација“ високотонца, можете покренути print tweet.user.screen_name и print tweet.user.location.

Имајте на уму да ови атрибути могу бити изузетно корисни ако ваша апликација зависи од просторних података.

Пример 2: Твитови одређеног корисника

У овом примеру ћемо једноставно повући најновијих двадесет твеетова од корисника по нашем избору.

који је други корак капиталног буџетирања?

Прво ћемо испитати Твеепи документација да видимо да ли постоји таква функција. Уз мало истраживања, откривамо да user_timeline() функција је оно што тражимо.

Резултати претраге приликом постављања упита за АпееСцапе

Видимо да је user_timeline() функција има неке корисне параметре које можемо користити, посебно id (ИД корисника) и count (количина твеетова које желимо повући). Имајте на уму да због упита можемо да повучемо само ограничени број твеетова по упиту Ограничења цене Твиттер-а .

Покушајмо да повучемо последњих двадесет твеетова са твиттер налога @НиТимес.

Можемо створити променљиве за складиштење количине твеетова које желимо да повучемо (пребројимо) и корисника из којег их желимо повући (име). Тада можемо позвати функцију усер_тимелине са та два параметра. Испод је ажурирани код (имајте на уму да бисте требали задржати потврду идентитета и креирање АПИ објекта на врху кода).

# Creating the API object while passing in auth information api = tweepy.API(auth) # The Twitter user who we want to get tweets from name = 'nytimes' # Number of tweets to pull tweetCount = 20 # Calling the user_timeline function with our parameters results = api.user_timeline(id=name, count=tweetCount) # foreach through all tweets pulled for tweet in results: # printing the text stored inside the tweet object print tweet.text

Наши резултати би требали изгледати отприлике овако:

тип датотеке ткт картица цвв 2017

Популарне апликације ове врсте података могу да укључују:

  • Спровођење анализе специфичних корисника и начина на који они комуницирају са светом
  • Проналажење утицајних утицаја на Твиттеру и анализа њихових следбеничких трендова и интеракција
  • Праћење промена у следбеницима корисника

Пример 3: Проналажење твеетова помоћу кључне речи

Урадимо последњи пример: Добијање најновијих твеетова који садрже кључну реч. Ово може бити изузетно корисно ако желите да надгледате посебно поменуте теме у свету Твитера или чак да видите како се ваше пословање помиње. Рецимо да желимо да видимо како Твиттер помиње АпееСцапе.

Након гледања кроз Твеепи документација , search() чини се да је функција најбољи алат за постизање нашег циља.

Овде је најважнији параметар q - параметар упита, који је кључна реч коју тражимо.

Такође можемо поставити параметар језика тако да не добијамо твеетове са нежељеног језика. Вратимо само твитове на енглеском („ен“).

Сада можемо да модификујемо наш код тако да одражава промене које желимо да унесемо. Прво креирамо променљиве за складиштење наших параметара (упит и језик), а затим позивамо функцију преко АПИ објекта. Штампајмо и корисничко име корисника који је креирао твеет у нашој петљи.

# Creating the API object while passing in auth information api = tweepy.API(auth) # The search term you want to find query = 'ApeeScape' # Language code (follows ISO 639-1 standards) language = 'en' # Calling the user_timeline function with our parameters results = api.search(q=query, lang=language) # foreach through all tweets pulled for tweet in results: # printing the text stored inside the tweet object print tweet.user.screen_name,'Tweeted:',tweet.text

Наши резултати би требали изгледати отприлике овако:

Ево неколико практичних начина на које можете користити ове информације:

  • Направите просторни графикон о томе где се ваша компанија највише помиње широм света
  • Покрените анализу расположења на твитовима да бисте видели да ли је целокупно мишљење ваше компаније позитивно или негативно
  • Направите друштвене графиконе најпопуларнијих корисника који објављују твеетове о вашој компанији или производу

Неке од ових тема можемо обрадити у будућим чланцима.

Закључак

Твиттер-ов АПИ је изузетно користан у апликацијама за рударење података и може пружити широк увид у јавно мњење. Ако су Твиттер АПИ и аналитика великих података нешто што вас додатно занима, подстичем вас да прочитате више о томе Твиттер АПИ , Твеепи , и Твиттер-ове смернице за ограничавање стопа .

Обрадили смо само основе приступа и повлачења. Твиттер-ов АПИ може се користити у врло сложеним проблемима са великим подацима, који укључују људе, трендове и друштвене графиконе сувише сложене да би их људски ум могао схватити сам.

Разумевање основа

Шта је рударење података и велики подаци?

Рударство података је задатак извлачења огромне количине података из извора и њиховог складиштења. Резултат тога су „велики подаци“, што је само велика количина података на једном месту.

Зашто су Твиттер подаци корисни?

Твиттер подаци су отворени, лични и опсежни. Можете прилично издвојити од корисника анализирајући његове твеетове и трендове. Такође можете да видите како људи разговарају о одређеним темама користећи кључне речи и називе предузећа.

Како је аналитика великих података корисна за организацију?

Аналитика великих података за организацију може пружити увиде који превазилазе људске способности. Могућност покретања великих количина података путем компјутерски тешке анализе нешто је у чему математички модели и машине напредују.

АИ насупрот БИ: разлике и синергије

Иновација

АИ насупрот БИ: разлике и синергије
Живети свој најбољи живот - Инспиративна самостална прича о успеху Давида Нуффа

Живети свој најбољи живот - Инспиративна самостална прича о успеху Давида Нуффа

Укс Дизајн

Популар Постс
Како створити бот за анализу расположења е-поште: Водич за НЛП.
Како створити бот за анализу расположења е-поште: Водич за НЛП.
Поуке из инвестиционе стратегије Варрена Буффетта и његове грешке
Поуке из инвестиционе стратегије Варрена Буффетта и његове грешке
Зашто отплата дељења не успева? Неки предложени лекови
Зашто отплата дељења не успева? Неки предложени лекови
Повећајте своју продуктивност помоћу Амазон Веб Сервицес
Повећајте своју продуктивност помоћу Амазон Веб Сервицес
Развој Андроид ТВ-а - Долазе велики екрани, припремите се!
Развој Андроид ТВ-а - Долазе велики екрани, припремите се!
 
Доступност на мрежи: зашто се стандарди В3Ц често игноришу
Доступност на мрежи: зашто се стандарди В3Ц често игноришу
Алати наредбеног ретка за програмере
Алати наредбеног ретка за програмере
Зен девРант-а
Зен девРант-а
Заступства и гаранција: Алат за спајања и преузимања о коме би сваки продавац требао знати
Заступства и гаранција: Алат за спајања и преузимања о коме би сваки продавац требао знати
Значај дизајна усмереног на човека у дизајну производа
Значај дизајна усмереног на човека у дизајну производа
Популар Постс
  • принципи и елементи визуелног дизајна
  • у шта је кодиран виндовс
  • претворити стринг у датум јавасцрипт
  • како направити пројектни документ
  • пример аутентификације засноване на пролећном сигурносном токену
  • како направити бота на дисцорд мобиле
  • чему служе шине
Категорије
  • Агиле Талент
  • Финансијски Процеси
  • Дизајн Бренда
  • Трендови
  • © 2022 | Сва Права Задржана

    portaldacalheta.pt