๐๏ธ์ํํธ์จ์ด/๐ปpython
ํ๊ตญ์ด NLP ์ํํ๊ธฐ์ ๊ณผ์
1. tweepy # tweepy ๋ฒ์ ๋ฎ์ถ๊ธฐ # !pip install tweepy==3.10.0 # import tweepy # tweepy.__version__ 4๋ฒ์ ๋ถํฐ # konlpy ํจํค์ง๊ฐ tweepy ํจํค์ง์ ํฌํจ๋ StreamListener ํด๋์ค๋ฅผ ์ฌ์ฉํ๊ณ # ์๋๋ฐ ์ด๊ฒ์ ๋ถ๋ฌ์ค๋๋ฐ ๋ฌธ์ ๊ฐ ๋ฐ์ # StreamListener ํด๋์ค๊ฐ #Tweepy ๋ฒ์ 4๋ถํฐ Stream ์ด๋ ํด๋์ค๋ก ํตํฉ ์ฆ, 3๋ฒ์ ์ ๋ค์ด๋ฐ์ผ์ผํ๋ค. ๊ธฐ์กด์ ์ฐ๋ ๊ฑฐ๋ 4.4.0 ๋ฒ์ ์ด๋ค. Successfully installed PySocks-1.7.1 tweepy-3.10.0 '4.4.0' 2. ์๋์ฐ Mecab ์ค์น ๋ฐฉ๋ฒ 1) C๋๋ผ์ด๋ธ์ Mecab ํด๋ ์์ฑ 2) https://github.com/Pusn..
If using all scalar values, you must pass an index ์๋ฌ, ํด๊ฒฐ
in getData(driver) 249 # print(f'{row} : title/view/date') 250 # df ๋ก ๋ง๋ค์ด๋ฒ๋ฆฌ๊ธฐ --> 251 data_df = pd.DataFrame({ 252 'title' : title, 253 'views' : view, ๋ฐ์ดํฐํ๋ ์ ๋ด๋ถ์ ๋ฆฌ์คํธ ๊ฐ์ผ๋ก ๋ณ๊ฒฝํด์ฃผ๋ฉด๋๋ค. ๊ธฐ์กด์ ์ฝ๋ # row = [title, view, date] # print(f'{row} : title/view/date') # df ๋ก ๋ง๋ค์ด๋ฒ๋ฆฌ๊ธฐ data_df = pd.DataFrame({ 'title' : title, 'views' : view, 'upload_dates' : date }) print(data_df) return data_df ํด๊ฒฐํ๋ค.
VScode ์์ Jupyter notebook์ ํ๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ KoNLy ์ ํํ์ ๋ถ์๊ธฐ McCab ์ธํ ํ๊ธฐ(์ค์น)
================= OS : window 10 64bit ๊ฐ๋ฐ์ธ์ด : python 3.7.0 python ๋น๋ ๋์ด ์ปค๋งจ๋ ์ฐฝ์์ pip install ์คํ ๊ฐ๋ฅ cpu : AMD Ryzen 7 3700X 8-Core Processor 3.59 GHz ๋จ : 24.0GB ๊ทธ๋ํฝ ์นด๋(gpu) : GeForce RTX 2060 SUPER ================= 1. ์๊ฐ KoNLPy KoNLPy(์ฝ์์ํ์ด)๋ ํ๊ตญ์ด ์ ๋ณด์ฒ๋ฆฌ๋ฅผ ์ํ ํ์ด์ฌ ํจํค์ง ๋ค์ํ API(ํด๋์ค)๋ค์ด ์กด์ฌ ( โป KoNLPy์ Mecab() ํด๋์ค๋ ์๋์ฐ์์ ์ง์ X) 2. ํ๊ฒฝ ์ธํ ์๋ฐ์ JPype๋ฅผ ์ค์นํด์ผ ํ๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ KoNLPy ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ค Java 1.7+ ์ค์น JAVA_HOME ํ๊ฒฝ๋ณ์ ..
1 columns passed, passed data had 44 columns ๋ฆฌ์คํธ ๊ด๋ จ ์๋ฌ
ํฌ๋กค๋งํ ๋ฐ์ดํฐ๋ฅผ ๋ฆฌ์คํธ ํํ๋ก ๋ฐํํด์ ๋ฆฌ์คํธ๋ก ์ด์ด๋ถ์ด๊ณ ์์๋๋ฐ, ์๊พธ๋ง ๋ฐ์ดํฐํ๋ ์ ํ์ฑํด์ ์คํจ ์ค๋ฅ๊ฐ ์๊ฒผ๋ค. ์๊ณ ๋ณด๋ ์ด์ค ๋ฆฌ์คํธ๊ฐ ํ์ฑ๋์ด์ ๋ฐ์ดํฐํ๋ ์์ ํ์ฑํ์ง ๋ชปํ๊ณ ์์๋ ๊ฒ์ด์๋ค. ์ฆ, ์ด์ค ๋ฆฌ์คํธ๋ก ๋ฐ์ดํฐ๋ฅผ ์ด์ด๋ถ์ด์ง๋ง๊ณ , ๋ฆฌ์คํธ ํํ๋ก ์์ฑํ ํ์ for๋ฌธ์์ ๋ฐ๋ก df์ผ๋ก ๋ง๋ค์ด์ ํ๋จ์ผ๋ก ๋๊ธ ๋ฐ์ดํฐ๋ค์ ์ญ ์ด์ด์ ๋ถ์ด๋ ํํ๋ก ๋ง๋ค์ด์ผํจ์ ์์๋ค. def getCom(driver): #์ ๋ชฉ, ์กฐํ์, ๋๊ธ ๊ฐ์ ธ์ค๊ธฐ html = driver.page_source soup = BeautifulSoup(html,'html.parser') comments = [] try: # ํค์๋, ํด๋น ๋๊ธ ์ ์ฒด ํฌ๋กค๋ง 5 - table 2 comm = soup.select('div#cont..
nltk pos_tag ์ข ๋ฅ
๋ฌธ์ฅ์ word_tokenize (ํ ํฐํ)-> pos_tag(ํ์ฌ ๋ถ๋ฅ) ๋ฅผ ํตํด pos(ํ์ฌ)๋ฅผ ์ฐพ๊ณ , ๋ฌธ์ฅ ๋ด์์ ๋จ์ด์ ํด๋นํ๋ ํ์ฌ๋ฅผ ํ๊น ํ์ฌ ์์ ์๋ค. ์ข ๋ฅ๋ ๋ค์๊ณผ ๊ฐ๋ค. import nltk nltk.download('punkt') from nltk import word_tokenize words = word_tokenize("Think like man of action and act like man of thought") words # ๋จผ์ ๋ฌธ์ฅ์ ํ ํฐํํ ํ์ ํฌ์ค ํ๊ทธ๋ฅผ ๋ฌ๋ฉด ๋๋ค [nltk_data] Downloading package punkt to [nltk_data] C:\Users\AppData\Roaming\nltk_data... [nltk_data] Package punk..
python ๊ฐ์ํ๊ฒฝ ์ค์น์ค์ vscode ์๋ฌ : Kernel process Exited
from keras.preprocessing.text import text_to_word_sequence sentence = 'Where there\'s a will, there\'s a way' text_to_word_sequence(sentence) ํด๋น ์ฝ๋๋ฅผ 3.8.8 ํ์ด์ฌ ๋ฒ์ ์์ ์ฌ์ฉํ๋ค๊ฐ, 3.7 ๋ฒ์ ์ ์ฟ ๋ค๋ฅผ ์ฌ์ฉํ๊ธฐ ์ํด ๋ฒ์ ์ ๋ฎ์ถฐ์ ์คํํ๋๋ ๊ฐ์ํ๊ฒฝ์ ์ฃผํผํฐ ๋ ธํธ๋ถ์ด ์์ด์ ์๋กญ๊ฒ ๊น์์ผํ๋ค๊ณ ํ๋๋ฐ, ๋ค์๊ณผ ๊ฐ์ ์๋ฌ๊ฐ ๋ฐ์ํ์๋ค. ํด๊ฒฐ๋ฐฉ๋ฒ ํด๊ฒฐ๋ฐฉ๋ฒ conda install ipykernel --update-deps --force-reinstall ์ด๋ ์ฝ๋๋ฅผ ํฐ๋ฏธ๋์์ ์คํ์์ผ์ค๋ค. ๊ทธ๋ฌ๋ฉด ๋ค์์ฝ๋๊ฐ ๋ฌ๋ค. ## Package Plan ## environment location..
RNN ๊ตฌ์กฐ ์ตํ๊ธฐ
1. ๋ช ๊ฐ์ ๋จ์ด๋ฅผ ํตํด์ RNN ๊ตฌ์กฐ๋ฅผ ์ตํ๋ณด์¶ In [1]: import numpy as np import pandas as pd import matplotlib.pyplot as plt ๋ฐ์ดํฐ์ ๊ตฌ์ถํ๊ธฐ¶ ๊ธ์ ํ๋ํ๋ ๋จ์๋ก RNN ์ฌ์ฉํด๋ณด๊ธฐ hello, apple, hobby, daddy, bobby In [2]: # ๋ฌธ์ ๋ฐ์ดํฐ : hell , appl, hobb, dadd, bobb # ์ด 4๋ฒ ์ํํ๋ ๋จ๊ณ๋ก ์งํ๋จ # ์ ๋ต ๋ฐ์ดํฐ : o, e, y, y # timestamps = 4 ์ ํซ ์ธ์ฝ๋ฉ์ผ๋ก ๋ฌธ์๋ฅผ ์ซ์๋ก ๋ณ๊ฒฝ¶ ๋ฌธ์ + ์ ๋ต ์ ์ฒด ๋ฐ์ดํฐ์์ ๋ฑ์ฅํ๋ ๋ฌธ์ ๋ h,e,l,o,a,p,b,y,d ์ด 9๊ฐ In [26]: a = ['hello', 'apple&#..
vscode์์ rtx 2060super ์จ๋จน์ด๋ณด๊ธฐ (feat.gpu cuda๋ฅผ ์ข์จ๋ณด์)
์ฌ๋ด ๋.. ๊ทธ๋์..gpu๋ฅผ ํ์ฐ๊ณ ์์๋ค. cpu๋ง ์ฐ๊ณ ์์๋ค๋. ์ข์ ์ปดํจํฐ๋ฅผ ๋ ๋๊ณ ์ ํ์ฉ์ ์ ๋ชปํ๊ณ ์์๊น... ํํ์ค๋ฝ๋ค. ๊ทธ๋๋ ์ง๊ธ์ด๋ผ๋ ์์์ผ๋ ์ผ๋ง๋ ๋คํ์ด๋ด. ๊ฐ์ฅ ์ค์ํ ๊ฒ์ ๊ธ ๋ง์ง๋ง ํ๋จ์ ์ค์น๋ฒ์ ์ฐธ์กฐํ ๊ฒ! ํ๋ํด์ ๋ณด๋ฉด, True๋ผ๊ณ ๋์ค๋ฉด์ ์ง์์ด ๋๋ ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง, ์ค์์ ์๋๋ค. ์ฌ์ฉํ ๋ช ๋ น์ด ๋ชฉ๋ก import tensorflow as tf tf.__version__ # ์ค์น๋ tensorflow ๋ฒ์ ํ์ธ tf.test.is_built_with_cuda() # ์ฟ ๋ค๋ก ๋น๋๋์๋์ง ํ์ธ tf.test.is_built_with_gpu_support() # cuda์ ๊ฐ์ gpu๋ก ๋น๋๋์๋์ง ํ์ธ tf.test.gpu_device_name() # ์ฌ์ฉ ๊ฐ๋ฅํ gp..
crawling parrel processing
this is completed with just one virtual env. Not taking too much cpu memories
[๋ฐฑ์ค]10798. ์ธ๋ก์ฐ๊ธฐ
์ด ๋ค์ฏ์ค์ ์ ๋ ฅ์ด ์ฃผ์ด์ง๋ค. ๊ฐ ์ค์๋ ์ต์ 1๊ฐ, ์ต๋ 15๊ฐ์ ๊ธ์๋ค์ด ๋น์นธ ์์ด ์ฐ์์ผ๋ก ์ฃผ์ด์ง๋ค. ์ฃผ์ด์ง๋ ๊ธ์๋ ์์ด ๋๋ฌธ์ ‘A’๋ถํฐ ‘Z’, ์์ด ์๋ฌธ์ ‘a’๋ถํฐ ‘z’, ์ซ์ ‘0’๋ถํฐ ‘9’ ์ค ํ๋์ด๋ค. ๊ฐ ์ค์ ์์๊ณผ ๋ง์ง๋ง์ ๋น์นธ์ ์๋ค. In [1]: # ์ธ๋ก ์ฝ๊ธฐ space = [] for row in range(5): row = [0] * 15 space.append(row) space Out[1]: [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, ..