ํฌ๋กค๋งํ ๋ฐ์ดํฐ๋ฅผ ๋ฆฌ์คํธ ํํ๋ก ๋ฐํํด์ ๋ฆฌ์คํธ๋ก ์ด์ด๋ถ์ด๊ณ ์์๋๋ฐ, ์๊พธ๋ง ๋ฐ์ดํฐํ๋ ์ ํ์ฑํด์ ์คํจ ์ค๋ฅ๊ฐ ์๊ฒผ๋ค.
์๊ณ ๋ณด๋ ์ด์ค ๋ฆฌ์คํธ๊ฐ ํ์ฑ๋์ด์ ๋ฐ์ดํฐํ๋ ์์ ํ์ฑํ์ง ๋ชปํ๊ณ ์์๋ ๊ฒ์ด์๋ค.
์ฆ, ์ด์ค ๋ฆฌ์คํธ๋ก ๋ฐ์ดํฐ๋ฅผ ์ด์ด๋ถ์ด์ง๋ง๊ณ , ๋ฆฌ์คํธ ํํ๋ก ์์ฑํ ํ์ for๋ฌธ์์ ๋ฐ๋ก df์ผ๋ก ๋ง๋ค์ด์ ํ๋จ์ผ๋ก ๋๊ธ ๋ฐ์ดํฐ๋ค์ ์ญ ์ด์ด์ ๋ถ์ด๋ ํํ๋ก ๋ง๋ค์ด์ผํจ์ ์์๋ค.
def getCom(driver):
#์ ๋ชฉ, ์กฐํ์, ๋๊ธ ๊ฐ์ ธ์ค๊ธฐ
html = driver.page_source
soup = BeautifulSoup(html,'html.parser')
comments = []
try:
# ํค์๋, ํด๋น ๋๊ธ ์ ์ฒด ํฌ๋กค๋ง 5 - table 2
comm = soup.select('div#content div.comment_view p')
for i in comm:
comments.append(i.text.strip().replace('์ฒซ๋๊ธ','').replace('๋น๋ฐ๊ธ','').replace('์ญ์ ๋ ๋๊ธ ์
๋๋ค.','').strip())
comment_df = pd.DataFrame({'comment' : comments})
print('ํค์๋์ ๋ฐ๋ฅธ ๋๊ธ ์ ์ฒด ํฌ๋กค๋ง ์ฑ๊ณต : Table2')
except:
print('ํค์๋์ ๋ฐ๋ฅธ ๋๊ธ ์ ์ฒด ํฌ๋กค๋ง ์คํจ : Table2')
pass
return comment_df
์ฆ ๋ค์๊ณผ ๊ฐ์ด dataframe ์ผ๋ก ๋ฐํํด์
์ด๋ ๊ฒ df์ผ๋ก ๊ณ์ ๋ณํฉํด์,
# csv ๋ก ๋ง๋ค๊ธฐ
try:
table1.to_csv(directory_table1,index=False, encoding='utf-8-sig')
table2.to_csv(directory_table2,index=False, encoding='utf-8-sig')
print('ํ
์ด๋ธ csv๋ก ์ ์ฅํ๊ธฐ ์ฑ๊ณต')
except:
print('ํ
์ด๋ธ csv๋ก ๋ง๋ค๊ธฐ ์คํจ')
pass
๋ค์๊ณผ ๊ฐ์ด csv ํํ๋ก ์ ์ฅํ๋, ์๊ฐ์ด ์ง๋ ๋๋ง๋ค ๊ณ์ ์ถ์ ๋ ๋ด์ฉ์ csv ํํ๋ก ํ์ธํ ์ ์์ด์ ์ข๊ณ , ์ค๊ฐ์ ์๋ฌ๊ฐ ๋ฌ๋คํด๋ ๊ทธ ๋ถ๋ถ๋ถํฐ ๋ค์ ๋๋ฒ๊น ์ ํด๋ ๋๋ ํ์ฌ ํจ์จ์ ์ด๋ค.
ํด๊ฒฐ์๋ฃ
'๐๏ธ์ํํธ์จ์ด > ๐ปpython' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
If using all scalar values, you must pass an index ์๋ฌ, ํด๊ฒฐ (0) | 2021.12.04 |
---|---|
VScode ์์ Jupyter notebook์ ํ๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ KoNLy ์ ํํ์ ๋ถ์๊ธฐ McCab ์ธํ ํ๊ธฐ(์ค์น) (0) | 2021.12.04 |
nltk pos_tag ์ข ๋ฅ (0) | 2021.12.04 |
python ๊ฐ์ํ๊ฒฝ ์ค์น์ค์ vscode ์๋ฌ : Kernel process Exited (0) | 2021.12.04 |
RNN ๊ตฌ์กฐ ์ตํ๊ธฐ (0) | 2021.12.03 |