λ°μν
#νΉμ λ¬Έμ
. ν κ°μ μμμ λ¬Έμλ₯Ό λνλ
λλ€. (μ€λ°κΏ λ¬ΈμμΈ \nλ μ μΈ)
? μμ λ¬Έμκ° μ‘΄μ¬ν μλ μκ³ , μ‘΄μ¬νμ§ μμ μλ μμ΅λλ€. (λ¬Έμκ° 0κ° λλ 1κ°)
* μμ λ¬Έμκ° λ¬΄νκ°λ‘ μ‘΄μ¬ν μλ μκ³ , μ‘΄μ¬νμ§ μμ μλ μμ΅λλ€. (λ¬Έμκ° 0κ° μ΄μ)
+ μμ λ¬Έμκ° μ΅μ ν κ° μ΄μ μ‘΄μ¬ν©λλ€. (λ¬Έμκ° 1κ° μ΄μ)
^ λ€μ λ¬Έμλ‘ λ¬Έμμ΄μ΄ μμλ©λλ€.
$ μμ λ¬Έμλ‘ λ¬Έμμ΄μ΄ λλ©λλ€.
{μ«μ} μ«μλ§νΌ λ°λ³΅ν©λλ€.
{μ«μ1, μ«μ2} μ«μ1 μ΄μ μ«μ2 μ΄νλ§νΌ λ°λ³΅ν©λλ€. ?, *, +λ₯Ό μ΄κ²μΌλ‘ λ체ν μ μμ΅λλ€.
{μ«μ,} μ«μ μ΄μλ§νΌ λ°λ³΅ν©λλ€.
[ ] λκ΄νΈ μμ λ¬Έμλ€ μ€ ν κ°μ λ¬Έμμ 맀μΉν©λλ€. [amk]λΌκ³ νλ€λ©΄ a λλ m λλ k μ€ νλλΌλ μ‘΄μ¬νλ©΄ 맀μΉλ₯Ό μλ―Έν©λλ€. [a-z]μ κ°μ΄ λ²μλ₯Ό μ§μ ν μλ μμ΅λλ€. [a-zA-Z]λ μνλ²³ μ 체λ₯Ό μλ―Ένλ λ²μμ΄λ©°, λ¬Έμμ΄μ μνλ²³μ΄ μ‘΄μ¬νλ©΄ 맀μΉλ₯Ό μλ―Έν©λλ€.
[^λ¬Έμ] ν΄λΉ λ¬Έμλ₯Ό μ μΈν λ¬Έμλ₯Ό 맀μΉν©λλ€.
l AlBμ κ°μ΄ μ°μ΄λ©° A λλ Bμ μλ―Έλ₯Ό κ°μ§λλ€.
μ κ· ννμ λ¬Έλ²μλ μ μ¬λμ¬(\)λ₯Ό μ΄μ©νμ¬ μμ£Ό μ°μ΄λ λ¬Έμ κ·μΉλ€μ΄ μμ΅λλ€.
#λ¬Έμ κ·μΉ
\ μ μ¬λμ¬ λ¬Έμ μ체λ₯Ό μλ―Έν©λλ€
\d λͺ¨λ μ«μλ₯Ό μλ―Έν©λλ€. [0-9]μ μλ―Έκ° λμΌν©λλ€.
\D μ«μλ₯Ό μ μΈν λͺ¨λ λ¬Έμλ₯Ό μλ―Έν©λλ€. [^0-9]μ μλ―Έκ° λμΌν©λλ€.
\s 곡백μ μλ―Έν©λλ€. [ \t\n\r\f\v]μ μλ―Έκ° λμΌν©λλ€.
\S 곡백μ μ μΈν λ¬Έμλ₯Ό μλ―Έν©λλ€. [^ \t\n\r\f\v]μ μλ―Έκ° λμΌν©λλ€.
\w λ¬Έμ λλ μ«μλ₯Ό μλ―Έν©λλ€. [a-zA-Z0-9]μ μλ―Έκ° λμΌν©λλ€.
\W λ¬Έμ λλ μ«μκ° μλ λ¬Έμλ₯Ό μλ―Έν©λλ€. [^a-zA-Z0-9]μ μλ―Έκ° λμΌν©λλ€.
μ¬μ©νλ λ°©λ²
[^python] python μ΄λΌλ λ¨μ΄λ₯Ό μ μΈνκ³ νκ°
[0-9] μ«μ 0λΆν° 9μ€μ νκ°λ§ μμ λ
[0-9]+ μ«μ 0λΆν° 9μ€μ νκ°μ΄μ
(\D\d)+ μ΄κ²μ΄ λ°λ³΅μ μΌλ‘ μμ λ ( ) μ¬μ©
μ¬μ© μ
38 μμΌ μΊμ€νΌ 리뷰 μμμ€μ μ μΌ μ λ¬Έμ μΈ λλπ€© 17
39 MinChul Kim 1μΈ μΊ νΌλ€μ μ΄κ°μ±λΉμΉ΄κ° λκ² λ€μ\nκ·Όλ° κ²½μ°¨λ‘ μ₯거리λ 무μμ΄λ° ... μ΄μ¨λ \... 0
40 Yung9000 μ΄κ±Έ μ κΈ°μ°¨λ‘ λ§λ€κ³ 보λ νλΆλ₯Ό μ μ¬κ³΅κ°μΌλ‘ λ§λ€λ©΄ μ΄λλ°μΌ ν
λ°... 14
41 Ahn James μ μ§ μ΄μ§ λλλ‘λ² λμμΈμ΄ μ΄μ§ λΉμ·νκ² λ
Ήμ¬μ Έμλ λΆλΆλ€μ΄ κ·μ½κ³ λ§μλλ€μ γ
γ
2
42 μ΄μ±λ μμΈ(λμμΈ) + λ² λ΄(μ¬μ΄μ¦) = λλμ μΈ λλ 26
43 μΊλλ λμμΈ μ’λ€μ^^ 6
44 ν΄λ½ 5λ
λ μ΄ν°λ³΄νλ€κ° 3λ² μ¬κ³ λμ νκ°μ νκ³ λ² λ΄λ‘ ꡬμ
νλλ° μμ
μ°¨λ‘ κ³¨λͺ©μ£Όμ°¨λ₯Ό... 2
45 1 2 μΌλ¨ λΆν°λκ² ν릴 건 νμ€νκ³ λ μ΄λ νΉλ³ν μ΄μ μμΌλ©΄ λλ¦μ μμ΄λ₯Ό νκ³ νκ² ... 93
46 μ€νμ΄ κ·Όλ° μ§μ§ νκΈ°λ λ€μνκ² λ§μ‘±λλ₯Ό λλμμκ» λ§λλκ±° κ°μ... 1
47 GD KIM κ²½μ°¨ν¬κΈ°λ₯Ό μ’μνλλ° λκ°λ μ€μ©μ±μκ³ λ§μ λλλ― 1
48 λ΄λ μμ½μ€λͺ¨μ€ κ²½μ°¨μ΄ λμ μ‘°κΈλ§ λ μΉμ΄μ μΊμ€νΌ μ¬λ κ²λ λμμ§ μκ² λ€. κ°μΈμ μΌλ‘λ λμμΈ... 0
49 I’mλ© μμ¦ μλμ μ λ§λ μ°¨ κ°λ€μ 0
50 λ¬λΉλλ¨Έ μΊμ€νΌ μ λ§ μ λ§λ€μλ€. λ μ΄ λͺ¨λ μ¬λ €λ μ¬λλ€ λ€ λμμκ² λλ°. 47
51 λ°μ°¬ μ΅μ
λ λΆμ‘±ν λ°΄μΈ λ₯Ό μ λ
μΆμ²ν΄μ(μ΅μ
ν¬ν¨λλ©΄ λͺμ²μΆκ°) μ΄μμ§λ μμλ°... κ°... 1
52 μ΅μμ§ λ μ΄λ κ·Έλλ, κ·Έ μ€μ©μ±μ κ·Ήλννλ©΄μ λμ¨ λμμΈμ΄ μ€νμΌλ¦¬μν μμ΄λ΄ν°ν°κ° λ... 92
53 hans Yoo κ°κ²©μ΄ λ§μ μμλ₯Ό λΆλ₯Όλ§νΌ 맀λ ₯μμ§λ μμλ― ν©λλ€. μ΄ μ°¨μ μμ°μ λ΄λΉνλ κ΄... 0
λ°μ΄ν° μ μ²λ¦¬ μ
0 μΊμ€νΌ 리뷰 μμμ€μ μ μΌ μ λ¬Έμ μΈ λλ
1 μΈ μΊ νΌλ€μ μ΄κ°μ±λΉμΉ΄κ° λκ² λ€μκ·Όλ° κ²½μ°¨λ‘ μ₯거리λ 무μμ΄λ° μ΄μ¨λ κ²½μ°¨μ΄κΈ° λλ¬Έ...
2 μ΄κ±Έ μ κΈ°μ°¨λ‘ λ§λ€κ³ 보λ νλΆλ₯Ό μ μ¬κ³΅κ°μΌλ‘ λ§λ€λ©΄ μ΄λλ°μΌ ν
λ°
3 μ μ§ μ΄μ§ λλλ‘λ² λμμΈμ΄ μ΄μ§ λΉμ·νκ² λ
Ήμ¬μ Έμλ λΆλΆλ€μ΄ κ·μ½κ³ λ§μλλ€μ
4 μμΈλμμΈ λ² λ΄μ¬μ΄μ¦ λλμ μΈ λλ
5 λμμΈ μ’λ€μ
6 λ
λ μ΄ν°λ³΄νλ€κ° λ² μ¬κ³ λμ νκ°μ νκ³ λ² λ΄λ‘ ꡬμ
νλλ° μμ
μ°¨λ‘ κ³¨λͺ©μ£Όμ°¨λ₯Ό ν...
7 μΌλ¨ λΆν°λκ² ν릴 건 νμ€νκ³ λ μ΄λ νΉλ³ν μ΄μ μμΌλ©΄ λλ¦μ μμ΄λ₯Ό νκ³ νκ² ...
8 κ·Όλ° μ§μ§ νκΈ°λ λ€μνκ² λ§μ‘±λλ₯Ό λλμμκ» λ§λλκ±° κ°μ
9 κ²½μ°¨ν¬κΈ°λ₯Ό μ’μνλλ° λκ°λ μ€μ©μ±μκ³ λ§μ λλλ―
10 κ²½μ°¨μ΄ λμ μ‘°κΈλ§ λ μΉμ΄μ μΊμ€νΌ μ¬λ κ²λ λμμ§ μκ² λ€ κ°μΈμ μΌλ‘λ λμμΈμ...
11 μμ¦ μλμ μ λ§λ μ°¨ κ°λ€μ
12 μΊμ€νΌ μ λ§ μ λ§λ€μλ€ λ μ΄ λͺ¨λ μ¬λ €λ μ¬λλ€ λ€ λμμκ² λλ°
13 μ΅μ
λ λΆμ‘±ν λ°΄μΈ λ₯Ό μ λ
μΆμ²ν΄μμ΅μ
ν¬ν¨λλ©΄ λͺμ²μΆκ° μ΄μμ§λ μμλ° κ°νΉ ν¬μΈνΈ...
14 λ μ΄λ κ·Έλλ κ·Έ μ€μ©μ±μ κ·Ήλννλ©΄μ λμ¨ λμμΈμ΄ μ€νμΌλ¦¬μν μμ΄λ΄ν°ν°κ° λ ...
15 κ°κ²©μ΄ λ§μ μμλ₯Ό λΆλ₯Όλ§νΌ 맀λ ₯μμ§λ μμλ― ν©λλ€ μ΄ μ°¨μ μμ°μ λ΄λΉνλ κ΄μ£Ό...
λ°μ΄ν° μ μ²λ¦¬ ν
μ½λ
import re
re_list = []
for value in reviews:
# μ κ·μ(μΌλ° λ¬Έμμ΄ νμ
)
review_text = re.sub("[;0-9γ±-γ
γ
-γ
’+\()/^!%β»\xa0=~:\n\.{2,}]+","",value)
# μ΄λͺ¨ν°μ½ μ κ±° - compile μ΄μ©
only_BMP_pattern = re.compile("["
u"\U00010000-\U0010FFFF" #BMP characters μ΄μΈ
"]+", flags=re.UNICODE)
review_text = re.sub(only_BMP_pattern, '', review_text)# BMP charactersλ§
# print(review_text)
# νΉμ μ΄λͺ¨ν°μ½μ μ κ±° μλ¨ : β€οΈ
re_list.append(review_text)
print(len(re_list), len(reviews))
ν€μλ
νμ΄μ¬
νμ΄μ λ°μ΄ν° μ μ²λ¦¬
νμ΄μ¬ re.sub
νμ΄μ¬ νΉμλΆνΈ μ κ±°
νμ΄μ λ±λ§ μ κ±°
λ°μν
'ποΈμννΈμ¨μ΄ > π»python' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
[vscode] λ€μ€ 컀μ μ΄μ©νκΈ° (0) | 2021.12.28 |
---|---|
λ₯λ¬λ κ°μ±λΆμ ν΄λ³΄κΈ°(λΉμ§λνμ΅) (0) | 2021.12.07 |
nltk λΌμ΄λΈλ¬λ¦¬ (0) | 2021.12.06 |
python matplotlib νκΈ κΉ¨μ§ (0) | 2021.12.05 |
νκ΅μ΄ NLP μννκΈ°μ κ³Όμ (0) | 2021.12.04 |