분류 전체보기
후쿠오카 신이치, 「동적평형」- 우향 상승 곡선이라는 것은 우리의 단순한 환상
2014. 11. 26.인풋과 아웃풋의 관계가 단순한 비례관계, 즉 우향 상승 곡선이라는 것은 우리의 단순한 환상에 지나지 않는다. 생명현상을 포함한 대부분 비례관계=선형성이 아니다. 비선형인 것이다. 자연계의 인풋과 아웃풋의 관계는 대부분 S자를 좌우로 늘여놓은 것 같은 시그모이드(Sigmoid) 곡선이라는 비선형성을 취한다. 비선형성은 음악을 들을 때 볼륨 다이얼을 돌리는 것(인풋)과 나오는 소리(아웃풋)의 관계를 생각해보면 쉽게 익힐 수 있다. 볼륨 다이얼을 계속 오른쪽으로 돌리면 소리는 더 커져야 하는데 그만큼 크게 들리지 않는다. 즉, 처음에는 인풋에 대한 아웃풋의 응답성이 둔하다. 그런데 볼륨다이얼이 어느 위치를 지나면 갑자기 천둥소리처럼 커진다. 하지만 볼륨다이얼을 극도로 많이 들린 위치에서는 더 이상 다이얼을 돌..
13. 상관관계 그래프로 보여주기 Correlations Plots
2014. 11. 26.Rgraphviz 는 corpus 내 선택된 단어들간의 상관관계를 네트워크 그래프로 보여주는 기능을 한다. 아래는 10번 이상 언급된 단어들 중 상관관계가 0.5 이상인 5개의 단어들 간의 관계를 보여주는 그래프이다. 상관도라든지 빈도 등의 옵션이 주어지지 않았을 때 기본값은 20번 이상 언급, 그리고 0.7 의 상관도이다. > plot(dtm, terms=findFreqTerms(dtm, lowfreq=10)[1:5], corThreshold=0.5)Loading required package: RgraphvizLoading required package: graphLoading required package: grid
12. 등장빈도 및 단어간 상관도에 의거한 term 조회 Identifying Frequent Items and Associations
2014. 11. 25.등장빈도에 따른 term 조회는 findFreqTerms()를 이용한다. > findFreqTerms(dtm,lowfreq=1000) // 최소 1,000번 이상 등장한 term, 없다.character(0)> findFreqTerms(dtm,lowfreq=10) // 10번 이상 나온 term [1] "about" "all" "and" "but" "draft" "have" "that" "the" "this" [10] "will" "you" We can also nd associations with a word, specifying a correlation limit.특정 단어와의 상관도를 기준으로한 조회도 가능하다. findAssocs() 를 이용하는 것으로, 두 단어가 항상 같이 등장하면 그 값은 1..
11. Removing Sparse Terms
2014. 11. 25.sparse는 0 또는 등장하지 않는 term 이 얼마나 많은지를 의미하는 것으로, 수많은 0 으로 이루어진 행렬의 경우 알고리즘이 불필요한 수행으로 쓸데없는 시간을 낭비하게 만든다. 이런 경우 sparse term을 제거함으로써 효율적인 데이터 분석을 할 수 있다. removeSparseTerms() 을 이용하여 sparse term 을 제거할 수 있으며, 필요한 것은 얼마만큼의 행을 지워버릴 것인가이다. 현상태에서 보면 sparsity = 90% 이며, 의미있는 actual data values ("non-sparse entities") 는 547개이다. 먼저 sparse 를 70 으로 한 경우는 다음과 같다. > dtm.common.70 inspect(dtm.common.70)해당 corpus 내에..
리눅스 방화벽 설정 iptables
2014. 11. 25.1. 변경내용 적용방법iptables 파일은 아래에서 보시다시피 /etc/sysconfig 에 위치한다. 직접 수정후 업로딩하거나 아래와 같이 콘솔상에서 직접 편집한다. #cd /etc/sysconfig/#vi iptables#service iptables restart#/etc/init.d/iptables save2. 도입부# Firewall configuration written by lokkit# Manual customization of this file is not recommended.# Note: ifup-post will punch the current nameservers through the# firewall; such entries will *not* be listed here.*fi..
ftp 프로그램 파일질라 FileZilla 편집기 설정변경방법
2014. 11. 25.ftp 프로그램 파일질라 FileZilla 편집기 설정변경방법 기본설정과 편집하려는 파일 유형에 따라서는 아래와 같이 보기 불편한 뷰를 선보이는 경우가 있다. 파일 유형에 따라 편집기를 달리 설정하거나 아니면 쓸만한 놈으로 기본편집기를 설정해보자. [편집] - [설정] - [파일편집] 으로 이동하여 아래와 같이 '사용자 편집기 사용'을 체크한 후 찾아보기를 통해 기본 편집기를 선택한다. 여기서는 eclipse 를 사용하기로 한다. 해당 실행파일을 선택한 후 아래 메뉴에서 '항상 기본 편집기 사용'에 체크한 후 [확인]을 누른다. 아래와 같이 이클립스에서 해당 파일이 열리는 것을 볼 수 있다. [파일편집] 서브메뉴인 [파일유형연결]을 통해서는 확장자별로 편집프로그램을 달리 가져갈 수도 있다.텍스트박스에 직..
10. 행렬로 전환하여 CSV 포맷으로 저장하기 Conversion to Matrix and Save to CSV
2014. 11. 22.Document-term matrix 를 다른 툴에서 활용할 수 있도록 CSV 파일로 저장하기 위해 단순 행렬로 변환할 수 있다. 아래와 같은 방법으로 행렬 변환이 가능하다.> m dim(m)[1] 10 531R의 계산한계를 넘어서는 경우에는 아래와 같은 에러 메시지가 출력된다.## Error in vector(typeof(x$v), nr * nc) : vector size cannot be NA## In addition: Warning message:## In nr * nc : NAs produced by integer overflow이런 경우에는 밀도가 희박한 term 을 제거하는 것을 고려해볼 필요가 있다. 일단 표준 행렬로 변환되고 나면, write.csv() 를 이용하여 파일로 저장할 수 있다...
09. term의 출현빈도에 대한 분포 구하기 Distribution of Term Frequencies
2014. 11. 22.앞에서 살펴본 term의 출현 빈도에 대한 분포를 구한다 > head(table(freq),15) // Frequency of frequenciesfreq 1 2 3 4 5 6 7 8 9 10 11 13 15 27 51 // 그러니깐 1번 나오는 용어가 362개, 2번 나오는 용어가 82개와 같은 식362 82 31 16 8 11 6 3 1 2 2 1 2 1 1 > tail(table(freq),15)freq 3 4 5 6 7 8 9 10 11 13 15 27 51 56 71 // 71번 나오는 용어는 1개와 같은 식31 16 8 11 6 3 1 2 2 1 2 1 1 1 1 >
08. Exploring the Document Term Matrix
2014. 11. 22.Document-term matrix 를 행렬로 변환하고, 컬럼끼리 값을 합하여 출현빈도를 구할 수 있다.> freq length(freq)[1] 531위의 freq 를 정렬함으로써, 출현 빈도가 가장 높은 term과 가장 낮은 term을 구할 수 있다. > ord freq[head(ord)] // # Least frequent terms (sample @coordinator @delighted @she @two 10,000. 1 1 1 1 1 1 > freq[tail(ord)] // # most frequent termshave will you that and the 15 15 27 51 56 71 > freq[tail(ord,10)] // 갯수 지정도 가능 all but draft this have ..
07. Document-Term행렬 만들기 Creating a Document-Term Matrix
2014. 11. 22.Document-term matrix 란 문서를 행으로, 그리고 용어를 열로 가지는 행렬로, 해당 문서의 해당 용어의 출현빈도를 카운팅해서 알려준다. DocumentTermMatrix() 를 이용하여 해당 행렬을 만들 수 있다. 예를 들면, 다음과 같다. D1 = "I like databases"D2 = "I hate databases",then the document-term matrix would be:IlikehatedatabasesD11101D21011 [출처] http://en.wikipedia.org/wiki/Document-term_matrix아래와 같이 실행해보면 총 10개의 문서에, 503개의 용어가 사용되고 있음을 알 수 있다. > dtm dtmNon-/sparse entries: 51..
06. Stemming 어간추출
2014. 11. 22.Stemming 어간추출 예를 들면, "es", "ed", "s" 와 같은 common word endings english 을 제거하는 알고리즘을 이용한다. SnowballC 패키지의 wordStem() 의 기능을 이용한다(Bouchet-Valat, 2014) 많은 경우에 데이터 분석을 위해 어간을 추출할 필요가 있다. 예를 들어, "example" 과 "examples" 은 동일한 "exampl" 에서 비롯되었다고 할 수 있기 때문이다. 아래 결과를 통해 추출전과 추출후를 비교해보자. > doc[[3]]STRICKLAND: All right. So it will be prior to August 14th or whatever date it is.> doc[[6]]STRICKLAND: Way prior..
05. Preparing the Corpus - 특정 변환
2014. 11. 22.Specific Transformations 의 예 > toString inspect(doc[6]) [[1]]clewell yes im coordinator reading language arts montgomery county public schools suburban district surrounding washington schools elementary schools > doc inspect(doc[6]) [[1]]clewell yes im coordinator reading language arts montgomery county public schools suburban district surrounding WA schools elementary schools
04. Preparing the Corpus - 기본 변환
2014. 11. 22.1. 소문자 변환 Conversion to Lower Case > inspect(doc[2]) [[1]]STRICKLAND: Good morning. > doc inspect(doc[2]) [[1]]strickland: good morning. // G -> g 로 변환되었음을 알 수 있다. 2. 숫자 지우기 Remove Numbers > inspect(doc[6]) [[1]]clewell: yes. i'm the coordinator for reading language arts with the montgomery county public schools which is the suburban district surrounding washington. we have 173 schools and 25 el..
03. Exploring the corpus - 전처리 및 간단한 변환
2014. 11. 21.1. Exploring the Corpusinspect() 를 이용하여 문서의 데이터가 제대로 로딩되었는지 확인이 가능하다. > inspect(docs[2]) [[1]]NULL2. Preparing the Corpus텍스트 분석을 위해서 경우에 따라서는 전처리 과정이 필요할 수 있다. 아래에서 보듯이 대상 텍스트를 소문자로 변환시키고, 숫자를 제거하는 등의 기능을 갖고 있음을 확인할 수 있다. > getTransformations()## [1] "removeNumbers" "removePunctuation" "removeWords"## [4] "stemDocument" "stripWhitespace"변환을 위해서는 tm_map() 을 사용한다. 아래에서 살펴본다. 3. Simple Transforms 아..
시마다 마사히코 원작 일드「악화 惡貨」, 11/23 1화 방영
2014. 11. 21.기대되는 드라마, 악화 11/23 1화가 방영됩니다. 원작 만큼의 재미 기대해도 좋겠죠? 노노미야와 에리카 어서 만나보고 싶네요. http://www.wowow.co.jp/dramaw/akka/ "... 사람들이 모두 돈의 힘은 만능이라고 믿어버리기 때문에 아무리 시간이 흘러도 가난한 사람은 가난한 채로 살고 부자는 점점 더 부자가 되는 거에요."
오쿠다 히데오, 「공중그네」- 성격이란 기득권이야
2014. 11. 21."성격이란 기득권이야. 저놈은 어쩔 수 없다고 손들게 만들면 이기게 되는거지" "인생 길지 않다. 지금 당장 내뱉어야 할 걸 쏟아내지 못하면." 뭐니뭐니해도 이라부 병원을 가지 않을 수 없는 이유는 'F컵의 간호사' 마유미짱! - 제131회 나오키상 수상작, 오쿠다 히데오, 「공중그네」 공중그네 국내도서 저자 : 오쿠다 히데오(Hideo Okuda) / 이영미역 출판 : 은행나무 2005.01.15상세보기
02. Loading a Corpus (txt, pdf, word)
2014. 11. 18.1. Corpus 로딩분석의 대상이 되는 문서의 포맷은 다양하지만, 우리가 앞으로 사용하게 될 tm 패키지는 꽤 많은 포맷을 지원한다. text, PDF, Microsoft Word, XML.의 포맷을 포함한다. 2. Corpus Sources and Readers1) sources> getSources()[1] "DataframeSource" "DirSource" "URISource" "VectorSource" "XMLSource" 2) readers - 텍스트 분석 결과는 다음의 포맷 등으로 표현가능하다> getReaders()[1] "readDOC" "readPDF" "readPlain" "readRCV1" [5] "readRCV1asPlain" "readReut21578XML" "readReut2..
후쿠오카 신이치, 「동적평형」- 왜 뇌가 전기라는 귀찮을 것 같은 방법을 채택했는가
2014. 11. 18.새로운 신경회로가 형성된다는 말은 구체적으로 설명하면 신경과 신경이 촉수를 뻗어 접점이 생기고, 거기에 반복적으로 전류가 흘러 자극이 강화됨으로써 그 접점이 보다 견고해지는 것을 말한다. 이 접점을 시냅스라고 한다. 마이크로적인 차원에서 보면 시냅스는 뉴런과 뉴런이 완전히 붙어있는 상태가 아니라 사이에 아주 작은 틈이 벌어져 있음을 알 수 있다. 한쪽 뉴런에 전기가 통하면 그 신호는 다른 한쪽의 뉴런으로 전달되는데 틈 때문에 전류가 직접 흐르지는 못한다. 틈새 부분에는 한쪽 뉴런에서 방출된 화학물질이 다른 뉴런으로 전해짐으로써 신호가 전달된다. 그것이 다시 전기신호로 변환되어 뉴런을 따라 흐른다. 전기-화학물질-전기, 왜 뇌가 전기라는 귀찮을 것 같은 방법을 채택했는가는 수수께끼로 남아있지만, 중간에서 ..
후쿠오카 신이치, 「동적평형」- 건강환상
2014. 11. 18.음식으로 섭취한 단백질이 몸 어딘가로 전해져 거기서 부족한 단백질을 보충한다는 생각은 참으로 초보자적인 생명관이다. 이는 생명을 작은 부품으로 이루어진 조립식 장난감처럼 생각하는, 어떤 의미에서 본다면 순진하기 그지없는 기계론이기도 하다. 생명은 그런 단순한 기계론을 훌쩍 뛰어넘는 이른바 동적인 효과로서 존재하는 것이다. 이와 같은 구조의 '건강 환상'은 사실 곳곳에 존재한다. 단백질뿐만 아니라 음식물 속에 들어있는 정보는 소화관 내에서 일단 철저하게 분해된다. 관절이 아프다고 해서 주성분인 콘트로이틴유산이나 히알루론산을 섭취한다 한들 입으로 들어간 것이 그대로 직접 몸의 일부가 될 수는 없다. 구성단위로까지 분해되거나 자칫하면 소화도 되지 못하고 배설되고 마는 것이다. 참고로 한 마디만 더하자면, 항간..
호리에 다카후미, 「제로」- 4, 5_일하는 것은 자유로 가는 패스포트
2014. 11. 16.4_자립 끝에 있는 사람들과의 '관계'1) 고통스럽기에 단순하게 생각한다'고민한다'는 것은 사물을 복잡하게 만들어가는 행위다. 한편 '생각한다'는 것은 사물을 간소하게 만드는 행위다. 단순한 과제를 복잡하게 만드는 것은 당신의 마음이며 흔들리는 감정이다 2) 성장사이클로 돌입하라도전 - 리스크를 선택하고 맨 첫걸음을 내딛을 용기노력 - 0에서 1로 가는 착실한 덧셈성공 - 덧셈의 완료 성공하고 싶다면 도전하라. 도전하고 전력으로 달려라. 그 전력 질주를 사람들은 '노력'이라고 말한다. 5_내가 일하는 진짜 이유 1) 감옥안에서도 나는 자유로웠다사고에는 족쇄를 채울 수 없다. 하지만 생각을 멈추면 자신도 깨닫지 못하는 사이에 사고 정지 상태에 빠지고 만다. 그들은 사고력을 상실해버린 만큼 돈이나 권력에 집..
호리에 다카후미, 「제로」-3_돈 때문에 일하는가
2014. 11. 16.3_돈 때문에 일하는가 1) 당신은 무엇을 위해 일하는가인생에서 일은 가장 많은 시간을 투자하는 것 중 하나다. 그것을 인내의 시간으로 만들어버리는 것은 아무리 생각해도 바람직하지 않다. 2) 돈에서 자유로워지기 위해 어떻게 일할 것인가- 먼저 생각할 것은 왜 '복권 1등이 당첨되면 회사를 그만두고 남쪽 섬에서 느긋하게 살고 싶다'는 발상이 나오는가 하는 점이다. 대답은 분명하다. 대부분의 사람들은 자신의 '노동'을 돈으로 바꾸는 것이 아니라 거기에 소모되는 '시간'을 돈으로 바꾸고 있기 때문이다. 만일 시간이 무진장 어딘가에서 솟아나는 것이라면 문제될 게 없다. 마음껏 시간을 희생해도 좋다. 그러나 시간은 유한하다. 개인적인 시간까지희생하면 당연히 일에 구속당하고 돈에 속박당한다는 의식이 강해진다. 이..
호리에 다카후미, 「제로」- 0,1,2_'밖'으로 뛰쳐나와라!
2014. 11. 16.0_그래도 일하고 싶다 1) 지금 '일한다'는 것에 대해 생각한다당신은 현재 '제로'인 백지상태에 있다는 것을 염두에 두어야 한다. 제로에 어떤 수를 곱해도 우리가 얻을 수 있는 것은 제로 밖에 없다. 따라서 어떤 일을 하기 위해 우리가 출발선 위에 설 때는 '곱셈'이 아닌 '덧셈'으로 시작해야 한다. 1_일해라! 어머니는 말했다1) 이 곳에서 벗어날 방법은 도쿄대 진학 밖에 없다.더 이상 물러설 수 없는 답답하고 지루한 환경에서 벗어나기 위해 내가 할 수 있는 것은 공부밖에 없었다. 그리고 누구든 수긍할 수 밖에 없는 명백한 결과를 남겨야 했다. 2) 공부는 부모를 설득하는 도구였다2_일을 선택하고 자신을 선택한다1) 일과 인생에 두려움을 느끼는 이유그것은 오로지 '경험'의 문제다. 그리고 경험이란 ..
고도 도키오, 「하루 시간 사고법」- <4장> 정보는 정리한 순간 죽는다
2014. 11. 16.시간을 자산으로 바꿔주는 결정적 습관 1. 시간대비 효과를 중시하라1) 망설이는 시간이 아깝다2) 도중에 그만두는 용기도 필요하다 2. 30대 이후의 공부방법은 다르다 - 아웃풋 사고의 중요성 3. 책 값은 자신을 위한 최고의 투자1) 책 값으로 쓰는 돈은 유효하다 - 나중에 '역시 사자'는 생각이 들어 서점에 가보면 점찍었던 책은 더 이상 눈에 띄지 않기 십상이다.2) 동시에 정반대의 주장이 담긴 책을 읽는다 (카츠마 카즈요도 이 점을 강조했죠. 양 극단의 입장과 중도적인 입장 모두 살펴보라는)3) 접근법이 다른 책을 고른다 - 실증데이터를 근간으로 한 것과 저자의 주장이 중심을 이루는 책을 같이 읽는 식이다 4. 책상은 크게, 서재는 높게혼잡한 책상 위에서 새로운 가치가 태어난다 - 정보가 섞여 화학..
고도 도키오, 「하루 시간 사고법」- <3장> 당신은 '사고정지 상태' 에 빠져있지 않은가?
2014. 11. 16.일 잘하는 사람의 역발상 시간관리 노하우 1. 손해보는 습관을 점검하라당신은 '사고정지 상태' 에 빠져있지 않은가? 2. 책상 위에 하던 일을 펼쳐두고 퇴근하라1) 일을 펼쳐놓은 채 회사를 나오면 문제의식의 안테나가 접히지 않고 선 상태2) 일 도중이라면 문제의식도 지속된다 3. 매일 아침 신문을 읽는 것은 시간 낭비 - 시사적인 정보는 무익하다단순한 사실정보의 수집에 귀중한 아침 시간을 빼앗기지 않는다.매일 아침이 아니라 일주일 치의 신문을 한꺼번에 읽으면 시간의 추이는 물론이고 무슨 사건이 어떤 식으로 해결됐는지, 어떤 보도가 어디에 어떤 영향을 미쳤는지 전모를 파악할 수 있다(일주일치 신문을 30분에 읽는다) 4. 텔레비젼 뉴스를 보는 것은 손해 - 텔레비전 시청은 사고정지 상태를 부른다 하루 시간..
고도 도키오, 「하루 시간 사고법」- <2장> 짜투리 시간은 애초에 만들지 않는다
2014. 11. 16.버리는 시간을 줄이는 것이 시간관리의 절반이다 1. 짜투리 시간은 애초에 만들지 않는다 2. 고민이 지나치면 시간만 낭비하는 꼴낮은 확률을 부풀리지 않는다 - 망상이라는 허깨비를 키우지 마라 3. 완벽보다는 '적당'을 권한다 & 한 가지 일은 세 번에 걸쳐서1) 일단 마지막까지 끝내라. 2) 한 가지 일은 세 번에 걸쳐서 - 일을 세 번에 걸쳐 한다는 생각으로 일정을 짜두면 결과적으로 퀄리티도 속도도 동시에 잡을 수 있다. 의 내용은 아타카 가즈토의 생각과 흡사하네요. 하루 시간 사고법국내도서저자 : 고도 도키오 / 박재현역출판 : 흐름출판 2010.06.07상세보기
고도 도키오, 「하루 시간 사고법」- <1장> 시간의 밀도'는 속도와 퀄리티를 한꺼번에 해결한다.
2014. 11. 16.'짜투리 시간을 당연히 여기는 사람'은 실패를 되풀이 할 수 밖에 없다.당신에게 남아있는 삶의 시간은 얼마인가요? 잠을 줄이지 않고도 시간을 만들 수 있다. 1. 잠자는 시간 꼭 바꿔야 하는가?호리에 다카후미도 말했듯이 '잠은 충분히 잔다. 8시간을 자고 나면 남는 시간은 16시간, 남아있는 시간이 더 적으므로, 더 밀도있게 보낼 수 밖에 없다'고 했다. 저자도 잠을 줄이면 흐리멍텅한 상태로 깨어있어 별 도움이 되지 못하고 오래 지속하지도 못한다고 말한다. 2. 시간을 알차게 쓰려면 환경정비부터1) 주변 환경정비2) 자신을 몰아세운다 - 스즈키 이치로는 '중압감을 느끼는 선수라는 사실이 자랑스럽다'라고 말했다. 중압감이 없는 생활은 누구도 그에 대해 기대하는 바가 없는 그저그런 삶이라는 말과 같다. 3...
후쿠오카 신이치, 「동적평형」- 생명활동이란 아미노산 배열의 헤쳐모여(합성과 분해의 동적인 평형상태가 '살아있다는 것')
2014. 11. 15.소화관은 우리의 피부가 안으로 함몰된 속이 빈 구조체이며 마치 가운데 구멍이 뚫린 어묵과도 같다. 소화관 벽은 일종의 담이며, 소화관 벽을 구성하는 세포는 서로 밀착하여 단백질이 통째로 그곳을 통과할 수 없도록 한다. 즉, 다른 개체의 정보를 보유한 단백질은 신체의 '외부'에만 머무를 수 있다. 그래서 단백질은 아미노산 단위까지 분해되고 아미노산만이 특별한 수송기구에 의해 소화관 벽을 통과해 비로소 '체내'로 들어간다. 체내로 들어간 아미노산은 혈류를 타고 온 몸의 세포로 운반된다.. 그리고 세포로 흡수되어 새로운 단백질로 재합성되며 새로운 정보 = 의미를 만들어낸다. 즉, 생명활동이란 아미노산이라는 알파벳에 의해 끊임없이 되풀이되는 애너그램이라고도 할 수 있을 것이다. 새로운 단백질이 합성되는 한편, ..
후쿠오카 신이치, 「동적평형」- 리틀 브레인
2014. 11. 15.우리는 오로지 자신의 사유는 뇌에 있으며 뇌가 모든 것을 조절하고 뇌는 모든 실제 감각과 환상을 만들어 낸다고 생각하지만 그건 실증된 것이 아니다. 소화관 신경회로망을 리틀 브레인이라 부르는 연구자도 있다. 게다가 그것은 뇌에 비해 절대 작지 않은 대규모 시스템인 것이다. 우리는 어쩌면 소화관으로 느끼고 사고하고 있는지도 모른다. 동적평형 국내도서저자 : 후쿠오카 신이치 / 김소연역출판 : 은행나무 2010.03.24상세보기
후쿠오카 신이치, 「동적평형」- 정보를 내포하고 있는 음식(소화라는 기능의 본질)
2014. 11. 15.우리가 음식으로 섭취하는 것은 고기든 곡물이든 과실이든, 모두 그 근원은 다른 생물의 몸의 일부였던 것이다. 왜 우리는 다른 생명을 빼았으면서까지 단백질을 섭취해야 하는 것일까? 단백질에는 원래의 생명체를 구성하고 있던 당시의 정보가 꽉 들어차 있다. 여기서 말하는 정보란 구체적으로 말하면 단백질의 구조를 뜻한다. 이 단백질의 구조 정보가 생명의 기능을 지탱해준다. 단백질이란 아미노산의 결합으로 이루어진 고분자 화합물이다. 생체를 구성하는 아미노산은 20종이며, 그 조합이 '정보'가 된다. 때문에 단백질은 수천만 종이 존재하는 것으로 알려져 있다. 그렇다면 단백질의 섭취, 즉 '소화'란 대체 무엇을 의미하는가? 고기나 식물에 함유되어 있는 단백질은 입속에서 잘게 씹히고 부서져 소화관으로 보내지며 소화효소..
01. 텍스트마이닝(Text Mining)을 위한 패키지 준비
2014. 11. 14.본격적인 텍스트 마이닝에 앞서 아래 패키지들이 설치되어 있는지 먼저 확인한다. 설치되어 있지 않으면 install.packages("tm") 과 같은 식으로 설치한 후 아래와 같이 실행한다. > library("tm") > library("SnowballC") > library("RColorBrewer") > library("ggplot2") > library("Rgraphviz")> install.packages("Rgraphviz")Installing package into ‘C:/Users/fukaeri/Documents/R/win-library/3.1’(as ‘lib’ is unspecified)Warning in install.packages : package ‘Rgraphviz’ is not ..