코퍼스는 (말뭉치) 무엇인가 ?

간단히 말해, 코퍼스의 의미는 모음입니다. 자연어 처리 (NLP) 상황에서이 코퍼스는 특정 목적으로 사용되는 텍스트 모음을 나타냅니다.

자연어 처리에서 코퍼스는 텍스트 마이닝 (text mining), 러닝 (deep learning), 기계 학습 (machine learning) 인공 지능 (artificial intelligence) 프로세스에 사용됩니다. 필요에 따라 이러한 프로세스는 단일 언어 코퍼스 또는 다국어 코포 라를 사용해야 수도 있습니다.

Starlang에서는 언어 학자 팀과 함께 텍스트 데이터 (원시 데이터)를 선별, 분류 및 주석이 달린 코포라로 바꿉니다. 이를 위해 고객 피드백 및 의견, 비즈니스 파일 및 문서, 웹 페이지 내용 및 인기 키워드와 같은 많은 양의 원시 텍스트 (일반 텍스트)를 처리합니다.

코퍼스를 어떻게 구축합니까?

원시 데이터 (Raw data)

언어학자가 처리 데이터 (Data processed by our linguists)

도메인 코포 (Domain-specific corpora)

코퍼스를 만들기 위해 언어학자가 필요한 이유는 무엇입니까?

자연어 처리 (NLP)는 계산 과학 및 언어 전문가 모두의 입력이 필요한 복잡하고다면적인 작업입니다. 기계 학습과 같은 일부 NLP 단계는 코더 및 소프트웨어 엔지니어의 도움이 더 필요한 반면 코퍼스 구축과 같은 다른 단계는 언어학 자의 도움이 더 필요합니다. 이 분업의 이유는 인간 언어가 NLP 프로세스와 관련하여 다양한 도전을 제기하기 때문입니다.

데이터의 시맨틱 무결성을 보호하기 위해 코포 라를 구축하는 동안 언어 학자와 협력합니다.

다양한 리포지토리는 코퍼스 구축과 같은 목적으로 NLP 프로젝트에 통합 될 수있는 사전을 제공합니다. 그러나 이러한 사전은 의도 된 단어의 의미를 포착하지 못합니다. 결과적으로, 터키어의 형태 학적으로 풍부한 유형과 복잡한 의미로 인해 텍스트 데이터를 정확하고 일관된 방식으로 처리 할 수 없습니다. 그래서 노련한 언어 학자 팀과 함께 원시 데이터를 처리하고 터키어의 고유 한 특성을 기반으로 NLP 작업을 수행합니다.

텍스트의 의미 무결성을 보호하고 NLP 프로세스를 가속화하기 위해 정확하고 일관된 데이터 처리를 제공합니다

고객님께서 사전 처리, 데이터 정렬 및 이와 유사한 작업에 시간을 낭비하지 않게 처리 된 (및 요청 된 경우 주석이 달린) 코퍼스를 제공합니다. 또한 텍스트 마이닝, 기계 학습 및 인공 지능 프로세스를 더 빠르게 수행하고 더 나은 결과를 얻을 수 있습니다.

고객님의 코퍼스에 도메인 특정 단어와 용어를 제공합니다

터키어는 50.000 개 이상의 기본 형식으로 구성되어 있지만 지정된 데이터 세트에 모두있는 것은 아닙니다. 더욱이, 이들 형태의 상당 부분은 하나 이상의 고유 한 의미를 갖는다. 그렇기 때문에 이러한 형태와 그 의미를 모두 포함하는 사전이나 코퍼스를 사용하면 모호하고 종종 일관성이없는 결과가 발생합니다.

NLP 프로세스가 정확한 분석과 의미있는 결과를 제공 할 수 있도록 당사의 언어 학자 팀은 관련 용어, 도메인 별 단어 및 컨텍스트 별 의미를 코퍼스에 포함시킵니다.

고객님의 코퍼스가 항상 사용 가능한지 확인합니다

우리는 조직의 고유 한 요구에 따라 구축 된 도메인 별 코퍼스 및 사전을 제공합니다. 따라서, 자신의 속도와 원하는 시간에 코퍼스를 텍스트 마이닝, 딥 러닝, 기계 학습 및 인공 지능 프로젝트에 통합 할 수 있습니다.

 

도메인 코퍼스가 필요하십니까?