Furmazzioni, Università è università
Cosa hè Corpus Linguistics?
Just uni pochi decennii fà a automate i ricerchi linguistichi, scentifichi pussutu sognu solu di. U travagliu hè fatta da a manu, è tira un gran numaru di i studienti, ci hè una di prubbabbilità sustanziali sbagli "fià", è più ntî - tuttu stu pigliò un longu, longu tempu.
Cù u sviluppu di a tecnulugia urdinatore ogettu pussibuli à fà ricerche nant'à l 'ordine di magnitudini a suprana, è oghje unu di i indicazione più spiranza in u studiu di a lingua hè un linguistica corpus m. U so funzione principale hè l 'usu di grande quantità di nfurmazzioni testu, nantu à u corsu in una sola basa di dati, in un modu particulari è chiamatu lu corpu marcate.
A data, ci sò parechji edifizii creatu cù sfarenti scopi nant'à u fundamentu di vari matiriali linguisticu vechja da milioni di decine di billions di unità di vucabbulariu. Sta parti hè ricunnisciutu cum'è una spiranza è indiatu impurtante prugressi versu i scopi dumanda è a ricerca. Sperti, unu modu o un altru chi tratta cù lingua naturale, si hè cunsigliatu à prènniri cunfidenza cu lu corpu di i testi almenu à un liveddu di basi.
Storia di corpus m Linguistica
A furmazioni di sta tendenza hè a causa di i criazioni di i Stati Uniti d'America à corpu Brown in u principiu 60-IES di l 'ùrtimu sèculu. A cullezzione include i testi di tutti i 1 milionu di forma parolla, è oghje u corpu di stu taglia avissi a èssiri propiu ch'ellu mettia. Stu hè largamente a causa di l 'rìtimu di u sviluppu di a tecnulugia urdinatore, oltri a la criscenti dumanni di novu risorsi di a ricerca.
In lu 90 linguistica corpus m fubbi in una disciplina piena è indipindenti, una racolta di testi sò statu tiratu all'ariu e marcatu di dicini di lingue. In stu pirìudu lu statu creatu, per esempiu, u British National Corpus 100 miliuna di Reali.
Cù u sviluppu di stu spaziu di linguistics, volumi testu hè diventata più è di più (è ghjunghje sin'à billions di unità francese), è u mudellu hè diventata più diversi. A data, u spaziu Internet ponu esse trovu carcassi scritti è lingua, multilinguìsimu è di letteratura artisticu o accademicu amparera-orientatu, oltri ca comu tanti altri spezie parlatu.
Cosa sò i varri
tippi Body in u linguistica corpu, pò esse disposti per parechje raghjone. Intuitively, li basi di l 'classìfica pò esse una lingua testu (Russian, inglese), u modu accessu (aprire la surgente, chiusu, cummirciali), u Genre di u materiale surghjente (puisia, ducumintariu, accademicu, ghjochi).
manera Interesting rende materia di lingua parlata. Dapoi u n'hè dilibbirata di tali discursu à creà un ambiente artificiali pè u respondents, è u matiriali favurèvuli micca pussutu esse chjamatu "spuntanea", mudernu linguistica corpus m hè andatu l 'altru modu. A vuluntarii spartuti hè dutatu cù una ciamatu, è durante u ghjornu di pruduce un attu di tutte e conversations, in lu quali participeghja. People intornu, di sicuru, pudete micca sapè chì in lu corsu di cunversazione bassu cuntribuisci à u sviluppu di a scienza.
Dopu ricevutu fiche cullucatu in basa di dati, è sò accumpagnati da stampato tipu testu trascrittu. Cusì, si diventa pussibule Sign vulsutu à crià un espace discursu cutidianu orale.
dumanda
U Francà Di pussibili l 'usu di a lingua, è forsi l' usu di costruzioni testi. I metudi di dumandà u scafu in linguistica pò esse:
- Criazioni di un programma serenità la chiavi, hè anchiamènti usatu in pulitica e los a teniri 'ombra di risposti pusitivi è negativi di elettori è i clienti, rispittivamenti.
- Connection sistemu infurmazioni à dizionari è i traduttori di migliurà u so funziunamentu.
- A variità di fatti di ricerca chì cuntribuisce à a cunniscenza di l'unità di lingua, di la storia di u so sviluppu è di saggi di cambiamenti in u vicinu avvene.
- U sviluppu di sistema retrieval infurmazione basatu supra l 'murfulòggicu, sintassi, simàntici è altre funziunalità.
- Uttimizzazzioni di i diversi sistemi linguisticu è altri.
Usu di costruzioni
listessu interfaccia risorsa cù un mutore di ricerca, typique, è cuneiforme lu me a entre una parolla, o cumminazzioni di e parolle à circà i basi infurmazione. Apart formanu lu quistione esatta pò aduprà a versione accumpagnatu, chì permette di truvà infurmazioni Boccaccio nant'à guasi ogni criterii linguisticu.
basi di ricerca pò esse:
- culturale di un particulare gruppu di parti of speech;
- features, grammaticali;
- straniere;
- voline stylistic è emutivu.
Tù dinù pò mudificà criterii di ricerca di un ordine di e parolle, per esempiu, à truvà tutte e avvenimenti di u verbu in lu prisente postu, prima pirsuna singulari, chì vene dopu à a pripusizzioni "a" è l 'nome in lu casu di accuddi. A suluzione à un compitu com'è simplici pigghia lu me un pocu seconde, è hè solu una pochi clicchi surciu in i campi, renseigné.
U prucessu di crià
A ricerca stessa pò esse purtatu fora à tutti i subcorpus è unu specificamente sceltu, sicondu i bisogni in jùnciri un particulare scopu:
- U prima passu hè di definisce chì i testi di furmari li basi di lu casu. Per mutivi pratica, si friquintimenti usatu, nuvelle nutizia jurnalistica, cumenti online. U prughjettu di ricerca hè l 'usu di una scelta larga di scrive un pacchettu, ma u testu di duvia esse scelta secondu à certi terra, cumuna.
- A cullezzione risurtatu di testi sottumissi à pretreatment, ci hè a currezzione di sbagli, si nuddu, preparatu da discrizzione bibliographic è suverchiu-linguisticu di u testu.
- Hè micca squassata tutte e infurmazione non-Boccaccio: Sciroccu la gràfica, pictures, tavule.
- Hè una Natural di Reali, chì sò tipicamenti discursu, di più precisione.
- Infine, si purtò a pluralità murfulòggicu, chiaru e àutri le pigghiau d 'elementi.
U risultatu di tutte e compra fatta da una struttura di sintassi cun truvava distribuite una pluralità di elementi, ugnunu dî quali si distingue parti di parrata, grammaticali è, in certi casi, i spicificu simàntici.
Difficultà à crià palazzi
Hè impurtante di capisce chì ùn hè micca abbastanza a mintiri assemi un ghjocu di parolle, o esempio di u corpu. On a unu a manu, a tutalità di i testi deve esse equilibrati, chì hè, rapprisèntanu diffirenti tipi di testi in certi statura. Nantu l 'altru - u cuntenutu sanu sanu di l'accintu deve esse bellu staccatu in un modu particulari.
U primu prublema hè solving da un accordu: per esempiu, in u manuale include 60% di i testi di literatura, u 20% di documentaries, un certu pircintuali hè datu 'na rapprisintazzioni scritti di la lingua parrata, ligislazzioni, opere scentificu, etc. perfetta corpu equilibrati ricetta oghje ùn esisti ...
A siconda quistioni, riguardu à u mudellu dati, cambiamentu simule. Ci sò prugrammi spiciali è alguritmi usatu pi dilimitatu in autumàticu di i testi, ma ch'elli ùn dà un risultatu perfetta, pò causari disruptions è bisognu Remix manuali. Franchisee e sfide di a droghe cù stu prublemu sò discritti cù minuzia in un carta V. P. Zaharova di linguistica corpus m.
Sign testu hè realizatu à parechji livelli, chi noi liste sottu.
tagghia murfulòggicu
Da a scola, avemu da sapere chi in la lingua russa, ci sò parechji parti di parrata, è ognunu di li hà u so propriu tipu. Per esempiu, u verbu hà categorie di inclination è lu tempu in cui senza nome. un parranti nativi, senza esitazioni codda paroli è verbi cuniugamu, ma à signalà u corpu di 100 millioni d '. Reali travagghiu manuali ùn funziunaranu. Tutti u funziunamentu nicissariu pò pruvà lu computer, parò, di sta ch'ellu ci vole à esse insignatu.
tagghia murfulòggicu, lu computer devi "capisce" ogni parolla comu na certa parti dû discursu avè certe funziunalità grammaticali. Dapoi u Russian (e qualunqui avutra lingua) opera un numeru di e règule rigulari, hè pussibili fà custruisce una prucedura automatica di l 'anàlisi murfulòggicu, Kindle a vittura di un numeru di alguritmi. Tuttavia, ci sò eccezzioni a li reguli, oltri ca comu diversi fattori quistioni. Cum'è un risultatu, castiat cun rete urdinatore di oghje hè luntanu da a unicu, è ancu 4 errore% sbuccia un valori di 4 mln. Words nant'à u corpu di 100 millioni d '. Mancusso, averebbenu Remix manuali.
libru Detailed discrivi u prublema Zaharova V. P. "Corpus Linguistics".
annotation sintassi
Immisu o parsing - un prucedimentu chì definisce u raportu di e parolle in una sintenza. Cù un gruppu di alguritmi hè pussìbule di definisce u testu di sughjettu, predicate, aghjunte, parechje turni di discursu. Truvà fora chì e parolle sò l 'ordine di lu, è chì - dipindenti, noi pò tirà effittivamenti infurmazione da u testu è ad insignà da u machine à jumbo in risposta à una dumanda di ricerca solu i infurmazioni à noi ntirissanti.
By u stradellu, mudernu search engines utilizà stu à dà fora numari specifichi invece di i testi cassa in risposta à richieste apprupriati cume "cumu calurii in una mela", o "a luntananza da Moscow a St. Petersburg." Tuttavia, à capisce ancu i principii di u prucessu di discritta da u bisognu di cunsultà u "Introduction à la Corpus Linguistics", o altre Tutorial basi.
Sign simàntici
U straniere di a parolla - hè, in termini sèmplice, u significatu. accostu ricunnisciuta da appiecà à l 'anàlisi simàntici di una parolla Paternité e balise, liati à a so quelle di un gruppu di categorie simàntici è sottucategurie. Vergogna à nantu à u corsu hè di primura per optimizing alguritmi analizà u tonu di u testu, summarization automatica è altre pratiche affari di linguistica corpus m.
Ci sò un numeru di "lingua latina" di l 'alivu, raprisenta una parolla astrattu cù una assai larga straniere. Comu sò furmati un ramu di l 'nodes àrburu, chì cuntenenu elementi di più è più specifichi di vucabbulariu. Per esempiu, a parolla "criatura" pò esse assuciati incù cuncetta comu "umana" è "bestia". A prima parolla da cuntinuà a si fora in differente mestieri, termini del Guercino, naziunalità, è lu secunnu - su classi è tippi di l 'animali.
L'usu di sistemi retrieval infurmazione
Arii di usu di linguistica corpus m cummogghia diversi campi di l 'attività. Housings sunnu usati di la priparazioni è currezzione di dizionari, di creà sistemi traduzzione autumàticu, annotating, cci facts, serenità lu tonu è altri trasfurmazioni testu.
In più, com'è i risorsi sò attivamenti usati in lu studiu dî lingui e miccanismi di funziunà di lingua in generali munnu. Accessu à a grande volumi di infurmazioni pri-Priparati favurizeghja studiu rapida e cumpleta di u multilinguismo di lingue di sviluppu, è cambià niuluggismi furmazzioni stadda vilocitati discursu valurizeghja unità di vucabbulariu e àutri.
Dapoi i travagli cù stu grande quantità di dati abbisogna plantes, oghje ci hè vicinu azioni trà lu computer e corpus m Linguistics.
Russian Corpus National
Stu casu (abbreviated NKRYA) include un numeru di subcorpus, chì permette l'usu di una risorsa di una scelta larga di fatti.
A materia in a basa di dati sò divisi NKRYA:
- a publicazioni in 90 e 2000 i media, à tempu di gnustrii e straneri;
- Scuola di discursu;
- aktsentologicheski marcatu testi (i.e., u Obed di ddoi at);
- idiomi parrati;
- puisia;
- Materia cù sintassi è altri le.
U sistemu infurmazione includendu Subcorpus cun traduzioni tempu di travagghi da Russian in inglese, tedesco, francese, è parechje altre lingue (è viciversa).
Dinù in a basa di dati ci hè una sizzioni di i testi storica, rapprisenta lu discursu scritti in Russian in differente epupea di u so sviluppu. Ci hè dinù un corpu, a furmazione, chì pò esse tandu interessante di i citadini straniera in maestru di la lingua russa.
Russian Corpus National c'hè 400 miliuna di unità di vucabbulariu, è in parechji modi nanzu di una parte impurtante di e lingue di corpi l 'Europa.
verbes
Difatti in favore di a ricunniscenza di sta tendenza hè a dispunibilità di prumessi laburatoriu linguistica corpus m in università Russian, oltri straneri. Cu l 'usu di e ricerche in u quadru di sta infurmazioni è di ricerca risorsi impone u sviluppu di certi lochi in u campu di altu ticnoluggìa, sistemi quistioni-risponde, ma ùn hè trattatu, sopra.
Prumove u sviluppu di corpus m linguistica hè prividiri à tutti i livelli, ma dinò da a tecnica è in termini di matematiche di novu alguritmi chì ottimisazione di l 'azzione di spende è trasfurmeghja infurmazione, empowering piante, di più RAM, è à u cunsumadore, perchè utilizatori sò di più in più manere di utilizà stu tipu di risorsa in u so cutidianu a vita è u travagliu.
in cunclusioni
In lu menzu di l 'ùrtimu sèculu in 2017 paria futuru luntanu, induve spaceships viaghju à traversu l' Universu e détritus fà tuttu u travagliu per u populu. In fatti, scienza hè SANGUIFICASSE cun "ostàculi biancu" e facennu prove dispirata a rispunniri a quistione di l'umanità di seculi pédant. Dumande funziunà di lingua quì torna un locu d 'onuri, e spina è inginieru linguistica ci ponu aiutà à risponde à elli.
Trasfurmazioni di grande gruppi dati pò detect essayer, esiste inaccessibili, predict u sviluppu di a funziunalità lingua specifichi à circà la criazzioni di e parolle in tempu quasi vera.
Nantu un liveddu di vita, l 'enclosures glubale pò esse vistu, per esempiu, cum'è un putenziale strumentu a griglia lu sfondu publicu - u Internet hè un arricchisci aghjurnata a basa diversi testi cutidianu creatu da degli: issu cumenti e crìtiche, è articuli, è molti altri formi di paroli.
In più, u travagliu cù i córpi participeghja à u sviluppu di u listessu vulcanizing, chì sò ingaghjati in retrieval infurmazioni, ùn sò pràticu cù u serviziu "Google", o "Yandex", traduzzione di machine, dizionari ilittronica.
Ci ponu confiant sprime chì u linguistica corpus m face solu u primu passu, e in lu vicinu avvene vi ciuriri.
Similar articles
Trending Now